Benchmarks de Agentes e Contexto Longo
Benchmarks de Agentes
GAIA — General AI Assistants
- *rXiv:*2311.12983 (Meta, HuggingFace, 2023)
- *amanho:*466 questões em 3 níveis de dificuldade
- *ormato:*Questões reais que requerem web search, código, arquivo, raciocínio multistep
- *umanos:*Acertam ~92%
- *LMs agênticos top:*~65% (Nível 1), ~40% (Nível 3)
- *or que é difícil:*Exige cadeia real de ferramentas, não apenas LLM
τbench (Taubench)
- *rXiv:*2406.12045 (Sierra AI, 2024)
- *omínios:*Atendimento ao cliente (varejo, companhia aérea)
- *ormato:*Agente interage com usuário simulado + banco de dados real → resolve ticket
- *ede:*Tool use preciso, consistência em conversa longa, correção de erros
- *elevante:*Cenários enterprise; não trivialmente respondível com RAG
WebArena
- *rXiv:*2307.13854 (CMU, 2023)
- *ormato:*Navegação real em websites simulados (e
commerce, fóruns, código, email)
- *valiação:*Tarefa completada corretamente?
- *core top (2025):*~60% (com modelos de visão)
VisualWebArena
- *rXiv:*2401.13649
- *xtensão:*WebArena com elementos visuais (imagens, gráficos, captchas)
OSWorld
- *rXiv:*2404.07972 (2024)
- *ormato:*Tarefas reais em desktop (Linux, Windows, macOS) com screenshot
- *xemplos:*"Abra o LibreOffice, crie planilha X, salve como..."
- *core top:*~25% (muito difícil)
AgentBench
- *rXiv:*2308.03688
- *omínios:*OS, DB, KG, alfworld, webshop, mind2web, housetour, webarena
- *ormato:*Avaliação unificada de agentes em 8 domínios
- *rXiv:*2307.16789
- *oco:*Uso de 16,464 APIs reais (RapidAPI)
- *valiação:*Agente seleciona e chama APIs corretamente
- *ais realista:*200K instruções com ferramentas reais
SWE-agent
- *rXiv:*2405.15793
- *istema:*Agent interface + GPT
4 para SWEbench
- *ecanismo:*ACI (Agent-Computer Interface) otimizado para edição de código
- *esultado inicial:*12.5% → base para sistemas mais modernos
AppWorld
- *rXiv:*2407.18900
- *oco:*Agentes em apps simulados (música, email, calendário, banco)
- *nteração:*APIs de app no estilo REST
- *ealismo:*Cenários de dia
adia com múltiplas dependências
Benchmarks de Contexto Longo
RULER — What's the Real Limit of Long Context LLMs?
- *rXiv:*2404.06654 (NVIDIA, 2024)
- *amanho:*4K a 128K tokens
- *arefas:*
- Single/Multi-hop NIAH (Needle In A Haystack)
- Variable tracking (rastrear variáveis)
- QA multi-documento
- *esultado:*A maioria dos modelos degrada muito acima de 32K tokens
HELMET — How to Evaluate LLMs on Long-Context Tasks
- *rXiv:*2410.02694
- *arefas:*RAG, sumário de livros, citação de artigos, ICL com muitos exemplos
- *omprimentos:*Até 128K tokens
- *iferencial:*Tarefas realistas; não apenas NIAH
NIAH — Needle In A Haystack
- *onceito:*Esconder uma "agulha" (frase com informação) em um longo "palheiro" (texto irrelevante)
- *este:*Modelo consegue recuperar a informação?
- *amanho:*Geralmente testado de 1K a 1M tokens
- *erramenta:*github.comgkamradtLLMTest_NeedleInAHaystack
- *imitação:*Teste artificial — não reflete uso real do contexto longo
Variantes
- *ulti-Needle:*Múltiplas agulhas no mesmo haystack
- *istrator:*Haystack com informações contraditórias
- *rXiv:*2305.14196
- *oco:*Sumário, QA e raciocínio em documentos muito longos
- *atasets:*GovReport, SumScroll, QASPER, QuALITY, Musique, SQuALITY, etc.
- *omprimentos:*Até 200K tokens
LOONG
- *rXiv:*2311.04939
- *oco:*Raciocínio longo e coerente (100K+ tokens)
- *arefa:*Novel QA — perguntas sobre livros inteiros
InfiniteRAG (2025)
- *oco:*RAG em contextos de 1M+ tokens
- *elevante para Kode:*Ingestão de repositórios inteiros como contexto
Análise de Memória em Agentes
MemGPT
- *rXiv:*2310.08560
- *deia:*Sistema operacional para LLMs — gerencia memória de curto e longo prazo explicitamente
- *ecanismo:*"Paginação" de contexto; storage hierárquico
- *elevância:*Base conceptual para agentes com memória persistente
SWE-Bench Pro
Versão mais difícil do SWE-bench original; issues de repositórios mais complexos, com menor risco de data contamination.
| Modelo |
Score (abril 2026) |
| Kimi K2.6 |
58.6% |
| GPT-5.4 |
57.7% |
| Gemini 3.1 Pro |
54.2% |
| Claude Opus 4.6 (max effort) |
53.4% |
GDPval (OpenAI)
- *rigem:*OpenAI (2026), interno
- *oco:*Tarefas de knowledge work profissional (análise, escrita técnica, pesquisa, planejamento estratégico)
- *ulgadores:*Especialistas humanos de domínio (não LLM
asjudge)
- *PT-5.4:*83% de acerto — record à época do lançamento
OSWorld-Verified / WebArena Verified
Variantes auditadas dos benchmarks originais, com tarefas verificadas manualmente para garantir resolubilidade e corretude da avaliação.
- *PT-5.4:*Record em ambos no lançamento (março 2026)
- *oco:*Computer use — automação real de desktop e browser
Agent-SafetyBench
- *oco:*Avaliação de segurança em agentes autônomos
- *scala:*349 ambientes de interação; 2.000 casos de teste; 8 categorias de risco
- *obertura:*Maior avaliação de segurança para agentes publicada até 2026
CUB — Computer-Use Benchmark
- *oco:*Unificado para computer use (desktop + browser + terminal)
- *doção crescente:*Junto com GAIA, tornou-se referência independente para agentes em 2025
Tabela: Scores de Modelos em Benchmarks Agênticos (2026)
| Modelo |
GAIA (avg) |
WebArena |
OSWorld |
τ-bench (retail) |
| GPT-5 |
72% |
63% |
31% |
66% |
| Claude Opus 4.7 |
68% |
58% |
28% |
63% |
| Gemini 2.5 Pro |
65% |
54% |
25% |
59% |
| GPT-4o |
53% |
44% |
14% |
49% |
| GPT-4 (2023) |
32% |
28% |
8% |
32% |
| Leaderboard |
URL |
Foco |
| GAIA Leaderboard |
huggingface.cospacesgaia-benchmark/leaderboard |
Agentes gerais |
| WebArena |
webarena.dev |
Web automation |
| OSWorld |
os-world.github.io |
Desktop automation |
| SWE-bench |
swe-bench.github.io |
Código |
| BenchLM.ai |
benchlm.ai |
220+ LLMs; 178 benchmarks (agentes = 22% do score) |