Agentes long context

Benchmarks de Agentes e Contexto Longo

Benchmarks de Agentes

GAIA — General AI Assistants

*rXiv:*2311.12983 (Meta, HuggingFace, 2023)
*amanho:*466 questões em 3 níveis de dificuldade
*ormato:*Questões reais que requerem web search, código, arquivo, raciocínio multistep
*umanos:*Acertam ~92%
*LMs agênticos top:*~65% (Nível 1), ~40% (Nível 3)
*or que é difícil:*Exige cadeia real de ferramentas, não apenas LLM

τbench (Taubench)

*rXiv:*2406.12045 (Sierra AI, 2024)
*omínios:*Atendimento ao cliente (varejo, companhia aérea)
*ormato:*Agente interage com usuário simulado + banco de dados real → resolve ticket
*ede:*Tool use preciso, consistência em conversa longa, correção de erros
*elevante:*Cenários enterprise; não trivialmente respondível com RAG

WebArena

*rXiv:*2307.13854 (CMU, 2023)
*ormato:*Navegação real em websites simulados (e~~commerce, fóruns, código, e~~mail)
*valiação:*Tarefa completada corretamente?
*core top (2025):*~60% (com modelos de visão)

VisualWebArena

*rXiv:*2401.13649
*xtensão:*WebArena com elementos visuais (imagens, gráficos, captchas)

OSWorld

*rXiv:*2404.07972 (2024)
*ormato:*Tarefas reais em desktop (Linux, Windows, macOS) com screenshot
*xemplos:*"Abra o LibreOffice, crie planilha X, salve como..."
*core top:*~25% (muito difícil)

AgentBench

*rXiv:*2308.03688
*omínios:*OS, DB, KG, alfworld, webshop, mind2web, housetour, webarena
*ormato:*Avaliação unificada de agentes em 8 domínios

ToolBench

*rXiv:*2307.16789
*oco:*Uso de 16,464 APIs reais (RapidAPI)
*valiação:*Agente seleciona e chama APIs corretamente
*ais realista:*200K instruções com ferramentas reais

SWE-agent

*rXiv:*2405.15793
*istema:*Agent interface + GPT~~4 para SWE~~bench
*ecanismo:*ACI (Agent-Computer Interface) otimizado para edição de código
*esultado inicial:*12.5% → base para sistemas mais modernos

AppWorld

*rXiv:*2407.18900
*oco:*Agentes em apps simulados (música, email, calendário, banco)
*nteração:*APIs de app no estilo REST
*ealismo:*Cenários de diaadia com múltiplas dependências

Benchmarks de Contexto Longo

RULER — What's the Real Limit of Long Context LLMs?

*rXiv:*2404.06654 (NVIDIA, 2024)
*amanho:*4K a 128K tokens
*arefas:*
- Single/Multi-hop NIAH (Needle In A Haystack)
- Variable tracking (rastrear variáveis)
- QA multi-documento
*esultado:*A maioria dos modelos degrada muito acima de 32K tokens

HELMET — How to Evaluate LLMs on Long-Context Tasks

*rXiv:*2410.02694
*arefas:*RAG, sumário de livros, citação de artigos, ICL com muitos exemplos
*omprimentos:*Até 128K tokens
*iferencial:*Tarefas realistas; não apenas NIAH

NIAH — Needle In A Haystack

*onceito:*Esconder uma "agulha" (frase com informação) em um longo "palheiro" (texto irrelevante)
*este:*Modelo consegue recuperar a informação?
*amanho:*Geralmente testado de 1K a 1M tokens
*erramenta:*github.comgkamradtLLMTest_NeedleInAHaystack
*imitação:*Teste artificial — não reflete uso real do contexto longo

Variantes

*ulti-Needle:*Múltiplas agulhas no mesmo haystack
*istrator:*Haystack com informações contraditórias

ZeroSCROLLS

*rXiv:*2305.14196
*oco:*Sumário, QA e raciocínio em documentos muito longos
*atasets:*GovReport, SumScroll, QASPER, QuALITY, Musique, SQuALITY, etc.
*omprimentos:*Até 200K tokens

LOONG

*rXiv:*2311.04939
*oco:*Raciocínio longo e coerente (100K+ tokens)
*arefa:*Novel QA — perguntas sobre livros inteiros

InfiniteRAG (2025)

*oco:*RAG em contextos de 1M+ tokens
*elevante para Kode:*Ingestão de repositórios inteiros como contexto

Análise de Memória em Agentes

MemGPT

*rXiv:*2310.08560
*deia:*Sistema operacional para LLMs — gerencia memória de curto e longo prazo explicitamente
*ecanismo:*"Paginação" de contexto; storage hierárquico
*elevância:*Base conceptual para agentes com memória persistente

SWE-Bench Pro

Versão mais difícil do SWE-bench original; issues de repositórios mais complexos, com menor risco de data contamination.

Modelo	Score (abril 2026)
Kimi K2.6	58.6%
GPT-5.4	57.7%
Gemini 3.1 Pro	54.2%
Claude Opus 4.6 (max effort)	53.4%

GDPval (OpenAI)

*rigem:*OpenAI (2026), interno
*oco:*Tarefas de knowledge work profissional (análise, escrita técnica, pesquisa, planejamento estratégico)
*ulgadores:*Especialistas humanos de domínio (não LLMasjudge)
*PT-5.4:*83% de acerto — record à época do lançamento

OSWorld-Verified / WebArena Verified

Variantes auditadas dos benchmarks originais, com tarefas verificadas manualmente para garantir resolubilidade e corretude da avaliação.

*PT-5.4:*Record em ambos no lançamento (março 2026)
*oco:*Computer use — automação real de desktop e browser

Agent-SafetyBench

*oco:*Avaliação de segurança em agentes autônomos
*scala:*349 ambientes de interação; 2.000 casos de teste; 8 categorias de risco
*obertura:*Maior avaliação de segurança para agentes publicada até 2026

CUB — Computer-Use Benchmark

*oco:*Unificado para computer use (desktop + browser + terminal)
*doção crescente:*Junto com GAIA, tornou-se referência independente para agentes em 2025

Tabela: Scores de Modelos em Benchmarks Agênticos (2026)

Modelo	GAIA (avg)	WebArena	OSWorld	τ-bench (retail)
GPT-5	72%	63%	31%	66%
Claude Opus 4.7	68%	58%	28%	63%
Gemini 2.5 Pro	65%	54%	25%	59%
GPT-4o	53%	44%	14%	49%
GPT-4 (2023)	32%	28%	8%	32%

Plataformas de Leaderboard de Agentes

Leaderboard	URL	Foco
GAIA Leaderboard	huggingface.cospacesgaia-benchmark/leaderboard	Agentes gerais
WebArena	webarena.dev	Web automation
OSWorld	os-world.github.io	Desktop automation
SWE-bench	swe-bench.github.io	Código
BenchLM.ai	benchlm.ai	220+ LLMs; 178 benchmarks (agentes = 22% do score)