Agentes long context

Benchmarks de Agentes e Contexto Longo

Benchmarks de Agentes

GAIA — General AI Assistants

  • *rXiv:*2311.12983 (Meta, HuggingFace, 2023)
  • *amanho:*466 questões em 3 níveis de dificuldade
  • *ormato:*Questões reais que requerem web search, código, arquivo, raciocínio multistep
  • *umanos:*Acertam ~92%
  • *LMs agênticos top:*~65% (Nível 1), ~40% (Nível 3)
  • *or que é difícil:*Exige cadeia real de ferramentas, não apenas LLM

τbench (Taubench)

  • *rXiv:*2406.12045 (Sierra AI, 2024)
  • *omínios:*Atendimento ao cliente (varejo, companhia aérea)
  • *ormato:*Agente interage com usuário simulado + banco de dados real → resolve ticket
  • *ede:*Tool use preciso, consistência em conversa longa, correção de erros
  • *elevante:*Cenários enterprise; não trivialmente respondível com RAG

WebArena

  • *rXiv:*2307.13854 (CMU, 2023)
  • *ormato:*Navegação real em websites simulados (ecommerce, fóruns, código, email)
  • *valiação:*Tarefa completada corretamente?
  • *core top (2025):*~60% (com modelos de visão)

VisualWebArena

  • *rXiv:*2401.13649
  • *xtensão:*WebArena com elementos visuais (imagens, gráficos, captchas)

OSWorld

  • *rXiv:*2404.07972 (2024)
  • *ormato:*Tarefas reais em desktop (Linux, Windows, macOS) com screenshot
  • *xemplos:*"Abra o LibreOffice, crie planilha X, salve como..."
  • *core top:*~25% (muito difícil)

AgentBench

  • *rXiv:*2308.03688
  • *omínios:*OS, DB, KG, alfworld, webshop, mind2web, housetour, webarena
  • *ormato:*Avaliação unificada de agentes em 8 domínios

ToolBench

  • *rXiv:*2307.16789
  • *oco:*Uso de 16,464 APIs reais (RapidAPI)
  • *valiação:*Agente seleciona e chama APIs corretamente
  • *ais realista:*200K instruções com ferramentas reais

SWE-agent

  • *rXiv:*2405.15793
  • *istema:*Agent interface + GPT4 para SWEbench
  • *ecanismo:*ACI (Agent-Computer Interface) otimizado para edição de código
  • *esultado inicial:*12.5% → base para sistemas mais modernos

AppWorld

  • *rXiv:*2407.18900
  • *oco:*Agentes em apps simulados (música, email, calendário, banco)
  • *nteração:*APIs de app no estilo REST
  • *ealismo:*Cenários de diaadia com múltiplas dependências

Benchmarks de Contexto Longo

RULER — What's the Real Limit of Long Context LLMs?

  • *rXiv:*2404.06654 (NVIDIA, 2024)
  • *amanho:*4K a 128K tokens
  • *arefas:*
    • Single/Multi-hop NIAH (Needle In A Haystack)
    • Variable tracking (rastrear variáveis)
    • QA multi-documento
  • *esultado:*A maioria dos modelos degrada muito acima de 32K tokens

HELMET — How to Evaluate LLMs on Long-Context Tasks

  • *rXiv:*2410.02694
  • *arefas:*RAG, sumário de livros, citação de artigos, ICL com muitos exemplos
  • *omprimentos:*Até 128K tokens
  • *iferencial:*Tarefas realistas; não apenas NIAH

NIAH — Needle In A Haystack

  • *onceito:*Esconder uma "agulha" (frase com informação) em um longo "palheiro" (texto irrelevante)
  • *este:*Modelo consegue recuperar a informação?
  • *amanho:*Geralmente testado de 1K a 1M tokens
  • *erramenta:*github.comgkamradtLLMTest_NeedleInAHaystack
  • *imitação:*Teste artificial — não reflete uso real do contexto longo

Variantes

  • *ulti-Needle:*Múltiplas agulhas no mesmo haystack
  • *istrator:*Haystack com informações contraditórias

ZeroSCROLLS

  • *rXiv:*2305.14196
  • *oco:*Sumário, QA e raciocínio em documentos muito longos
  • *atasets:*GovReport, SumScroll, QASPER, QuALITY, Musique, SQuALITY, etc.
  • *omprimentos:*Até 200K tokens

LOONG

  • *rXiv:*2311.04939
  • *oco:*Raciocínio longo e coerente (100K+ tokens)
  • *arefa:*Novel QA — perguntas sobre livros inteiros

InfiniteRAG (2025)

  • *oco:*RAG em contextos de 1M+ tokens
  • *elevante para Kode:*Ingestão de repositórios inteiros como contexto

Análise de Memória em Agentes

MemGPT

  • *rXiv:*2310.08560
  • *deia:*Sistema operacional para LLMs — gerencia memória de curto e longo prazo explicitamente
  • *ecanismo:*"Paginação" de contexto; storage hierárquico
  • *elevância:*Base conceptual para agentes com memória persistente

SWE-Bench Pro

Versão mais difícil do SWE-bench original; issues de repositórios mais complexos, com menor risco de data contamination.

Modelo Score (abril 2026)
Kimi K2.6 58.6%
GPT-5.4 57.7%
Gemini 3.1 Pro 54.2%
Claude Opus 4.6 (max effort) 53.4%

GDPval (OpenAI)

  • *rigem:*OpenAI (2026), interno
  • *oco:*Tarefas de knowledge work profissional (análise, escrita técnica, pesquisa, planejamento estratégico)
  • *ulgadores:*Especialistas humanos de domínio (não LLMasjudge)
  • *PT-5.4:*83% de acerto — record à época do lançamento

OSWorld-Verified / WebArena Verified

Variantes auditadas dos benchmarks originais, com tarefas verificadas manualmente para garantir resolubilidade e corretude da avaliação.

  • *PT-5.4:*Record em ambos no lançamento (março 2026)
  • *oco:*Computer use — automação real de desktop e browser

Agent-SafetyBench

  • *oco:*Avaliação de segurança em agentes autônomos
  • *scala:*349 ambientes de interação; 2.000 casos de teste; 8 categorias de risco
  • *obertura:*Maior avaliação de segurança para agentes publicada até 2026

CUB — Computer-Use Benchmark

  • *oco:*Unificado para computer use (desktop + browser + terminal)
  • *doção crescente:*Junto com GAIA, tornou-se referência independente para agentes em 2025

Tabela: Scores de Modelos em Benchmarks Agênticos (2026)

Modelo GAIA (avg) WebArena OSWorld τ-bench (retail)
GPT-5 72% 63% 31% 66%
Claude Opus 4.7 68% 58% 28% 63%
Gemini 2.5 Pro 65% 54% 25% 59%
GPT-4o 53% 44% 14% 49%
GPT-4 (2023) 32% 28% 8% 32%

Plataformas de Leaderboard de Agentes

Leaderboard URL Foco
GAIA Leaderboard huggingface.cospacesgaia-benchmark/leaderboard Agentes gerais
WebArena webarena.dev Web automation
OSWorld os-world.github.io Desktop automation
SWE-bench swe-bench.github.io Código
BenchLM.ai benchlm.ai 220+ LLMs; 178 benchmarks (agentes = 22% do score)

Source: ../home/koder/dev/koder/meta/docs/ia/compendium/08-benchmarks/agentes-long-context.md