Gerais raciocinio
Benchmarks Gerais e de Raciocínio
*egra de ouro:*Nunca incluir datasets de avaliação no treino — contamina o benchmark e invalida comparações.
MMLU — Massive Multitask Language Understanding
- *rXiv:*2009.03300 (Hendrycks et al., UC Berkeley, 2020)
- *ormato:*15,908 questões de múltipla escolha (4 alternativas)
- *omínios:*57 assuntos: STEM, ciências sociais, humanidades, medicina, direito, filosofia...
- *so:*Avaliação de conhecimento do mundo; main benchmark de modelos gerais
- *imitação:*Saturado — modelos top ultrapassam 90% (GPT-4o: 88%, Llama 3 70B: 82%)
MMLU-Pro
- *rXiv:*2406.01574
- *elhoria:*10 alternativas (não 4); raciocínio necessário; 12K perguntas
- *enos saturado:*Modelos top em ~65% (mais discriminativo)
ARC — AI2 Reasoning Challenge
- *onte:*Allen AI (2018)
- *ormato:*7,787 questões de ciências do ensino fundamental (múltipla escolha)
- *RC-Easy:*Respondíveis por modelos retrieval simples
- *RC-Challenge:*Requerem raciocínio; mais difícil
- *tatus:*Amplamente saturado (GPT-4: 96%)
HellaSwag
- *rXiv:*1905.07830 (Zellers et al., 2019)
- *ormato:*Completar atividade do dia
adia (4 alternativas) - *ificuldade:*GPT
2 falha; GPT4 acerta >95% - *tatus:*Saturado para modelos modernos
WinoGrande
- *rXiv:*1907.10641 (Sakaguchi et al., 2019)
- *ormato:*Resolução de pronome ambíguo (Winograd schema)
- *amanho:*44,000 problemas; adversarially filtered
- *tatus:*Menos saturado que HellaSwag; ~85% estado da arte
TruthfulQA
- *rXiv:*2109.07958 (Lin et al., OpenAI, 2021)
- *oco:*Honestidade — modelo deve responder verdade, não reproduzir mitos populares
- *ormato:*817 questões; avaliação MC e geração livre
- *chado original:*GPT-3 acertava apenas 58% (pior que humanos)
- *tatus:*Modelos modernos chegam a 85%+ com RLHF
BIGBench / BIGBench Hard
- *epositório:*github.comgoogleBIG-bench
- *IG-Bench:*204 tarefas diversas; colaboração de 444 pesquisadores
- *IG-Bench Hard (BBH):*23 tarefas onde LLMs ficam abaixo de humanos
- *so:*Ainda relevante para tarefas que modelos modernos não saturaram
GSM8K — Grade School Math
- *rigem:*OpenAI (2021)
- *amanho:*8,500 problemas matemáticos de nível fundamental
- *ormato:*Resposta em linguagem natural; chain
ofthought é chave - *tatus:*Modelos top acertam 95%+; saturado
- *ubstituto:*MATH, AIME
MATH Dataset
- *rXiv:*2103.03874 (Hendrycks et al., 2021)
- *amanho:*12,500 problemas de competições matemáticas
- *ificuldade:*5 níveis (1fácil, 5olímpico)
- *reas:*Álgebra, Combinatória, Geometria, Teoria dos Números, Probabilidade, Pré-cálculo, Cálculo
- *tatus:*Modelo o3 de OpenAI: 96.7%; ainda discriminativo nos níveis 4–5
MATH-500
- Subconjunto de 500 problemas; frequentemente citado em papers
AMC / AIME — Competições Americanas de Matemática
AIME (American Invitational Mathematics Examination)
- *ormato:*15 questões; resposta inteira 0–999
- *ificuldade:*Olímpico americano
- *IME 2024:*30 problemas (I + II)
- *IME 2025:*30 problemas
| Modelo | AIME 2024 |
|---|---|
| o3 | 25.6/30 |
| DeepSeek-R1 | 23.2/30 |
| Claude Opus 4.7 | 20.1/30 |
| Gemini 2.5 Pro | 22.4/30 |
Humanity's Last Exam (HLE)
- *rigem:*Scale AI + CAIS (2025)
- *amanho:*3,000 perguntas contribuídas por PhDs e especialistas
- *ificuldade:*Projetado para ser o "teto" — problemas que humanos especialistas levam horas para resolver
- *esultado inicial:*GPT-4o: 3.3%, Gemini 1.5 Pro: 2.5% — extremamente difícil
- *tualização 2026:*o3-high: ~18%, Claude Opus 4.7: ~14%
- *ropósito:*Substituir benchmarks saturados; track progresso em fronteira
GPQA — GraduateLevel GoogleProof Q&A
- *rXiv:*2311.12022 (Rein et al., 2023)
- *amanho:*448 questões em biologia, física, química
- *ificuldade:*Doutorandos especialistas acertam ~65%
- *Google-proof":*Pesquisa no Google não ajuda
- *eferência:*o3: 87.7%, Claude Opus 4: 73.4%
DROP — Discrete Reasoning Over Paragraphs
- *rXiv:*1903.00161
- *ormato:*Leitura e cálculo: extração, operações matemáticas, conjuntos
- *so:*Raciocínio numérico sobre texto
ARC-AGI — Abstraction and Reasoning Corpus para AGI
- *riador:**rançois Chollet*(criador do Keras — ver
07-frameworks/treinamento-distribuido.md), 2019 - *aper:*On the Measure of Intelligence (arXiv 1911.01547) — Chollet propõe *edir inteligência por skill-acquisition efficiency* não por desempenho em tarefas conhecidas
- *ormato:*Padrões visuais de grade colorida (até 30×30) — input + output de poucos exemplos; inferir a regra e aplicar a um novo input
- *ilosofia:*Resistir ao "scale brute-force" — tasks projetadas para exigir generalização sobre *ore knowledge priors*(objetidade, simetria, contagem, topologia básica) que humanos têm inato; modelos que apenas memorizam padrões massivos falham
- *ificuldade:*Crianças de 8 anos acertam ~85% no semi
private set; GPT4o (2024) inicial: ~2%; LLMs scaling tradicional bate parede - *volução:*
- *RC
AGI1 (2019):*1000 tasks (400 training pública + 400 evaluation pública + 200 private). SOTA pré-2024 estagnado em ~30%. - *RC
AGI2 (2024):*Ainda mais difícil. SOTA dez/2024: o3high (highcompute mode com reasoning extensivo) ~76% no semi-private; humanos ~98%. - *RC
AGI3 (anunciado 2025, em desenvolvimento):*Chollet anuncia próxima geração focada em *nteractive agentic tasks*(não só I/O frame estático). Ainda mais resistente a brute-force.
- *RC
ARC Prize (arcprize.org)
- *RL:*arcprize.org · Leaderboard: arcprize.org/leaderboard · GitHub: arcprize/ARC-AGI
- *rganização:**RC Prize Foundation* fundada por *rançois Chollet + Mike Knoop*(cofundador da Zapier) em 2024
- *strutura da competição (anual):*
- *rand Prize (US$ 600.000):*primeiro a atingir ≥ 85% no private evaluation set (ainda não reivindicado em 2025-2026)
- *op score, top paper, efficiency prizes:*premiações menores (~US$ 50k cada)
- Total prize pool: *S$ 1.000.000+*por edição
- *egras de compute:*evaluation rodada em ambiente controlado com *imite de compute*(Kaggle notebook ~12h, sem internet) — desincentiva "throw o3-high US$ 350k de inferência" pois não qualifica para Grand Prize
- *rack ARC
AGI Pub:*Resultados de modelos highcompute (o3, Claude, Gemini) reportados publicamente sem qualificar para Grand Prize, em leaderboard separado - *or que importa:*
- *ounter
narrative ao "scaling resolve tudo":*Chollet é vocal contra a tese de que LLMs maiores → AGI; ARCAGI é a forma operacional desse argumento - *alidation pública open
source:*todos os solvers de top scores publicam código (DSL search, program synthesis, neurosymbolic hybrid) - *istórico de approaches vencedores:*mostraram que *rogram synthesis + busca + LLMs*(não LLM puro end
toend) é o caminho que mais avança
- *ounter
- *op approaches (2024-2025):*
- *eremy Berman*(top humano interpretable solver, 2024) — DSL handcrafted + búsca
- *reenblatt approach*— GPT-4 + sampling massivo + verification
- *indsAI / Architects of Intuition*— neuro-symbolic
- *3 (OpenAI, dez/2024)*— primeiro modelo a quebrar 75% (em high-compute, custo ~US$ 350k para evaluation completa)
*ara o Kode:*ARCAGI é referência canônica para *valiar generalização real*vs memorização. Se o Kode quiser benchmark reasoning para uso interno fora de Code/Math, ARCAGI Pub leaderboard é boa baseline. Para internamente: estudar abordagens program synthesis + verification — relevante para code generation com testtime verification (paradigma oseries).
Chatbot Arena (LMSYS / LMArena)
- *RL:*lmarena.ai (antes: chat.lmsys.org/leaderboard)
- *etodologia:*Usuários reais comparam dois modelos cegamente → Elo rating
- *étrica:*Elo Bradley-Terry
- *or que é valioso:*Reflete preferências humanas reais; difícil de "ensinar para o teste"
- *imitação:*Viés por verbosidade; inglês-centric
Tabela de Estado da Arte (Abril 2026)
| Benchmark | SOTA | Modelo | Humano |
|---|---|---|---|
| MMLU | 92.0% | GPT-5 | 89.0% |
| MMLU-Pro | 79.3% | o3 | ~75% |
| GSM8K | 97.7% | o3 | 95% |
| MATH-500 | 96.7% | o3 | ~40% (leigos) |
| AIME 2025 (30 prob) | 25.8/30 | o3 | ~5/30 (olímpicos) |
| Humanity's Last Exam | 18.4% | o3-high | ~65% (specialists) |
| GPQA Diamond | 87.7% | o3 | 65% |
| ARC |
76% | o3-high | 98% |