Gerais raciocinio

Benchmarks Gerais e de Raciocínio

*egra de ouro:*Nunca incluir datasets de avaliação no treino — contamina o benchmark e invalida comparações.

MMLU — Massive Multitask Language Understanding

*rXiv:*2009.03300 (Hendrycks et al., UC Berkeley, 2020)
*ormato:*15,908 questões de múltipla escolha (4 alternativas)
*omínios:*57 assuntos: STEM, ciências sociais, humanidades, medicina, direito, filosofia...
*so:*Avaliação de conhecimento do mundo; main benchmark de modelos gerais
*imitação:*Saturado — modelos top ultrapassam 90% (GPT-4o: 88%, Llama 3 70B: 82%)

MMLU-Pro

*rXiv:*2406.01574
*elhoria:*10 alternativas (não 4); raciocínio necessário; 12K perguntas
*enos saturado:*Modelos top em ~65% (mais discriminativo)

ARC — AI2 Reasoning Challenge

*onte:*Allen AI (2018)
*ormato:*7,787 questões de ciências do ensino fundamental (múltipla escolha)
*RC-Easy:*Respondíveis por modelos retrieval simples
*RC-Challenge:*Requerem raciocínio; mais difícil
*tatus:*Amplamente saturado (GPT-4: 96%)

HellaSwag

*rXiv:*1905.07830 (Zellers et al., 2019)
*ormato:*Completar atividade do diaadia (4 alternativas)
*ificuldade:*GPT~~2 falha; GPT~~4 acerta >95%
*tatus:*Saturado para modelos modernos

WinoGrande

*rXiv:*1907.10641 (Sakaguchi et al., 2019)
*ormato:*Resolução de pronome ambíguo (Winograd schema)
*amanho:*44,000 problemas; adversarially filtered
*tatus:*Menos saturado que HellaSwag; ~85% estado da arte

TruthfulQA

*rXiv:*2109.07958 (Lin et al., OpenAI, 2021)
*oco:*Honestidade — modelo deve responder verdade, não reproduzir mitos populares
*ormato:*817 questões; avaliação MC e geração livre
*chado original:*GPT-3 acertava apenas 58% (pior que humanos)
*tatus:*Modelos modernos chegam a 85%+ com RLHF

BIGBench / BIGBench Hard

*epositório:*github.comgoogleBIG-bench
*IG-Bench:*204 tarefas diversas; colaboração de 444 pesquisadores
*IG-Bench Hard (BBH):*23 tarefas onde LLMs ficam abaixo de humanos
*so:*Ainda relevante para tarefas que modelos modernos não saturaram

GSM8K — Grade School Math

*rigem:*OpenAI (2021)
*amanho:*8,500 problemas matemáticos de nível fundamental
*ormato:*Resposta em linguagem natural; chainofthought é chave
*tatus:*Modelos top acertam 95%+; saturado
*ubstituto:*MATH, AIME

MATH Dataset

*rXiv:*2103.03874 (Hendrycks et al., 2021)
*amanho:*12,500 problemas de competições matemáticas
*ificuldade:*5 níveis (1fácil, 5olímpico)
*�reas:*Álgebra, Combinatória, Geometria, Teoria dos Números, Probabilidade, Pré-cálculo, Cálculo
*tatus:*Modelo o3 de OpenAI: 96.7%; ainda discriminativo nos níveis 4–5

MATH-500

Subconjunto de 500 problemas; frequentemente citado em papers

AMC / AIME — Competições Americanas de Matemática

AIME (American Invitational Mathematics Examination)

*ormato:*15 questões; resposta inteira 0–999
*ificuldade:*Olímpico americano
*IME 2024:*30 problemas (I + II)
*IME 2025:*30 problemas

Modelo	AIME 2024
o3	25.6/30
DeepSeek-R1	23.2/30
Claude Opus 4.7	20.1/30
Gemini 2.5 Pro	22.4/30

Humanity's Last Exam (HLE)

*rigem:*Scale AI + CAIS (2025)
*amanho:*3,000 perguntas contribuídas por PhDs e especialistas
*ificuldade:*Projetado para ser o "teto" — problemas que humanos especialistas levam horas para resolver
*esultado inicial:*GPT-4o: 3.3%, Gemini 1.5 Pro: 2.5% — extremamente difícil
*tualização 2026:*o3-high: ~18%, Claude Opus 4.7: ~14%
*ropósito:*Substituir benchmarks saturados; track progresso em fronteira

GPQA — GraduateLevel GoogleProof Q&A

*rXiv:*2311.12022 (Rein et al., 2023)
*amanho:*448 questões em biologia, física, química
*ificuldade:*Doutorandos especialistas acertam ~65%
*Google-proof":*Pesquisa no Google não ajuda
*eferência:*o3: 87.7%, Claude Opus 4: 73.4%

DROP — Discrete Reasoning Over Paragraphs

*rXiv:*1903.00161
*ormato:*Leitura e cálculo: extração, operações matemáticas, conjuntos
*so:*Raciocínio numérico sobre texto

ARC-AGI — Abstraction and Reasoning Corpus para AGI

*riador:**rançois Chollet*(criador do Keras — ver 07-frameworks/treinamento-distribuido.md), 2019
*aper:*On the Measure of Intelligence (arXiv 1911.01547) — Chollet propõe *edir inteligência por skill-acquisition efficiency* não por desempenho em tarefas conhecidas
*ormato:*Padrões visuais de grade colorida (até 30×30) — input + output de poucos exemplos; inferir a regra e aplicar a um novo input
*ilosofia:*Resistir ao "scale brute-force" — tasks projetadas para exigir generalização sobre *ore knowledge priors*(objetidade, simetria, contagem, topologia básica) que humanos têm inato; modelos que apenas memorizam padrões massivos falham
*ificuldade:*Crianças de 8 anos acertam ~85% no semi~~private set; GPT~~4o (2024) inicial: ~2%; LLMs scaling tradicional bate parede
*volução:*
- *RC~~AGI~~1 (2019):*1000 tasks (400 training pública + 400 evaluation pública + 200 private). SOTA pré-2024 estagnado em ~30%.
- *RC~~AGI~~2 (2024):*Ainda mais difícil. SOTA dez/2024: o3~~high (high~~compute mode com reasoning extensivo) ~76% no semi-private; humanos ~98%.
- *RC~~AGI~~3 (anunciado 2025, em desenvolvimento):*Chollet anuncia próxima geração focada em *nteractive agentic tasks*(não só I/O frame estático). Ainda mais resistente a brute-force.

ARC Prize (arcprize.org)

*RL:*arcprize.org · Leaderboard: arcprize.org/leaderboard · GitHub: arcprize/ARC-AGI
*rganização:**RC Prize Foundation* fundada por *rançois Chollet + Mike Knoop*(cofundador da Zapier) em 2024
*strutura da competição (anual):*
- *rand Prize (US$ 600.000):*primeiro a atingir ≥ 85% no private evaluation set (ainda não reivindicado em 2025-2026)
- *op score, top paper, efficiency prizes:*premiações menores (~US$ 50k cada)
- Total prize pool: *S$ 1.000.000+*por edição
*egras de compute:*evaluation rodada em ambiente controlado com *imite de compute*(Kaggle notebook ~12h, sem internet) — desincentiva "throw o3-high US$ 350k de inferência" pois não qualifica para Grand Prize
*rack ARC~~AGI Pub:*Resultados de modelos high~~compute (o3, Claude, Gemini) reportados publicamente sem qualificar para Grand Prize, em leaderboard separado
*or que importa:*
- *ounter~~narrative ao "scaling resolve tudo":*Chollet é vocal contra a tese de que LLMs maiores → AGI; ARC~~AGI é a forma operacional desse argumento
- *alidation pública open~~source:*todos os solvers de top scores publicam código (DSL search, program synthesis, neuro~~symbolic hybrid)
- *istórico de approaches vencedores:*mostraram que *rogram synthesis + busca + LLMs*(não LLM puro endtoend) é o caminho que mais avança
*op approaches (2024-2025):*
- *eremy Berman*(top humano interpretable solver, 2024) — DSL handcrafted + búsca
- *reenblatt approach*— GPT-4 + sampling massivo + verification
- *indsAI / Architects of Intuition*— neuro-symbolic
- *3 (OpenAI, dez/2024)*— primeiro modelo a quebrar 75% (em high-compute, custo ~US$ 350k para evaluation completa)

*ara o Kode:*ARC~~AGI é referência canônica para *valiar generalização real*vs memorização. Se o Kode quiser benchmark reasoning para uso interno fora de Code/Math, ARC~~AGI Pub leaderboard é boa baseline. Para internamente: estudar abordagens program synthesis + verification — relevante para code generation com test~~time verification (paradigma o~~series).

Chatbot Arena (LMSYS / LMArena)

*RL:*lmarena.ai (antes: chat.lmsys.org/leaderboard)
*etodologia:*Usuários reais comparam dois modelos cegamente → Elo rating
*étrica:*Elo Bradley-Terry
*or que é valioso:*Reflete preferências humanas reais; difícil de "ensinar para o teste"
*imitação:*Viés por verbosidade; inglês-centric

Tabela de Estado da Arte (Abril 2026)

Benchmark	SOTA	Modelo	Humano
MMLU	92.0%	GPT-5	89.0%
MMLU-Pro	79.3%	o3	~75%
GSM8K	97.7%	o3	95%
MATH-500	96.7%	o3	~40% (leigos)
AIME 2025 (30 prob)	25.8/30	o3	~5/30 (olímpicos)
Humanity's Last Exam	18.4%	o3-high	~65% (specialists)
GPQA Diamond	87.7%	o3	65%
ARC~~AGI~~2	76%	o3-high	98%