Gerais raciocinio

Benchmarks Gerais e de Raciocínio

*egra de ouro:*Nunca incluir datasets de avaliação no treino — contamina o benchmark e invalida comparações.


MMLU — Massive Multitask Language Understanding

  • *rXiv:*2009.03300 (Hendrycks et al., UC Berkeley, 2020)
  • *ormato:*15,908 questões de múltipla escolha (4 alternativas)
  • *omínios:*57 assuntos: STEM, ciências sociais, humanidades, medicina, direito, filosofia...
  • *so:*Avaliação de conhecimento do mundo; main benchmark de modelos gerais
  • *imitação:*Saturado — modelos top ultrapassam 90% (GPT-4o: 88%, Llama 3 70B: 82%)

MMLU-Pro

  • *rXiv:*2406.01574
  • *elhoria:*10 alternativas (não 4); raciocínio necessário; 12K perguntas
  • *enos saturado:*Modelos top em ~65% (mais discriminativo)

ARC — AI2 Reasoning Challenge

  • *onte:*Allen AI (2018)
  • *ormato:*7,787 questões de ciências do ensino fundamental (múltipla escolha)
  • *RC-Easy:*Respondíveis por modelos retrieval simples
  • *RC-Challenge:*Requerem raciocínio; mais difícil
  • *tatus:*Amplamente saturado (GPT-4: 96%)

HellaSwag

  • *rXiv:*1905.07830 (Zellers et al., 2019)
  • *ormato:*Completar atividade do diaadia (4 alternativas)
  • *ificuldade:*GPT2 falha; GPT4 acerta >95%
  • *tatus:*Saturado para modelos modernos

WinoGrande

  • *rXiv:*1907.10641 (Sakaguchi et al., 2019)
  • *ormato:*Resolução de pronome ambíguo (Winograd schema)
  • *amanho:*44,000 problemas; adversarially filtered
  • *tatus:*Menos saturado que HellaSwag; ~85% estado da arte

TruthfulQA

  • *rXiv:*2109.07958 (Lin et al., OpenAI, 2021)
  • *oco:*Honestidade — modelo deve responder verdade, não reproduzir mitos populares
  • *ormato:*817 questões; avaliação MC e geração livre
  • *chado original:*GPT-3 acertava apenas 58% (pior que humanos)
  • *tatus:*Modelos modernos chegam a 85%+ com RLHF

BIGBench / BIGBench Hard

  • *epositório:*github.comgoogleBIG-bench
  • *IG-Bench:*204 tarefas diversas; colaboração de 444 pesquisadores
  • *IG-Bench Hard (BBH):*23 tarefas onde LLMs ficam abaixo de humanos
  • *so:*Ainda relevante para tarefas que modelos modernos não saturaram

GSM8K — Grade School Math

  • *rigem:*OpenAI (2021)
  • *amanho:*8,500 problemas matemáticos de nível fundamental
  • *ormato:*Resposta em linguagem natural; chainofthought é chave
  • *tatus:*Modelos top acertam 95%+; saturado
  • *ubstituto:*MATH, AIME

MATH Dataset

  • *rXiv:*2103.03874 (Hendrycks et al., 2021)
  • *amanho:*12,500 problemas de competições matemáticas
  • *ificuldade:*5 níveis (1fácil, 5olímpico)
  • *reas:*Álgebra, Combinatória, Geometria, Teoria dos Números, Probabilidade, Pré-cálculo, Cálculo
  • *tatus:*Modelo o3 de OpenAI: 96.7%; ainda discriminativo nos níveis 4–5

MATH-500

  • Subconjunto de 500 problemas; frequentemente citado em papers

AMC / AIME — Competições Americanas de Matemática

AIME (American Invitational Mathematics Examination)

  • *ormato:*15 questões; resposta inteira 0–999
  • *ificuldade:*Olímpico americano
  • *IME 2024:*30 problemas (I + II)
  • *IME 2025:*30 problemas
Modelo AIME 2024
o3 25.6/30
DeepSeek-R1 23.2/30
Claude Opus 4.7 20.1/30
Gemini 2.5 Pro 22.4/30

Humanity's Last Exam (HLE)

  • *rigem:*Scale AI + CAIS (2025)
  • *amanho:*3,000 perguntas contribuídas por PhDs e especialistas
  • *ificuldade:*Projetado para ser o "teto" — problemas que humanos especialistas levam horas para resolver
  • *esultado inicial:*GPT-4o: 3.3%, Gemini 1.5 Pro: 2.5% — extremamente difícil
  • *tualização 2026:*o3-high: ~18%, Claude Opus 4.7: ~14%
  • *ropósito:*Substituir benchmarks saturados; track progresso em fronteira

GPQA — GraduateLevel GoogleProof Q&A

  • *rXiv:*2311.12022 (Rein et al., 2023)
  • *amanho:*448 questões em biologia, física, química
  • *ificuldade:*Doutorandos especialistas acertam ~65%
  • *Google-proof":*Pesquisa no Google não ajuda
  • *eferência:*o3: 87.7%, Claude Opus 4: 73.4%

DROP — Discrete Reasoning Over Paragraphs

  • *rXiv:*1903.00161
  • *ormato:*Leitura e cálculo: extração, operações matemáticas, conjuntos
  • *so:*Raciocínio numérico sobre texto

ARC-AGI — Abstraction and Reasoning Corpus para AGI

  • *riador:**rançois Chollet*(criador do Keras — ver 07-frameworks/treinamento-distribuido.md), 2019
  • *aper:*On the Measure of Intelligence (arXiv 1911.01547) — Chollet propõe *edir inteligência por skill-acquisition efficiency* não por desempenho em tarefas conhecidas
  • *ormato:*Padrões visuais de grade colorida (até 30×30) — input + output de poucos exemplos; inferir a regra e aplicar a um novo input
  • *ilosofia:*Resistir ao "scale brute-force" — tasks projetadas para exigir generalização sobre *ore knowledge priors*(objetidade, simetria, contagem, topologia básica) que humanos têm inato; modelos que apenas memorizam padrões massivos falham
  • *ificuldade:*Crianças de 8 anos acertam ~85% no semiprivate set; GPT4o (2024) inicial: ~2%; LLMs scaling tradicional bate parede
  • *volução:*
    • *RCAGI1 (2019):*1000 tasks (400 training pública + 400 evaluation pública + 200 private). SOTA pré-2024 estagnado em ~30%.
    • *RCAGI2 (2024):*Ainda mais difícil. SOTA dez/2024: o3high (highcompute mode com reasoning extensivo) ~76% no semi-private; humanos ~98%.
    • *RCAGI3 (anunciado 2025, em desenvolvimento):*Chollet anuncia próxima geração focada em *nteractive agentic tasks*(não só I/O frame estático). Ainda mais resistente a brute-force.

ARC Prize (arcprize.org)

  • *RL:*arcprize.org · Leaderboard: arcprize.org/leaderboard · GitHub: arcprize/ARC-AGI
  • *rganização:**RC Prize Foundation* fundada por *rançois Chollet + Mike Knoop*(cofundador da Zapier) em 2024
  • *strutura da competição (anual):*
    • *rand Prize (US$ 600.000):*primeiro a atingir ≥ 85% no private evaluation set (ainda não reivindicado em 2025-2026)
    • *op score, top paper, efficiency prizes:*premiações menores (~US$ 50k cada)
    • Total prize pool: *S$ 1.000.000+*por edição
  • *egras de compute:*evaluation rodada em ambiente controlado com *imite de compute*(Kaggle notebook ~12h, sem internet) — desincentiva "throw o3-high US$ 350k de inferência" pois não qualifica para Grand Prize
  • *rack ARCAGI Pub:*Resultados de modelos highcompute (o3, Claude, Gemini) reportados publicamente sem qualificar para Grand Prize, em leaderboard separado
  • *or que importa:*
    • *ounternarrative ao "scaling resolve tudo":*Chollet é vocal contra a tese de que LLMs maiores → AGI; ARCAGI é a forma operacional desse argumento
    • *alidation pública opensource:*todos os solvers de top scores publicam código (DSL search, program synthesis, neurosymbolic hybrid)
    • *istórico de approaches vencedores:*mostraram que *rogram synthesis + busca + LLMs*(não LLM puro endtoend) é o caminho que mais avança
  • *op approaches (2024-2025):*
    • *eremy Berman*(top humano interpretable solver, 2024) — DSL handcrafted + búsca
    • *reenblatt approach*— GPT-4 + sampling massivo + verification
    • *indsAI / Architects of Intuition*— neuro-symbolic
    • *3 (OpenAI, dez/2024)*— primeiro modelo a quebrar 75% (em high-compute, custo ~US$ 350k para evaluation completa)

*ara o Kode:*ARCAGI é referência canônica para *valiar generalização real*vs memorização. Se o Kode quiser benchmark reasoning para uso interno fora de Code/Math, ARCAGI Pub leaderboard é boa baseline. Para internamente: estudar abordagens program synthesis + verification — relevante para code generation com testtime verification (paradigma oseries).


Chatbot Arena (LMSYS / LMArena)

  • *RL:*lmarena.ai (antes: chat.lmsys.org/leaderboard)
  • *etodologia:*Usuários reais comparam dois modelos cegamente → Elo rating
  • *étrica:*Elo Bradley-Terry
  • *or que é valioso:*Reflete preferências humanas reais; difícil de "ensinar para o teste"
  • *imitação:*Viés por verbosidade; inglês-centric

Tabela de Estado da Arte (Abril 2026)

Benchmark SOTA Modelo Humano
MMLU 92.0% GPT-5 89.0%
MMLU-Pro 79.3% o3 ~75%
GSM8K 97.7% o3 95%
MATH-500 96.7% o3 ~40% (leigos)
AIME 2025 (30 prob) 25.8/30 o3 ~5/30 (olímpicos)
Humanity's Last Exam 18.4% o3-high ~65% (specialists)
GPQA Diamond 87.7% o3 65%
ARCAGI2 76% o3-high 98%

Source: ../home/koder/dev/koder/meta/docs/ia/compendium/08-benchmarks/gerais-raciocinio.md