Codigo

Benchmarks de Código

Para o Kode, esses benchmarks são os mais relevantes — medem capacidade de coding real.


HumanEval

  • *rXiv:*2107.03374 (Chen et al., OpenAI, 2021)
  • *amanho:*164 problemas Python
  • *ormato:*Docstring → implementação; verificado por unit tests
  • *étrica:*pass@k — probabilidade de pelo menos 1 de k amostras passar
  • *tatus:*Saturado — modelos top chegam a 95%+
  • *imitação:*Muito pequeno; problemas simples; Python apenas

HumanEval+

  • *rigem:*EvalPlus (2023)
  • *elhoria:*Testes adicionais (mais rigorosos) para mesmos problemas
  • *esultado:*Reduz scores em ~5–15% — modelos que "passam" nos testes originais falham nos novos

MBPP — Mostly Basic Python Problems

  • *rXiv:*2108.07732 (Austin et al., Google, 2021)
  • *amanho:*974 problemas Python (378 de teste)
  • *ificuldade:*Básico a intermediário
  • *tatus:*Saturado (GPT-4: 90%+)

MBPP+

  • Testes adicionais pelo EvalPlus; mais rigoroso

SWE-bench — Software Engineering Benchmark

SWE-bench Original

  • *rXiv:*2310.06770 (Princeton, 2023)
  • *amanho:*2,294 issues reais do GitHub (12 repositórios Python)
  • *ormato:*Issue text → patch que resolve o issue + testes de regressão
  • *valiação:*O patch gerado pelo modelo é aplicado e os testes existentes rodam

SWE-bench Verified

  • *ersão:*500 issues validados manualmente por humanos (removeu ambíguos)
  • *or que usar:*Scores mais confiáveis; menos ruído
  • *eferência atual:*O benchmark padrão para coding agents
Modelo/Sistema SWE-bench Verified
Claude Mythos Preview 93.9%
Claude Opus 4.7 87.6%
GPT-5.3 Codex 85.0%
Claude 4 77.2%
GPT-5 74.9%
Gemini 2.5 Pro 63.2%
SWE-agent (2023) 12.5%

SWE-bench Lite

  • 300 problemas "mais fáceis"; usado para iteração rápida

SWE-bench Multimodal

  • Inclui issues com screenshots e diagramas

LiveCodeBench

  • *RL:*livecodebench.github.io
  • *ecanismo:*Colete continuamente novos problemas de LeetCode, Codeforces, AtCoder após data de corte dos modelos
  • *nti-contaminação:*Problemas sempre mais novos que o treino dos modelos
  • *ormato:*Competitive programming; verificado por testes
  • *tualização:*Mensal

BigCodeBench

  • *rXiv:*2406.15877
  • *amanho:*1,140 problemas Python
  • *iferencial:*Usa bibliotecas reais (numpy, pandas, requests, PIL, etc.) — não apenas stdlib
  • *alida:*Capacidade de usar APIs externas corretamente
  • *ais realista*que HumanEval/MBPP para código do mundo real

RepoBench

  • *rXiv:*2306.03091
  • *oco:*Code completion em nível de repositório (cross-file context)
  • *ormatos:*Retrieval, completion, pipeline (juntos)
  • *or que importa:*Coding em projetos reais exige contexto de múltiplos arquivos

CrossCodeEval

  • *rXiv:*2310.11248
  • *diomas:*Python, TypeScript, Java, C#
  • *oco:*Code completion com dependências cross-file
  • *ealismo:*Projetos reais do GitHub

DS-1000

  • *rXiv:*2211.11501
  • *oco:*Data science — numpy, pandas, tensorflow, PyTorch, matplotlib, sklearn, scipy
  • *amanho:*1,000 problemas
  • *ealismo:*Extraído de Stack Overflow real

CRUXEval

  • *rXiv:*2401.03065
  • *oco:*Raciocínio sobre execução de código
    • *nput prediction:*Dado output, adivinhe o input
    • *utput prediction:*Dado input, adivinhe o output
  • *abilidade testada:*Compreensão semântica de código (não apenas geração)

EvoEval

  • *rigem:*2024
  • *ecanismo:*Evolui HumanEval para múltiplas dimensões: mais difícil, criativo, ferramenta, tempo-espaço
  • *or que usar:*Menos contaminação que HumanEval original

CanItEdit / EditEval

  • *oco:*Edição de código — dado código existente + instrução, aplique mudança
  • *elevante:*Para AI coding assistants que editam código do usuário

Aider Polyglot Benchmark

  • *RL:*aider.chatdocsleaderboards
  • *oco:*Edição de código em múltiplas linguagens (Python, JS, Go, Rust, etc.)
  • *etodologia:*Modelos editam código real em arquivo; teste de regressão
  • *elevante:*Para coding assistants tipo Copilot/Kode

Tabela de Estado da Arte (Abril 2026)

Benchmark SOTA Modelo
HumanEval 99.4% Claude Opus 4.7
HumanEval+ 95.2% GPT-5
MBPP 96.3% o3
SWE-bench Verified 93.9% Claude Mythos
LiveCodeBench ~75% o3
BigCodeBench ~85% Claude Opus 4.7

Plataformas de Leaderboard

Plataforma URL Foco
EvalPlus Leaderboard evalplus.github.io/leaderboard HumanEval+, MBPP+
SWE-bench Leaderboard swe-bench.github.io SWE-bench Verified
BigCode Leaderboard huggingface.cospacesbigcode/bigcodemodelsleaderboard Código geral
Aider Leaderboard aider.chatdocsleaderboards Edição de código
LiveCodeBench livecodebench.github.io/leaderboard Anti-contaminação

Source: ../home/koder/dev/koder/meta/docs/ia/compendium/08-benchmarks/codigo.md