Benchmarks de Código
Para o Kode, esses benchmarks são os mais relevantes — medem capacidade de coding real.
HumanEval
- *rXiv:*2107.03374 (Chen et al., OpenAI, 2021)
- *amanho:*164 problemas Python
- *ormato:*Docstring → implementação; verificado por unit tests
- *étrica:*
pass@k — probabilidade de pelo menos 1 de k amostras passar
- *tatus:*Saturado — modelos top chegam a 95%+
- *imitação:*Muito pequeno; problemas simples; Python apenas
HumanEval+
- *rigem:*EvalPlus (2023)
- *elhoria:*Testes adicionais (mais rigorosos) para mesmos problemas
- *esultado:*Reduz scores em ~5–15% — modelos que "passam" nos testes originais falham nos novos
MBPP — Mostly Basic Python Problems
- *rXiv:*2108.07732 (Austin et al., Google, 2021)
- *amanho:*974 problemas Python (378 de teste)
- *ificuldade:*Básico a intermediário
- *tatus:*Saturado (GPT-4: 90%+)
MBPP+
- Testes adicionais pelo EvalPlus; mais rigoroso
SWE-bench — Software Engineering Benchmark
SWE-bench Original
- *rXiv:*2310.06770 (Princeton, 2023)
- *amanho:*2,294 issues reais do GitHub (12 repositórios Python)
- *ormato:*Issue text → patch que resolve o issue + testes de regressão
- *valiação:*O patch gerado pelo modelo é aplicado e os testes existentes rodam
SWE-bench Verified
- *ersão:*500 issues validados manualmente por humanos (removeu ambíguos)
- *or que usar:*Scores mais confiáveis; menos ruído
- *eferência atual:*O benchmark padrão para coding agents
| Modelo/Sistema |
SWE-bench Verified |
| Claude Mythos Preview |
93.9% |
| Claude Opus 4.7 |
87.6% |
| GPT-5.3 Codex |
85.0% |
| Claude 4 |
77.2% |
| GPT-5 |
74.9% |
| Gemini 2.5 Pro |
63.2% |
| SWE-agent (2023) |
12.5% |
SWE-bench Lite
- 300 problemas "mais fáceis"; usado para iteração rápida
SWE-bench Multimodal
- Inclui issues com screenshots e diagramas
LiveCodeBench
- *RL:*livecodebench.github.io
- *ecanismo:*Colete continuamente novos problemas de LeetCode, Codeforces, AtCoder após data de corte dos modelos
- *nti-contaminação:*Problemas sempre mais novos que o treino dos modelos
- *ormato:*Competitive programming; verificado por testes
- *tualização:*Mensal
BigCodeBench
- *rXiv:*2406.15877
- *amanho:*1,140 problemas Python
- *iferencial:*Usa bibliotecas reais (numpy, pandas, requests, PIL, etc.) — não apenas stdlib
- *alida:*Capacidade de usar APIs externas corretamente
- *ais realista*que HumanEval/MBPP para código do mundo real
RepoBench
- *rXiv:*2306.03091
- *oco:*Code completion em nível de repositório (cross-file context)
- *ormatos:*Retrieval, completion, pipeline (juntos)
- *or que importa:*Coding em projetos reais exige contexto de múltiplos arquivos
CrossCodeEval
- *rXiv:*2310.11248
- *diomas:*Python, TypeScript, Java, C#
- *oco:*Code completion com dependências cross-file
- *ealismo:*Projetos reais do GitHub
DS-1000
- *rXiv:*2211.11501
- *oco:*Data science — numpy, pandas, tensorflow, PyTorch, matplotlib, sklearn, scipy
- *amanho:*1,000 problemas
- *ealismo:*Extraído de Stack Overflow real
CRUXEval
- *rXiv:*2401.03065
- *oco:*Raciocínio sobre execução de código
- *nput prediction:*Dado output, adivinhe o input
- *utput prediction:*Dado input, adivinhe o output
- *abilidade testada:*Compreensão semântica de código (não apenas geração)
EvoEval
- *rigem:*2024
- *ecanismo:*Evolui HumanEval para múltiplas dimensões: mais difícil, criativo, ferramenta, tempo-espaço
- *or que usar:*Menos contaminação que HumanEval original
CanItEdit / EditEval
- *oco:*Edição de código — dado código existente + instrução, aplique mudança
- *elevante:*Para AI coding assistants que editam código do usuário
Aider Polyglot Benchmark
- *RL:*aider.chatdocsleaderboards
- *oco:*Edição de código em múltiplas linguagens (Python, JS, Go, Rust, etc.)
- *etodologia:*Modelos editam código real em arquivo; teste de regressão
- *elevante:*Para coding assistants tipo Copilot/Kode
Tabela de Estado da Arte (Abril 2026)
| Benchmark |
SOTA |
Modelo |
| HumanEval |
99.4% |
Claude Opus 4.7 |
| HumanEval+ |
95.2% |
GPT-5 |
| MBPP |
96.3% |
o3 |
| SWE-bench Verified |
93.9% |
Claude Mythos |
| LiveCodeBench |
~75% |
o3 |
| BigCodeBench |
~85% |
Claude Opus 4.7 |
| Plataforma |
URL |
Foco |
| EvalPlus Leaderboard |
evalplus.github.io/leaderboard |
HumanEval+, MBPP+ |
| SWE-bench Leaderboard |
swe-bench.github.io |
SWE-bench Verified |
| BigCode Leaderboard |
huggingface.cospacesbigcode/bigcodemodelsleaderboard |
Código geral |
| Aider Leaderboard |
aider.chatdocsleaderboards |
Edição de código |
| LiveCodeBench |
livecodebench.github.io/leaderboard |
Anti-contaminação |