Codigo

Benchmarks de Código

Para o Kode, esses benchmarks são os mais relevantes — medem capacidade de coding real.

HumanEval

*rXiv:*2107.03374 (Chen et al., OpenAI, 2021)
*amanho:*164 problemas Python
*ormato:*Docstring → implementação; verificado por unit tests
*étrica:*pass@k — probabilidade de pelo menos 1 de k amostras passar
*tatus:*Saturado — modelos top chegam a 95%+
*imitação:*Muito pequeno; problemas simples; Python apenas

HumanEval+

*rigem:*EvalPlus (2023)
*elhoria:*Testes adicionais (mais rigorosos) para mesmos problemas
*esultado:*Reduz scores em ~5–15% — modelos que "passam" nos testes originais falham nos novos

MBPP — Mostly Basic Python Problems

*rXiv:*2108.07732 (Austin et al., Google, 2021)
*amanho:*974 problemas Python (378 de teste)
*ificuldade:*Básico a intermediário
*tatus:*Saturado (GPT-4: 90%+)

MBPP+

Testes adicionais pelo EvalPlus; mais rigoroso

SWE-bench — Software Engineering Benchmark

SWE-bench Original

*rXiv:*2310.06770 (Princeton, 2023)
*amanho:*2,294 issues reais do GitHub (12 repositórios Python)
*ormato:*Issue text → patch que resolve o issue + testes de regressão
*valiação:*O patch gerado pelo modelo é aplicado e os testes existentes rodam

SWE-bench Verified

*ersão:*500 issues validados manualmente por humanos (removeu ambíguos)
*or que usar:*Scores mais confiáveis; menos ruído
*eferência atual:*O benchmark padrão para coding agents

Modelo/Sistema	SWE-bench Verified
Claude Mythos Preview	93.9%
Claude Opus 4.7	87.6%
GPT-5.3 Codex	85.0%
Claude 4	77.2%
GPT-5	74.9%
Gemini 2.5 Pro	63.2%
SWE-agent (2023)	12.5%

SWE-bench Lite

300 problemas "mais fáceis"; usado para iteração rápida

SWE-bench Multimodal

Inclui issues com screenshots e diagramas

LiveCodeBench

*RL:*livecodebench.github.io
*ecanismo:*Colete continuamente novos problemas de LeetCode, Codeforces, AtCoder após data de corte dos modelos
*nti-contaminação:*Problemas sempre mais novos que o treino dos modelos
*ormato:*Competitive programming; verificado por testes
*tualização:*Mensal

BigCodeBench

*rXiv:*2406.15877
*amanho:*1,140 problemas Python
*iferencial:*Usa bibliotecas reais (numpy, pandas, requests, PIL, etc.) — não apenas stdlib
*alida:*Capacidade de usar APIs externas corretamente
*ais realista*que HumanEval/MBPP para código do mundo real

RepoBench

*rXiv:*2306.03091
*oco:*Code completion em nível de repositório (cross-file context)
*ormatos:*Retrieval, completion, pipeline (juntos)
*or que importa:*Coding em projetos reais exige contexto de múltiplos arquivos

CrossCodeEval

*rXiv:*2310.11248
*diomas:*Python, TypeScript, Java, C#
*oco:*Code completion com dependências cross-file
*ealismo:*Projetos reais do GitHub

DS-1000

*rXiv:*2211.11501
*oco:*Data science — numpy, pandas, tensorflow, PyTorch, matplotlib, sklearn, scipy
*amanho:*1,000 problemas
*ealismo:*Extraído de Stack Overflow real

CRUXEval

*rXiv:*2401.03065
*oco:*Raciocínio sobre execução de código
- *nput prediction:*Dado output, adivinhe o input
- *utput prediction:*Dado input, adivinhe o output
*abilidade testada:*Compreensão semântica de código (não apenas geração)

EvoEval

*rigem:*2024
*ecanismo:*Evolui HumanEval para múltiplas dimensões: mais difícil, criativo, ferramenta, tempo-espaço
*or que usar:*Menos contaminação que HumanEval original

CanItEdit / EditEval

*oco:*Edição de código — dado código existente + instrução, aplique mudança
*elevante:*Para AI coding assistants que editam código do usuário

Aider Polyglot Benchmark

*RL:*aider.chatdocsleaderboards
*oco:*Edição de código em múltiplas linguagens (Python, JS, Go, Rust, etc.)
*etodologia:*Modelos editam código real em arquivo; teste de regressão
*elevante:*Para coding assistants tipo Copilot/Kode

Tabela de Estado da Arte (Abril 2026)

Benchmark	SOTA	Modelo
HumanEval	99.4%	Claude Opus 4.7
HumanEval+	95.2%	GPT-5
MBPP	96.3%	o3
SWE-bench Verified	93.9%	Claude Mythos
LiveCodeBench	~75%	o3
BigCodeBench	~85%	Claude Opus 4.7

Plataformas de Leaderboard

Plataforma	URL	Foco
EvalPlus Leaderboard	evalplus.github.io/leaderboard	HumanEval+, MBPP+
SWE-bench Leaderboard	swe-bench.github.io	SWE-bench Verified
BigCode Leaderboard	huggingface.cospacesbigcode/bigcode~~models~~leaderboard	Código geral
Aider Leaderboard	aider.chatdocsleaderboards	Edição de código
LiveCodeBench	livecodebench.github.io/leaderboard	Anti-contaminação