Benchmarks Multimodais e Científicos
Benchmarks de Visão-Linguagem
MMMU — Massive Multidiscipline Multimodal Understanding
- *rXiv:*2311.16502
- *amanho:*11,500 questões com imagens em 30 disciplinas
- *ormato:*Múltipla escolha; requer entender imagem + texto juntos
- *omínios:*Artes, ciências, medicina, engenharia, humanidades
- *OTA (2026):*GPT-5: 82%, Gemini 3 Pro: 79%
MMMU-Pro
- *rXiv:*2409.02813
- *elhoria:*10 alternativas (não 4); problemas mais complexos; OCR necessário
- *enos saturado:*Top models ~60%
MMBench
- *rXiv:*2307.06281 (Shanghai AI Lab, 2023)
- *amanho:*3,000 questões em 20 habilidades visuais
- *abilidades:*Atributos de objeto, relação espacial, raciocínio por comparação, etc.
- *ersões:*Inglês, Chinês, Dev/Test
VQAv2
- *onte:*VQA v2.0 (2017)
- *ormato:*Questões abertas sobre imagens do COCO
- *amanho:*1.1M questões, 265K imagens
- *tatus:*Saturado — modelos top acertam 85%+
- *ubstituto:*MMMU, MMStar
DocVQA
- *rXiv:*2007.00398
- *oco:*QA sobre documentos (PDFs, scans, formulários)
- *amanho:*50,000 questões em 12,767 documentos
- *OTA:*94%+ (Gemini 2.5 Pro, GPT-5)
ChartQA
- *rXiv:*2203.10244
- *oco:*Raciocínio sobre gráficos e charts
- *amanho:*9,608 questões em 4,804 charts
- *equer:*OCR + raciocínio quantitativo
OCRBench
- *rXiv:*2305.07895
- *oco:*Capacidade de OCR dos modelos VLM
- *nclui:*Texto, tabelas, fórmulas matemáticas, documentos históricos
ScienceQA
- *rXiv:*2209.09513
- *ormato:*QA multimodal em ciências (primário/médio)
- *ultimodal:*Imagens + texto; explainability (CoT)
MMStar
- *rXiv:*2403.20330
- *oco:*Eliminar "language leakage" — questões que podem ser respondidas sem ver a imagem
- *ais rigoroso:*Requer visão de verdade
Benchmarks de Vídeo
Video-MME
- *rXiv:*2405.21075
- *amanho:*2,700 vídeos de 30s a 1h
- *ubtarefas:*Percepção visual, raciocínio temporal, OCR em vídeo
- *OTA:*Gemini 2.5 Pro (video nativo); GPT-5
MVBench
- *rXiv:*2311.17005
- *oco:*20 tarefas de compreensão de vídeo
Benchmarks de Ciências
MedQA (USMLE)
- *rXiv:*2009.13081
- *ormato:*Questões do exame médico americano (USMLE Step 1–3)
- *amanho:*12,723 questões em inglês
- *hreshold humano:*~60% para aprovação
- *OTA:*GPT-5, Claude Opus 4.7: 90%+ (supera médicos)
PubMedQA
- *rXiv:*1909.06146
- *ormato:*Responder yesnomaybe baseado em abstracts do PubMed
- *amanho:*1,000 questões anotadas por especialistas
MedBench
- *rXiv:*2023.xxxxx
- *dioma:*Chinês; medicina tradicional + ocidental
- *enchmark:*Para modelos de saúde no contexto asiático
LegalBench
- *rXiv:*2308.11462 (Stanford, 2023)
- *amanho:*162 tarefas legais; 40,000+ exemplos
- *nclui:*IRAC reasoning, statutory interpretation, contract analysis
- *abilidades:*Issue spotting, rule recall, analysis, conclusion
FinanceBench
- *rXiv:*2311.11944
- *ormato:*QA sobre documentos financeiros reais (10
K, 10Q, earnings)
- *amanho:*150 questões de alta precisão
LMSYS Chatbot Arena / LMArena
- *RL:*lmarena.ai
- *etodologia:*Votos cegos de usuários reais; Bradley-Terry Elo
- *imensões:*Multiturn, coding, math, vision, multilingual, hard prompts
Open LLM Leaderboard v2 (HuggingFace)
- *RL:*huggingface.cospacesopen
llmleaderboard/openllmleaderboard
- *enchmarks:*MMLU
Pro, BBH, GPQA, MUSR, MATHlvl5, IFEval
- *oco:*Modelos open-source
HELM (Stanford)
- *RL:*crfm.stanford.edu/helm
- *oco:*Holistic evaluation — múltiplas métricas (acurácia, robustez, fairness, eficiência)
AlpacaEval 2.0
- *etodologia:*LLM
asJudge com Claude Sonnet como juiz
- *étrica:*Win rate vs GPT-4 Turbo
- *so:*Avaliação de modelos de instrução/chat
Arena-Hard
- *etodologia:*500 prompts difíceis do Chatbot Arena; GPT-4o como juiz
- *orrelaciona bem*com preferências humanas reais
Tabela de Estado da Arte em Benchmarks Multimodais (Abril 2026)
| Benchmark |
SOTA |
Modelo |
| MMMU |
82.1% |
GPT-5 |
| DocVQA |
95.4% |
Gemini 2.5 Pro |
| ChartQA |
92.3% |
Claude Opus 4.7 |
| MedQA (USMLE) |
93.7% |
GPT-5 |
| LegalBench (avg) |
72.4% |
Claude Opus 4.7 |
| Video-MME |
88.3% |
Gemini 3 Deep Think |