Multimodal ciencias

Benchmarks Multimodais e Científicos

Benchmarks de Visão-Linguagem

MMMU — Massive Multidiscipline Multimodal Understanding

*rXiv:*2311.16502
*amanho:*11,500 questões com imagens em 30 disciplinas
*ormato:*Múltipla escolha; requer entender imagem + texto juntos
*omínios:*Artes, ciências, medicina, engenharia, humanidades
*OTA (2026):*GPT-5: 82%, Gemini 3 Pro: 79%

MMMU-Pro

*rXiv:*2409.02813
*elhoria:*10 alternativas (não 4); problemas mais complexos; OCR necessário
*enos saturado:*Top models ~60%

MMBench

*rXiv:*2307.06281 (Shanghai AI Lab, 2023)
*amanho:*3,000 questões em 20 habilidades visuais
*abilidades:*Atributos de objeto, relação espacial, raciocínio por comparação, etc.
*ersões:*Inglês, Chinês, Dev/Test

VQAv2

*onte:*VQA v2.0 (2017)
*ormato:*Questões abertas sobre imagens do COCO
*amanho:*1.1M questões, 265K imagens
*tatus:*Saturado — modelos top acertam 85%+
*ubstituto:*MMMU, MMStar

DocVQA

*rXiv:*2007.00398
*oco:*QA sobre documentos (PDFs, scans, formulários)
*amanho:*50,000 questões em 12,767 documentos
*OTA:*94%+ (Gemini 2.5 Pro, GPT-5)

ChartQA

*rXiv:*2203.10244
*oco:*Raciocínio sobre gráficos e charts
*amanho:*9,608 questões em 4,804 charts
*equer:*OCR + raciocínio quantitativo

OCRBench

*rXiv:*2305.07895
*oco:*Capacidade de OCR dos modelos VLM
*nclui:*Texto, tabelas, fórmulas matemáticas, documentos históricos

ScienceQA

*rXiv:*2209.09513
*ormato:*QA multimodal em ciências (primário/médio)
*ultimodal:*Imagens + texto; explainability (CoT)

MMStar

*rXiv:*2403.20330
*oco:*Eliminar "language leakage" — questões que podem ser respondidas sem ver a imagem
*ais rigoroso:*Requer visão de verdade

Benchmarks de Vídeo

Video-MME

*rXiv:*2405.21075
*amanho:*2,700 vídeos de 30s a 1h
*ubtarefas:*Percepção visual, raciocínio temporal, OCR em vídeo
*OTA:*Gemini 2.5 Pro (video nativo); GPT-5

MVBench

*rXiv:*2311.17005
*oco:*20 tarefas de compreensão de vídeo

Benchmarks de Ciências

MedQA (USMLE)

*rXiv:*2009.13081
*ormato:*Questões do exame médico americano (USMLE Step 1–3)
*amanho:*12,723 questões em inglês
*hreshold humano:*~60% para aprovação
*OTA:*GPT-5, Claude Opus 4.7: 90%+ (supera médicos)

PubMedQA

*rXiv:*1909.06146
*ormato:*Responder yesnomaybe baseado em abstracts do PubMed
*amanho:*1,000 questões anotadas por especialistas

MedBench

*rXiv:*2023.xxxxx
*dioma:*Chinês; medicina tradicional + ocidental
*enchmark:*Para modelos de saúde no contexto asiático

LegalBench

*rXiv:*2308.11462 (Stanford, 2023)
*amanho:*162 tarefas legais; 40,000+ exemplos
*nclui:*IRAC reasoning, statutory interpretation, contract analysis
*abilidades:*Issue spotting, rule recall, analysis, conclusion

FinanceBench

*rXiv:*2311.11944
*ormato:*QA sobre documentos financeiros reais (10~~K, 10~~Q, earnings)
*amanho:*150 questões de alta precisão

Plataformas de Leaderboard

LMSYS Chatbot Arena / LMArena

*RL:*lmarena.ai
*etodologia:*Votos cegos de usuários reais; Bradley-Terry Elo
*imensões:*Multiturn, coding, math, vision, multilingual, hard prompts

Open LLM Leaderboard v2 (HuggingFace)

*RL:*huggingface.cospacesopen~~llm~~leaderboard/openllmleaderboard
*enchmarks:*MMLU~~Pro, BBH, GPQA, MUSR, MATH~~lvl5, IFEval
*oco:*Modelos open-source

HELM (Stanford)

*RL:*crfm.stanford.edu/helm
*oco:*Holistic evaluation — múltiplas métricas (acurácia, robustez, fairness, eficiência)

AlpacaEval 2.0

*etodologia:*LLMasJudge com Claude Sonnet como juiz
*étrica:*Win rate vs GPT-4 Turbo
*so:*Avaliação de modelos de instrução/chat

Arena-Hard

*etodologia:*500 prompts difíceis do Chatbot Arena; GPT-4o como juiz
*orrelaciona bem*com preferências humanas reais

Tabela de Estado da Arte em Benchmarks Multimodais (Abril 2026)

Benchmark	SOTA	Modelo
MMMU	82.1%	GPT-5
DocVQA	95.4%	Gemini 2.5 Pro
ChartQA	92.3%	Claude Opus 4.7
MedQA (USMLE)	93.7%	GPT-5
LegalBench (avg)	72.4%	Claude Opus 4.7
Video-MME	88.3%	Gemini 3 Deep Think