Multimodal ciencias

Benchmarks Multimodais e Científicos

Benchmarks de Visão-Linguagem

MMMU — Massive Multidiscipline Multimodal Understanding

  • *rXiv:*2311.16502
  • *amanho:*11,500 questões com imagens em 30 disciplinas
  • *ormato:*Múltipla escolha; requer entender imagem + texto juntos
  • *omínios:*Artes, ciências, medicina, engenharia, humanidades
  • *OTA (2026):*GPT-5: 82%, Gemini 3 Pro: 79%

MMMU-Pro

  • *rXiv:*2409.02813
  • *elhoria:*10 alternativas (não 4); problemas mais complexos; OCR necessário
  • *enos saturado:*Top models ~60%

MMBench

  • *rXiv:*2307.06281 (Shanghai AI Lab, 2023)
  • *amanho:*3,000 questões em 20 habilidades visuais
  • *abilidades:*Atributos de objeto, relação espacial, raciocínio por comparação, etc.
  • *ersões:*Inglês, Chinês, Dev/Test

VQAv2

  • *onte:*VQA v2.0 (2017)
  • *ormato:*Questões abertas sobre imagens do COCO
  • *amanho:*1.1M questões, 265K imagens
  • *tatus:*Saturado — modelos top acertam 85%+
  • *ubstituto:*MMMU, MMStar

DocVQA

  • *rXiv:*2007.00398
  • *oco:*QA sobre documentos (PDFs, scans, formulários)
  • *amanho:*50,000 questões em 12,767 documentos
  • *OTA:*94%+ (Gemini 2.5 Pro, GPT-5)

ChartQA

  • *rXiv:*2203.10244
  • *oco:*Raciocínio sobre gráficos e charts
  • *amanho:*9,608 questões em 4,804 charts
  • *equer:*OCR + raciocínio quantitativo

OCRBench

  • *rXiv:*2305.07895
  • *oco:*Capacidade de OCR dos modelos VLM
  • *nclui:*Texto, tabelas, fórmulas matemáticas, documentos históricos

ScienceQA

  • *rXiv:*2209.09513
  • *ormato:*QA multimodal em ciências (primário/médio)
  • *ultimodal:*Imagens + texto; explainability (CoT)

MMStar

  • *rXiv:*2403.20330
  • *oco:*Eliminar "language leakage" — questões que podem ser respondidas sem ver a imagem
  • *ais rigoroso:*Requer visão de verdade

Benchmarks de Vídeo

Video-MME

  • *rXiv:*2405.21075
  • *amanho:*2,700 vídeos de 30s a 1h
  • *ubtarefas:*Percepção visual, raciocínio temporal, OCR em vídeo
  • *OTA:*Gemini 2.5 Pro (video nativo); GPT-5

MVBench

  • *rXiv:*2311.17005
  • *oco:*20 tarefas de compreensão de vídeo

Benchmarks de Ciências

MedQA (USMLE)

  • *rXiv:*2009.13081
  • *ormato:*Questões do exame médico americano (USMLE Step 1–3)
  • *amanho:*12,723 questões em inglês
  • *hreshold humano:*~60% para aprovação
  • *OTA:*GPT-5, Claude Opus 4.7: 90%+ (supera médicos)

PubMedQA

  • *rXiv:*1909.06146
  • *ormato:*Responder yesnomaybe baseado em abstracts do PubMed
  • *amanho:*1,000 questões anotadas por especialistas

MedBench

  • *rXiv:*2023.xxxxx
  • *dioma:*Chinês; medicina tradicional + ocidental
  • *enchmark:*Para modelos de saúde no contexto asiático

LegalBench

  • *rXiv:*2308.11462 (Stanford, 2023)
  • *amanho:*162 tarefas legais; 40,000+ exemplos
  • *nclui:*IRAC reasoning, statutory interpretation, contract analysis
  • *abilidades:*Issue spotting, rule recall, analysis, conclusion

FinanceBench

  • *rXiv:*2311.11944
  • *ormato:*QA sobre documentos financeiros reais (10K, 10Q, earnings)
  • *amanho:*150 questões de alta precisão

Plataformas de Leaderboard

LMSYS Chatbot Arena / LMArena

  • *RL:*lmarena.ai
  • *etodologia:*Votos cegos de usuários reais; Bradley-Terry Elo
  • *imensões:*Multiturn, coding, math, vision, multilingual, hard prompts

Open LLM Leaderboard v2 (HuggingFace)

  • *RL:*huggingface.cospacesopenllmleaderboard/openllmleaderboard
  • *enchmarks:*MMLUPro, BBH, GPQA, MUSR, MATHlvl5, IFEval
  • *oco:*Modelos open-source

HELM (Stanford)

  • *RL:*crfm.stanford.edu/helm
  • *oco:*Holistic evaluation — múltiplas métricas (acurácia, robustez, fairness, eficiência)

AlpacaEval 2.0

  • *etodologia:*LLMasJudge com Claude Sonnet como juiz
  • *étrica:*Win rate vs GPT-4 Turbo
  • *so:*Avaliação de modelos de instrução/chat

Arena-Hard

  • *etodologia:*500 prompts difíceis do Chatbot Arena; GPT-4o como juiz
  • *orrelaciona bem*com preferências humanas reais

Tabela de Estado da Arte em Benchmarks Multimodais (Abril 2026)

Benchmark SOTA Modelo
MMMU 82.1% GPT-5
DocVQA 95.4% Gemini 2.5 Pro
ChartQA 92.3% Claude Opus 4.7
MedQA (USMLE) 93.7% GPT-5
LegalBench (avg) 72.4% Claude Opus 4.7
Video-MME 88.3% Gemini 3 Deep Think

Source: ../home/koder/dev/koder/meta/docs/ia/compendium/08-benchmarks/multimodal-ciencias.md