Proprietarios

Modelos Proprietários — Catálogo

Referência comparativa. Não disponíveis para fine-tuning local, mas importantes como baseline e para uso via API.


GPT (OpenAI)

Versão Contexto Destaques
GPT-3 (2020) 2K 175B; in-context learning; revolucionou NLP
GPT-3.5 Turbo 16K Base do ChatGPT; velocidade e custo
GPT-4 (mar/2023) 128K Multimodal; raciocínio avançado
GPT-4o (mai/2024) 128K Native multimodal (textoimagemáudio); mais rápido
GPT-5 (ago/2025) 512K+ SOTA geral; múltiplos tamanhos (55-mini5-nano)
GPT-5.3 Codex Especializado em código; 85% SWE-bench
GPT-5.5 (abr/2026) Último lançamento; reasoning + computer use

*WEbench Verified:*GPT5 74.9% *ocs:*platform.openai.com/docs


Claude (Anthropic)

Versão Contexto Destaques
Claude 3 HaikuSonnetOpus (mar/2024) 200K Triagem por capacidade; visão 3.5+
Claude 3.5 Sonnet (jun-out/2024) 200K Computer use; SOTA geral em 2024
Claude 3.7 Sonnet (fev/2025) 200K Extended thinking; reasoning model
Claude Sonnet 4 / Opus 4 (mai/2025) 200K Hybrid reasoning
Claude Sonnet 4.5 / Opus 4.5 (set-nov/2025) 200K (1M preview) Multimodal avançado
*laude Opus 4.7 (abr/2026)* *M* *7.6% SWEbench; visão 3.75MP; selfverification*
Claude Mythos Preview (2026) 1M 93.9% SWE-bench; não público via API

*onstitutional AI:*base de alinhamento de todos os modelos Anthropic *ocs:*docs.anthropic.com


Gemini (Google DeepMind)

Versão Contexto Destaques
Gemini 1.0 (dez/2023) 32K UltraProNano; primeiro modelo nativo multimodal
Gemini 1.5 Pro (fev/2024) *M* Breakthrough em contexto longo; MoE
Gemini 1.5 Flash 1M Variante rápida e econômica
Gemini 2.0 Flash (jan/2025) 1M Novo padrão de velocidade
Gemini 2.5 Pro (mid/2025) 1M "Thinking model"; raciocínio stepbystep
Gemini 3 Pro (2025) 1M Liderou LMArena Leaderboard
Gemini 3 Deep Think 1M Variante reasoning; multi-path iterativo
*emini 3.1 Pro (fev/2026)* *M+* *PQA Diamond 94.3%; ARCAGI2 77.1%; MCP nativo*

*emini 3.1 Pro — Benchmarks (fevereiro 2026):*

Benchmark Score
SWE-bench Verified 78.80%
GPQA Diamond 94.3%
ARCAGI2 77.1% (2× Gemini 3 Pro)
AIME 2026 89.2% (Gemma 4 31B)

*utros:*

  • Deep Research com MCP nativo para pesquisa de longo horizonte
  • Gemini 3.2 anunciado para Google Cloud Next 2026 (contexto >1M tokens, menor latência)

*ídeo:*Gemini 3.0 processa vídeo a 60fps em tempo real *ocs:*ai.google.dev


Grok (xAI)

Versão Contexto Destaques
Grok-1 (aberto) 8K 314B MoE; Apache 2.0; JAX
Grok-3 131K Reasoning avançado
Grok-4 256K Frontier; $3/1M input
Grok-4.1 2M (4.1 Fast) Taxa de alucinação muito baixa; velocidade
*rok-4.3 Beta (abr/2026)* *M* *ídeo nativo; criação de slides; 16-agent Heavy*

*rok-4.3:*Lançado em 17042026 sem anúncio formal; ativa via SuperGrok Heavy ($300/mês). Features novas: processamento de vídeo nativo, geração de slides, mantém sistema de 16-agentes e janela de 2M tokens do 4.1.

*rok 5:*Em treinamento no Colossus 2 (1,5 gigawatts de compute); lançamento previsto para Q2 2026.

*ocs:*docs.x.ai


Outros Proprietários Relevantes

Modelo Empresa Destaques
Command R / R+ Cohere RAG especializado; 128K; structured outputs
Orca 2 Microsoft Raciocínio em modelos pequenos
Grok-1 (open) xAI 314B MoE; único open de grande escala proprietário

Comparativo de SWE-bench Verified (abril 2026)

Modelo Score
Claude Mythos Preview 93.9%
Claude Opus 4.7 87.6%
GPT-5.3 Codex 85.0%
Gemini 3.1 Pro 78.80%
Claude 4 77.2%
GPT-5 74.9%

*ota:*Kimi K2.6 (opensource) marca 58.6% no SWEBench Pro (variante mais difícil).


Arena Elo Leaderboard (março 2026)

Lab Elo
Anthropic 1.503
xAI 1.495
Google 1.494
OpenAI 1.481
Alibaba 1.449
DeepSeek 1.424

Tendências dos Modelos Proprietários (2026)

  1. *anelas de contexto:*1M tokens padrão nos frontier; Claude/Gemini líderes
  2. *easoning modes:*Todos os top-tier têm modo de "thinking" / extended reasoning
  3. *ultimodalidade:*Texto + imagem + áudio + vídeo virando padrão
  4. *omputer use:*Claude 3.5+ e GPT-5.4+ com automação de GUI
  5. *WEbench:*Barreira de 90% aproximandose com Claude Mythos

Source: ../home/koder/dev/koder/meta/docs/ia/compendium/03-modelos/proprietarios.md