Proprietarios

Modelos Proprietários — Catálogo

Referência comparativa. Não disponíveis para fine-tuning local, mas importantes como baseline e para uso via API.

GPT (OpenAI)

Versão	Contexto	Destaques
GPT-3 (2020)	2K	175B; in-context learning; revolucionou NLP
GPT-3.5 Turbo	16K	Base do ChatGPT; velocidade e custo
GPT-4 (mar/2023)	128K	Multimodal; raciocínio avançado
GPT-4o (mai/2024)	128K	Native multimodal (textoimagemáudio); mais rápido
GPT-5 (ago/2025)	512K+	SOTA geral; múltiplos tamanhos (55-mini5-nano)
GPT-5.3 Codex	—	Especializado em código; 85% SWE-bench
GPT-5.5 (abr/2026)	—	Último lançamento; reasoning + computer use

*WE~~bench Verified:*GPT~~5 74.9% *ocs:*platform.openai.com/docs

Claude (Anthropic)

Versão	Contexto	Destaques
Claude 3 HaikuSonnetOpus (mar/2024)	200K	Triagem por capacidade; visão 3.5+
Claude 3.5 Sonnet (jun-out/2024)	200K	Computer use; SOTA geral em 2024
Claude 3.7 Sonnet (fev/2025)	200K	Extended thinking; reasoning model
Claude Sonnet 4 / Opus 4 (mai/2025)	200K	Hybrid reasoning
Claude Sonnet 4.5 / Opus 4.5 (set-nov/2025)	200K (1M preview)	Multimodal avançado
laude Opus 4.7 (abr/2026)	M	7.6% SWE~~bench; visão 3.75MP; self~~verification
Claude Mythos Preview (2026)	1M	93.9% SWE-bench; não público via API

*onstitutional AI:*base de alinhamento de todos os modelos Anthropic *ocs:*docs.anthropic.com

Gemini (Google DeepMind)

Versão	Contexto	Destaques
Gemini 1.0 (dez/2023)	32K	UltraProNano; primeiro modelo nativo multimodal
Gemini 1.5 Pro (fev/2024)	M	Breakthrough em contexto longo; MoE
Gemini 1.5 Flash	1M	Variante rápida e econômica
Gemini 2.0 Flash (jan/2025)	1M	Novo padrão de velocidade
Gemini 2.5 Pro (mid/2025)	1M	"Thinking model"; raciocínio stepbystep
Gemini 3 Pro (2025)	1M	Liderou LMArena Leaderboard
Gemini 3 Deep Think	1M	Variante reasoning; multi-path iterativo
emini 3.1 Pro (fev/2026)	M+	PQA Diamond 94.3%; ARC~~AGI~~2 77.1%; MCP nativo

*emini 3.1 Pro — Benchmarks (fevereiro 2026):*

Benchmark	Score
SWE-bench Verified	78.80%
GPQA Diamond	94.3%
ARC~~AGI~~2	77.1% (2× Gemini 3 Pro)
AIME 2026	89.2% (Gemma 4 31B)

*utros:*

Deep Research com MCP nativo para pesquisa de longo horizonte
Gemini 3.2 anunciado para Google Cloud Next 2026 (contexto >1M tokens, menor latência)

*ídeo:*Gemini 3.0 processa vídeo a 60fps em tempo real *ocs:*ai.google.dev

Grok (xAI)

Versão	Contexto	Destaques
Grok-1 (aberto)	8K	314B MoE; Apache 2.0; JAX
Grok-3	131K	Reasoning avançado
Grok-4	256K	Frontier; $3/1M input
Grok-4.1	2M (4.1 Fast)	Taxa de alucinação muito baixa; velocidade
rok-4.3 Beta (abr/2026)	M	ídeo nativo; criação de slides; 16-agent Heavy

*rok-4.3:*Lançado em 17042026 sem anúncio formal; ativa via SuperGrok Heavy ($300/mês). Features novas: processamento de vídeo nativo, geração de slides, mantém sistema de 16-agentes e janela de 2M tokens do 4.1.

*rok 5:*Em treinamento no Colossus 2 (1,5 gigawatts de compute); lançamento previsto para Q2 2026.

*ocs:*docs.x.ai

Outros Proprietários Relevantes

Modelo	Empresa	Destaques
Command R / R+	Cohere	RAG especializado; 128K; structured outputs
Orca 2	Microsoft	Raciocínio em modelos pequenos
Grok-1 (open)	xAI	314B MoE; único open de grande escala proprietário

Comparativo de SWE-bench Verified (abril 2026)

Modelo	Score
Claude Mythos Preview	93.9%
Claude Opus 4.7	87.6%
GPT-5.3 Codex	85.0%
Gemini 3.1 Pro	78.80%
Claude 4	77.2%
GPT-5	74.9%

*ota:*Kimi K2.6 (open~~source) marca 58.6% no SWE~~Bench Pro (variante mais difícil).

Arena Elo Leaderboard (março 2026)

Lab	Elo
Anthropic	1.503
xAI	1.495
Google	1.494
OpenAI	1.481
Alibaba	1.449
DeepSeek	1.424

Tendências dos Modelos Proprietários (2026)

*anelas de contexto:*1M tokens padrão nos frontier; Claude/Gemini líderes
*easoning modes:*Todos os top-tier têm modo de "thinking" / extended reasoning
*ultimodalidade:*Texto + imagem + áudio + vídeo virando padrão
*omputer use:*Claude 3.5+ e GPT-5.4+ com automação de GUI
*WE~~bench:*Barreira de 90% aproximando~~se com Claude Mythos