Proprietarios
Modelos Proprietários — Catálogo
Referência comparativa. Não disponíveis para fine-tuning local, mas importantes como baseline e para uso via API.
GPT (OpenAI)
| Versão | Contexto | Destaques |
|---|---|---|
| GPT-3 (2020) | 2K | 175B; in-context learning; revolucionou NLP |
| GPT-3.5 Turbo | 16K | Base do ChatGPT; velocidade e custo |
| GPT-4 (mar/2023) | 128K | Multimodal; raciocínio avançado |
| GPT-4o (mai/2024) | 128K | Native multimodal (textoimagemáudio); mais rápido |
| GPT-5 (ago/2025) | 512K+ | SOTA geral; múltiplos tamanhos (55-mini5-nano) |
| GPT-5.3 Codex | — | Especializado em código; 85% SWE-bench |
| GPT-5.5 (abr/2026) | — | Último lançamento; reasoning + computer use |
*WEbench Verified:*GPT5 74.9% *ocs:*platform.openai.com/docs
Claude (Anthropic)
| Versão | Contexto | Destaques |
|---|---|---|
| Claude 3 HaikuSonnetOpus (mar/2024) | 200K | Triagem por capacidade; visão 3.5+ |
| Claude 3.5 Sonnet (jun-out/2024) | 200K | Computer use; SOTA geral em 2024 |
| Claude 3.7 Sonnet (fev/2025) | 200K | Extended thinking; reasoning model |
| Claude Sonnet 4 / Opus 4 (mai/2025) | 200K | Hybrid reasoning |
| Claude Sonnet 4.5 / Opus 4.5 (set-nov/2025) | 200K (1M preview) | Multimodal avançado |
| *laude Opus 4.7 (abr/2026)* | *M* | *7.6% SWE |
| Claude Mythos Preview (2026) | 1M | 93.9% SWE-bench; não público via API |
*onstitutional AI:*base de alinhamento de todos os modelos Anthropic *ocs:*docs.anthropic.com
Gemini (Google DeepMind)
| Versão | Contexto | Destaques |
|---|---|---|
| Gemini 1.0 (dez/2023) | 32K | UltraProNano; primeiro modelo nativo multimodal |
| Gemini 1.5 Pro (fev/2024) | *M* | Breakthrough em contexto longo; MoE |
| Gemini 1.5 Flash | 1M | Variante rápida e econômica |
| Gemini 2.0 Flash (jan/2025) | 1M | Novo padrão de velocidade |
| Gemini 2.5 Pro (mid/2025) | 1M | "Thinking model"; raciocínio step |
| Gemini 3 Pro (2025) | 1M | Liderou LMArena Leaderboard |
| Gemini 3 Deep Think | 1M | Variante reasoning; multi-path iterativo |
| *emini 3.1 Pro (fev/2026)* | *M+* | *PQA Diamond 94.3%; ARC |
*emini 3.1 Pro — Benchmarks (fevereiro 2026):*
| Benchmark | Score |
|---|---|
| SWE-bench Verified | 78.80% |
| GPQA Diamond | 94.3% |
| ARC |
77.1% (2× Gemini 3 Pro) |
| AIME 2026 | 89.2% (Gemma 4 31B) |
*utros:*
- Deep Research com MCP nativo para pesquisa de longo horizonte
- Gemini 3.2 anunciado para Google Cloud Next 2026 (contexto >1M tokens, menor latência)
*ídeo:*Gemini 3.0 processa vídeo a 60fps em tempo real *ocs:*ai.google.dev
Grok (xAI)
| Versão | Contexto | Destaques |
|---|---|---|
| Grok-1 (aberto) | 8K | 314B MoE; Apache 2.0; JAX |
| Grok-3 | 131K | Reasoning avançado |
| Grok-4 | 256K | Frontier; $3/1M input |
| Grok-4.1 | 2M (4.1 Fast) | Taxa de alucinação muito baixa; velocidade |
| *rok-4.3 Beta (abr/2026)* | *M* | *ídeo nativo; criação de slides; 16-agent Heavy* |
*rok-4.3:*Lançado em 17042026 sem anúncio formal; ativa via SuperGrok Heavy ($300/mês). Features novas: processamento de vídeo nativo, geração de slides, mantém sistema de 16-agentes e janela de 2M tokens do 4.1.
*rok 5:*Em treinamento no Colossus 2 (1,5 gigawatts de compute); lançamento previsto para Q2 2026.
*ocs:*docs.x.ai
Outros Proprietários Relevantes
| Modelo | Empresa | Destaques |
|---|---|---|
| Command R / R+ | Cohere | RAG especializado; 128K; structured outputs |
| Orca 2 | Microsoft | Raciocínio em modelos pequenos |
| Grok-1 (open) | xAI | 314B MoE; único open de grande escala proprietário |
Comparativo de SWE-bench Verified (abril 2026)
| Modelo | Score |
|---|---|
| Claude Mythos Preview | 93.9% |
| Claude Opus 4.7 | 87.6% |
| GPT-5.3 Codex | 85.0% |
| Gemini 3.1 Pro | 78.80% |
| Claude 4 | 77.2% |
| GPT-5 | 74.9% |
*ota:*Kimi K2.6 (opensource) marca 58.6% no SWEBench Pro (variante mais difícil).
Arena Elo Leaderboard (março 2026)
| Lab | Elo |
|---|---|
| Anthropic | 1.503 |
| xAI | 1.495 |
| 1.494 | |
| OpenAI | 1.481 |
| Alibaba | 1.449 |
| DeepSeek | 1.424 |
Tendências dos Modelos Proprietários (2026)
- *anelas de contexto:*1M tokens padrão nos frontier; Claude/Gemini líderes
- *easoning modes:*Todos os top-tier têm modo de "thinking" / extended reasoning
- *ultimodalidade:*Texto + imagem + áudio + vídeo virando padrão
- *omputer use:*Claude 3.5+ e GPT-5.4+ com automação de GUI
- *WE
bench:*Barreira de 90% aproximandose com Claude Mythos