Open source
Modelos Open-Source — Catálogo Completo
Atualizado em abril de 2026. Foco em modelos viáveis para base/fine-tuning do Kode.
Llama (Meta)
| Versão | Lançamento | Parâmetros | Contexto | Licença | Destaques |
|---|---|---|---|---|---|
| Llama 1 | fev/2023 | 7B13B30B/65B | 2K | Restrita | Fundacional; iniciou era open-source LLMs |
| Llama 2 | jul/2023 | 7B13B70B | 4K | Llama Community | 2T tokens; chat fine-tuned disponível |
| Llama 3 | abr/2024 | 8B/70B | 8K | Llama License | Tokenizador 128K vocab; instruction-tuned |
| Llama 3.1 | jul/2024 | 8B70B405B | *28K* | Llama License | Multilingual; tool use; SOTA open-source |
| Llama 3.2 | set/2024 | 1B3B11B/90B | 128K | Llama License | Modelos multimodais (11B/90B) + pequenos texto |
| Llama 3.3 | dez/2024 | 70B | 128K | Llama License | Performance de 405B com custo de 70B |
| *lama 4 Scout* | *br/2025* | *7B-A17B (16 experts)* | *0M* | Llama License | *aior contexto open-source; MoE nativo multimodal* |
| *lama 4 Maverick* | *br/2025* | *7B-A17B (128 experts)* | *M* | Llama License | *elhor multimodal open em sua classe; destilado de Behemoth* |
*lama 4 — Paper:*arXiv:2601.11659 (jan/2026) *lama 4 Behemoth:*288B-A288B (16 experts) — modelo "professor" ainda em treinamento; usado para codistilação do Scout e Maverick. *inks:*meta.llama.com · huggingface.co/meta-llama
Qwen (Alibaba)
| Versão | Lançamento | Parâmetros | Contexto | Licença | Destaques |
|---|---|---|---|---|---|
| Qwen 2 | abr/2024 | 0.5B–72B | 128K | Apache 2.0 | Ampla capacidade multilingual |
| Qwen 2.5 | set/2024 | 0.5B–72B | 128K (8M variantes) | Apache 2.0 | 7 modelos open; 1M context variantes |
| Qwen2.5-Coder | set/2024 | 0.5B–32B | 128K | Apache 2.0 | *elhor relação tamanho/perf para código* |
| Qwen2.5-Math | set/2024 | 1.5B7B72B | 128K | Apache 2.0 | 1T tokens de matemática; CoT + Python |
| *wen 3* | *ai/2025* | *.6B–235B*(dense+MoE) | 131K | Apache 2.0 | Thinking+non-thinking unificados; 119 idiomas |
| Qwen 3.5 | mar/2026 | 0.8B–397B-A17B | 256K | Apache 2.0 | 201 idiomas; melhor coding |
| *wen3.5-Omni* | *ar/2026* | — | — | Apache 2.0 | Multimodal nativo: texto + áudio + vídeo + realtime |
*wen 3 — Paper:*arXiv:2505.09388. Inovação chave: *hinking budget*— aloca compute de raciocínio adaptativamente por prompt. *wen3-VL — Paper:*arXiv:2511.21631. Análise de vídeo de até 2 horas. *wen372B:*primeiro modelo open a superar GPT4o no MMLU-Pro. *inks:*qwenlm.github.io · huggingface.co/Qwen
DeepSeek
| Versão | Lançamento | Parâmetros | Contexto | Licença | Destaques |
|---|---|---|---|---|---|
| DeepSeek |
jun/2024 | 236B-A21B | 128K | MIT | MoE; 21B ativos; forte em código |
| DeepSeek-V3 | dez/2024 | 671B-A37B | 128K | MIT | 14.8T tokens; SOTA open-source |
| DeepSeek-R1 | jan/2025 | 671B-A37B | 128K | MIT | *LVR puro; raciocínio rival do o1* |
| DeepSeek |
jan/2025 | 7B14B32B | 128K | MIT | R1 destilado; raciocínio em modelo pequeno |
| DeepSeek-V3.1 | ago/2025 | 671B-A37B | 128K | MIT | Híbrido thinking/non-thinking |
| DeepSeek-V3.2 | dez/2025 | 671B-A37B | 128K | MIT | Enhanced long-thinking; theorem proving |
| *eepSeek |
*br/2026* | *84B-A13B* | *M* | *IT* | Contexto 1M; 10% FLOPs do V3.2 em 1M tokens |
| *eepSeek |
*br/2026* | *.6T-A49B* | *M* | *IT* | *OTA open; 80.6% SWE-bench; 1M contexto* |
*rquitetura:*V2V3V3.2 = Multi-Head Latent Attention (MLA) + DeepSeekMoE. *4 substitui MLA por CSA + HCA*(atenção híbrida) mantendo o DeepSeekMoE — KV cache cai para ~2% do baseline BF16 GQA8 em 1M de contexto. *inks:*deepseek.com · huggingface.co/deepseek-ai
DeepSeek-V4 — Detalhes Técnicos (abr/2026)
*aper:*DeepSeekV4: Towards Highly Efficient MillionToken Context Intelligence (24042026) *DF:*huggingface.codeepseek-aiDeepSeekV4Problobmain/DeepSeek_V4.pdf
*ódigo liberado (MIT):*
- *nferência V4*(modelo + kernels específicos):
huggingface.co/deepseek-ai/DeepSeek-V4-Pro/tree/main/inference— referência canônica citada no §2.3 do paper. (NÃO há repogithub.com/deepseek-ai/DeepSeek-V4— o código fica no HF.) - *epos GitHub correlatos*(
github.com/deepseek-ai/):TileKernels(kernel lib em TileLang, atualizado 23042026 junto do V4) ·DeepGEMM(FP8 GEMM kernels, atualizado 24042026) ·FlashMLA(kernels de Multihead Latent Attention — usados em V2/V3, mantidos para compat) ·parallel comm).DeepEP(expert - *rojeto irmão (não
V4):*`deepseekaiEngram` — Conditional Memory via Scalable Lookup (jan2026, Apache 2.0). Trabalho separado da DeepSeek; *ão integrado ao V4*(paper do V4 não cita Engram). Vídeos de divulgação têm conflado Engram com a CSA+HCA do V4 — são coisas distintas.
*novações arquiteturais:*
- *ompressed Sparse Attention (CSA):*Comprime cada
mKV entries em uma única entrada via pooling com softmaxgate e positional bias aprendido; depois aplica *eepSeek Sparse Attention (DSA)*com *ightning indexer*que seleciona topk blocos comprimidos por query. Resultado: 1M tokens com ~27% dos FLOPs e ~10% do KV cache do V3.2. - *eavily Compressed Attention (HCA):*Compressão mais agressiva (
m' >> m), *ense*(sem sparse selection); intercalada com camadas CSA na hybrid architecture. V4-Flash chega a 10% dos FLOPs e 7% do KV em 1M. - *ightning indexer em FP4:*As queries QK do indexer rodam em *P4*(MXFP4) — index scores quantizados de FP32 para BF16 dão 2× speedup no top-k selector com 99.7% de recall.
- *tenção complementar:*Sliding-window branch (n_win KVs uncompressed mais recentes) + *ttention sink*com logits learnable + *artial RoPE*(só nos últimos 64 dims das queriesKVsoutputs).
- *anifold
Constrained HyperConnections (mHC):*Restringe a matriz residual ao manifold de matrizes doublystochastic (Birkhoff polytope) via *inkhornKnopp 20 iters* garante spectral norm ≤ 1 (mapeamento non-expansive), eliminando instabilidade numérica do HC convencional em stacks profundos. - *uon Optimizer:*Substitui AdamW para a maioria dos módulos (AdamW persiste em embedding, prediction head, biases estáticos, gating do mHC, RMSNorm). Usa *ybrid Newton
Schulz* 8 iters com coefs (3.4445, −4.7750, 2.0315) para convergência rápida + 2 iters com (2, −1.5, 0.5) para estabilizar singular values em 1. Sem QKClip (RMSNorm em queries/KV é suficiente). - *oE alterado vs V3:*activation function Sigmoid → *qrt(Softplus)* sequence
wise balance loss + auxiliaryloss-free; *ash routing*nas primeiras camadas (substitui dense FFN inicial); removida a constraint de número de routing target nodes. - *TP (Multi-Token Prediction):*Mantido idêntico ao V3.
- *aciocínio cross-tool:*Mantém histórico de raciocínio completo entre tool calls (V3.2 descartava).
- *rês modos de raciocínio:*Non-Think / Think High / Think Max (via token
<think>).
*V cache híbrido — engenharia de inferência (§3.6):*
- *eterogeneous KV cache:*dois componentes — classical block cache (CSA Indexer KV + CSA Main KV + HCA KV, block size = lcm(m, m')) + state cache per-request (SWA KV + tail tokens uncompressed ainda não prontos para compressão).
- *n
disk KV cache*para sharedprefix reuse: elimina re-prefill repetido em prompts longos compartilhados. - *ixed-precision storage:*RoPE dims em BF16, demais dims em FP8 → ~50% de economia vs BF16 puro. Esse esquema, somado a CSA+HCA, leva o KV cache em 1M para ~2% do baseline BF16 GQA8.
*reinamento (§3):*
- *P4 Quantization
Aware Training (QAT):*MXFP4 aplicada a (1) MoE expert weights e (2) caminho QK do indexer em CSA. FP4toFP8 dequantization é lossless (E4M3 absorve as scales dos subblocks 1×32 dentro de blocks 128×128 FP8). Pesos FP4 reais usados em inferência e RL rollout. - *eterminismo bitwise train↔inference:*separate accumulation buffers por SM no attention backward; token
order preprocessing + buffer isolation no MoE backward; split-k mHC com redução em kernel separado. - *ybrid ZeRO para Muon*(Muon precisa do gradient matrix completo — ZeRO clássico assume optimizers element
wise): knapsack para parâmetros densos, flatten dos experts MoE para distribuição uniforme; gradients sincronizados em BF16 com stochastic rounding (–50% comm); reducescatter substituído por alltoall + sum FP32 local. - *HC overhead*apenas 6.7% do wall-time do pipeline 1F1B — graças a fused kernels + recomputação seletiva + ajuste do DualPipe.
- *ileLang DSL*para desenvolvimento de kernels (substrato de todos os custom kernels).
*ós-treino em 2 fases:*
- SFT + GRPO por domínio especializado
- Consolidação via distilação on-policy
*enchmarks V4ProMax:*
| Benchmark | Score |
|---|---|
| GPQA Diamond | 90.1% |
| MMLU-Pro | 87.5% |
| SWE-bench Verified | 80.6% |
| LiveCodeBench | 93.5% |
| Codeforces Rating | 3206 |
| IMOAnswerBench | 89.8% |
| MRCR 1M (long context) | 83.5% |
*reços API (vs concorrentes):*
- V4
Flash: $0.14/M tokens (vs GPT5-Nano: $0.20) - V4-Pro: \(1.74/M tokens (vs Claude Sonnet 4.6: \)3.00)
Mistral
| Versão | Parâmetros | Contexto | Licença | Destaques |
|---|---|---|---|---|
| Mistral 7B | 7B | 32K | Apache 2.0 | Sliding window attention; GQA; muito eficiente |
| Mixtral 8×7B | ~46.7B total (12.9B efetivo) | 32K | Apache 2.0 | MoE; paridade GPT-3.5 |
| Mixtral 8×22B | ~160B total | 65K | Apache 2.0 | MoE maior; forte em código e raciocínio |
| Mistral Small 3 | 123B total | 128K | Apache 2.0 | 80+ idiomas |
| Mistral Large 3 | 675B total / 41B ativos | — | Apache 2.0 | Sparse MoE; modelo mais capaz da família |
| *istral Small 4* | *19B total / 6B ativos* | — | *pache 2.0* | *agistral + Pixtral + Devstral unificados; 128 experts* |
| *oxtral TTS* | — | — | *pen-weight* | *rimeiro modelo de áudio da Mistral; 9 idiomas* |
| *eanstral* | — / 6B ativos | — | Open | Agente de código para Lean 4 (matemática formal) |
*istral Small 4 (16032026):*Combina reasoning (Magistral), visão (Pixtral) e coding agentic (Devstral) num único modelo. 128 experts com 6B ativos por token. *oxtral TTS (23032026):*Primeira aposta de áudio da Mistral; open-weights; suporte: EN, FR, DE, ES, NL, PT, IT, HI, AR. *eanstral:*Primeiro agente open-source para verificação formal em Lean 4; 6B ativos; vem com FLTEval (suite de avaliação). *inks:*mistral.ai · huggingface.co/mistralai
Gemma (Google)
| Versão | Parâmetros | Contexto | Licença | Destaques |
|---|---|---|---|---|
| Gemma 1 | 2B/7B | 8K | Apache 2.0 | Destilado do Gemini; eficiente |
| Gemma 2 | 9B/27B | 8K | Apache 2.0 | Melhorado; Gemma 2 27B forte |
| Gemma 3 | 270M–27B | — | Apache 2.0 | Multimodal nativo |
| *emma 4 E2B / E4B* | *B / 4B* | *56K* | *pache 2.0* | *dge |
| *emma 4 26B MoE* | *6B total / 4B ativos* | *56K* | *pache 2.0* | *oE eficiente; supera Llama 4 Maverick em vários benchmarks* |
| *emma 4 31B Dense* | *1B* | *56K* | *pache 2.0* | *elhor open por parâmetro; AIME 2026: 89.2%* |
*emma 4 (02042026):*Construída sobre a mesma tecnologia do Gemini 3. Primeira vez que a família Gemma usa Apache 2.0 em todos os tamanhos. Suporte a texto, imagens, áudio e código; 140+ idiomas.
*emma 4 31B — Benchmarks:*
| Benchmark | Score |
|---|---|
| AIME 2026 | 89.2% |
| GPQA Diamond | 84.3% |
| LiveCodeBench | 80.0% |
*inks:*ai.google.devgemma · huggingface.cogoogle · deepmind.googlemodelsgemma
Phi (Microsoft)
| Versão | Parâmetros | Contexto | Licença | Destaques |
|---|---|---|---|---|
| Phi-3 Mini | 3.8B | 128K | MIT | Dados sintéticos de qualidade educacional |
| Phi-3 Small | 7B | 128K | MIT | Eficiência extrema |
| Phi-3 Medium | 14B | 128K | MIT | Balance performance/tamanho |
| Phi-4 | 14B | 16K | MIT | Dados sintéticos avançados; STEM forte |
| *hi |
*.8B* | *28K* | *IT* | *QA melhorado; multilingual aprimorado* |
| *hi |
*4B* | — | *IT* | *exto + áudio + visão nativamente* |
| *hi |
*4B* | — | *IT* | *hi-4 + raciocínio visual; treinado com 16B tokens* |
*inks:*huggingface.comicrosoft · microsoft.comresearch
Kimi K2.6 (Moonshot AI)
| Versão | Lançamento | Parâmetros | Contexto | Licença | Destaques |
|---|---|---|---|---|---|
| *imi K2.6* | *br/2026* | *T total / 32B ativos* | *56K* | *odified MIT* | *WE |
*imi K2.6 (20042026):*384 experts (8 selecionados + 1 shared), 61 camadas, 64 attention heads, MLA, visão com MoonViT (400M params). Sistema Agent Swarm escala até 300 sub-agentes com 4.000 passos coordenados.
*enchmarks K2.6:*
| Benchmark | Score | Comparativo |
|---|---|---|
| SWE-Bench Pro | 58.6% | GPT-5.4: 57.7%; Gemini 3.1 Pro: 54.2% |
| HLE-Full (com tools) | 54.0% | GPT-5.4: 52.1%; Claude Opus 4.6: 53.0% |
*ara o Kode:*Interessante para agentic coding em contexto amplo; licença permite uso comercial.
Nemotron 3 (NVIDIA)
| Versão | Parâmetros | Contexto | Destaques |
|---|---|---|---|
| *emotron 3 Nano* | Pequeno | — | Edge/device; eficiente |
| *emotron 3 Super* | — | — | *atentMoE; 25T tokens; 2.2× throughput vs GPT |
| *emotron 3 Ultra* | — | — | Máxima capacidade open |
*emotron 3 Super (03042026) — Relatório técnico:*research.nvidia.comlabsnemotronfilesNVIDIANemotron3SuperTechnical-Report.pdf
*atentMoE:*Nova arquitetura MoE que projeta expert weights num espaço latente compartilhado, reduzindo parâmetros totais enquanto mantém capacidade. Melhor accuracy por parâmetro e por FLOP que MoEs regulares.
*VIDIA Nemotron Coalition:*Black Forest Labs, Cursor, LangChain, Mistral AI, Perplexity, Reflection AI, Sarvam, Thinking Machines Lab — construindo juntos o Nemotron 4.
OLMo (Allen AI)
| Versão | Lançamento | Parâmetros | Licença | Destaques |
|---|---|---|---|---|
| OLMo 2 | 2024 | 7B/32B | Apache 2.0 | Totalmente aberto (dados, checkpoints, código) |
| OLMo 3 | dez/2025 | 7B/32B | Apache 2.0 | Raciocínio melhorado; "model flow" completo publicado |
| *LMo Hybrid* | *ar/2026* | *B* | *pache 2.0* | *ransformer + linear RNN; 2× data efficiency vs OLMo 3* |
*LMo 3 — Paper:*arXiv:2512.13961. Inclui checkpoints intermediários, todos os dados, dependências. *LMo Hybrid (05032026):*Combina attention layers (Transformer) com linear RNN layers. Atinge mesma accuracy do OLMo 3 com 49% menos tokens. Treinado em NVIDIA H100 → B200. Primeiro modelo SOTA treinado em B200s em produção.
Command A (Cohere)
| Modelo | Parâmetros | Licença | Destaques |
|---|---|---|---|
| *ommand A* | — | Pesquisa | RAG enterprise; 23 idiomas; SRPO+CoPG alignment |
| Command R7B | 7B | Pesquisa | Destilado eficiente do Command A |
*aper:*arXiv:2504.00698 (Cohere, abr/2026). Algoritmos de alinhamento próprios: SRPO (SelfRewarding Preference Optimization) e CoPG (Contrastive Preference Gradient). Multiphase polish pipeline para entrega enterprise.
Outros Relevantes
| Modelo | Origem | Parâmetros | Licença | Destaques |
|---|---|---|---|---|
| Yi / Yi-1.5 | 01.AI | 6B9B15B/34B | Custom Commercial | Bilíngue EN/ZH; 200K contexto |
| Falcon 2 | TII | 11B | Apache 2.0 | 5.5T tokens; 10 idiomas |
| Grok-1 | xAI | 314B MoE | Apache 2.0 | JAX; 8 experts, 2 ativos; único open de grande escala |
| LFM2 |
Liquid AI | 24B total / 2B ativos | Apache 2.0 | Hybrid Transformer+linear; edge focus |
| GPT-OSS | OpenAI | 120B+ | Em definição | Primeiro modelo open-weight da OpenAI (2026) |
Modelos de Código Especializados
| Modelo | Base | Parâmetros | Destaques |
|---|---|---|---|
| *wen2.5-Coder* | Qwen | 0.5B–32B | *ecomendado para Kode*— melhor relação tamanho/perf |
| DeepSeek |
DeepSeek | 236B MoE | SOTA open em código; pesos abertos |
| StarCoder 2 | BigCode | 3B7B15B | The Stack v2; licença permissiva |
| Codestral | Mistral | — | Forte em código multi-linguagem |
| CodeLlama | Meta | 7B–70B | Llama 2 fine-tuned para código; FIM |
Modelos de Código Especializados
| Modelo | Base | Parâmetros | Destaques |
|---|---|---|---|
| *wen2.5-Coder* | Qwen | 0.5B–32B | *ecomendado para Kode*— melhor relação tamanho/perf |
| DeepSeek |
DeepSeek | 236B MoE | SOTA open em código; pesos abertos |
| StarCoder 2 | BigCode | 3B7B15B | The Stack v2 (arXiv:2402.19173); licença permissiva |
| Codestral | Mistral | — | Forte em código multi-linguagem |
| Kimi K2.6 | Moonshot AI | 1T/32B MoE | SWE-Bench Pro líder; 256K contexto; agentic coding |
Recomendação para o Kode
| Caso de uso | Modelo recomendado | Motivo |
|---|---|---|
| Base para fine-tuning | Qwen2.5 |
Melhor tamanho/perf; Apache 2.0 |
| Iteração rápida (1 GPU) | DeepSeek |
Rápido, suficientemente capaz |
| Raciocínio avançado | DeepSeek-R1 (distill 7B) | MIT; raciocínio de fronteira destilado |
| Contexto enorme de repositório | Llama 4 Scout | 10M tokens; único nessa escala |
| Agentic coding + longo contexto | Kimi K2.6 | 256K; agent swarms; SWE-Bench Pro líder open |
| Edge / dispositivo | Gemma 4 E2B/E4B | Sub-250ms; Apache 2.0; multimodal |