Open source

Modelos Open-Source — Catálogo Completo

Atualizado em abril de 2026. Foco em modelos viáveis para base/fine-tuning do Kode.


Llama (Meta)

Versão Lançamento Parâmetros Contexto Licença Destaques
Llama 1 fev/2023 7B13B30B/65B 2K Restrita Fundacional; iniciou era open-source LLMs
Llama 2 jul/2023 7B13B70B 4K Llama Community 2T tokens; chat fine-tuned disponível
Llama 3 abr/2024 8B/70B 8K Llama License Tokenizador 128K vocab; instruction-tuned
Llama 3.1 jul/2024 8B70B405B *28K* Llama License Multilingual; tool use; SOTA open-source
Llama 3.2 set/2024 1B3B11B/90B 128K Llama License Modelos multimodais (11B/90B) + pequenos texto
Llama 3.3 dez/2024 70B 128K Llama License Performance de 405B com custo de 70B
*lama 4 Scout* *br/2025* *7B-A17B (16 experts)* *0M* Llama License *aior contexto open-source; MoE nativo multimodal*
*lama 4 Maverick* *br/2025* *7B-A17B (128 experts)* *M* Llama License *elhor multimodal open em sua classe; destilado de Behemoth*

*lama 4 — Paper:*arXiv:2601.11659 (jan/2026) *lama 4 Behemoth:*288B-A288B (16 experts) — modelo "professor" ainda em treinamento; usado para codistilação do Scout e Maverick. *inks:*meta.llama.com · huggingface.co/meta-llama


Qwen (Alibaba)

Versão Lançamento Parâmetros Contexto Licença Destaques
Qwen 2 abr/2024 0.5B–72B 128K Apache 2.0 Ampla capacidade multilingual
Qwen 2.5 set/2024 0.5B–72B 128K (8M variantes) Apache 2.0 7 modelos open; 1M context variantes
Qwen2.5-Coder set/2024 0.5B–32B 128K Apache 2.0 *elhor relação tamanho/perf para código*
Qwen2.5-Math set/2024 1.5B7B72B 128K Apache 2.0 1T tokens de matemática; CoT + Python
*wen 3* *ai/2025* *.6B–235B*(dense+MoE) 131K Apache 2.0 Thinking+non-thinking unificados; 119 idiomas
Qwen 3.5 mar/2026 0.8B–397B-A17B 256K Apache 2.0 201 idiomas; melhor coding
*wen3.5-Omni* *ar/2026* Apache 2.0 Multimodal nativo: texto + áudio + vídeo + realtime

*wen 3 — Paper:*arXiv:2505.09388. Inovação chave: *hinking budget*— aloca compute de raciocínio adaptativamente por prompt. *wen3-VL — Paper:*arXiv:2511.21631. Análise de vídeo de até 2 horas. *wen372B:*primeiro modelo open a superar GPT4o no MMLU-Pro. *inks:*qwenlm.github.io · huggingface.co/Qwen


DeepSeek

Versão Lançamento Parâmetros Contexto Licença Destaques
DeepSeekCoderV2 jun/2024 236B-A21B 128K MIT MoE; 21B ativos; forte em código
DeepSeek-V3 dez/2024 671B-A37B 128K MIT 14.8T tokens; SOTA open-source
DeepSeek-R1 jan/2025 671B-A37B 128K MIT *LVR puro; raciocínio rival do o1*
DeepSeekR1Distill jan/2025 7B14B32B 128K MIT R1 destilado; raciocínio em modelo pequeno
DeepSeek-V3.1 ago/2025 671B-A37B 128K MIT Híbrido thinking/non-thinking
DeepSeek-V3.2 dez/2025 671B-A37B 128K MIT Enhanced long-thinking; theorem proving
*eepSeekV4Flash* *br/2026* *84B-A13B* *M* *IT* Contexto 1M; 10% FLOPs do V3.2 em 1M tokens
*eepSeekV4Pro* *br/2026* *.6T-A49B* *M* *IT* *OTA open; 80.6% SWE-bench; 1M contexto*

*rquitetura:*V2V3V3.2 = Multi-Head Latent Attention (MLA) + DeepSeekMoE. *4 substitui MLA por CSA + HCA*(atenção híbrida) mantendo o DeepSeekMoE — KV cache cai para ~2% do baseline BF16 GQA8 em 1M de contexto. *inks:*deepseek.com · huggingface.co/deepseek-ai

DeepSeek-V4 — Detalhes Técnicos (abr/2026)

*aper:*DeepSeekV4: Towards Highly Efficient MillionToken Context Intelligence (24042026) *DF:*huggingface.codeepseek-aiDeepSeekV4Problobmain/DeepSeek_V4.pdf

*ódigo liberado (MIT):*

  • *nferência V4*(modelo + kernels específicos): huggingface.co/deepseek-ai/DeepSeek-V4-Pro/tree/main/inference — referência canônica citada no §2.3 do paper. (NÃO há repo github.com/deepseek-ai/DeepSeek-V4 — o código fica no HF.)
  • *epos GitHub correlatos*(github.com/deepseek-ai/): TileKernels (kernel lib em TileLang, atualizado 23042026 junto do V4) · DeepGEMM (FP8 GEMM kernels, atualizado 24042026) · FlashMLA (kernels de Multihead Latent Attention — usados em V2/V3, mantidos para compat) · DeepEP (expertparallel comm).
  • *rojeto irmão (nãoV4):*`deepseekaiEngram` — Conditional Memory via Scalable Lookup (jan2026, Apache 2.0). Trabalho separado da DeepSeek; *ão integrado ao V4*(paper do V4 não cita Engram). Vídeos de divulgação têm conflado Engram com a CSA+HCA do V4 — são coisas distintas.

*novações arquiteturais:*

  • *ompressed Sparse Attention (CSA):*Comprime cada m KV entries em uma única entrada via pooling com softmaxgate e positional bias aprendido; depois aplica *eepSeek Sparse Attention (DSA)*com *ightning indexer*que seleciona topk blocos comprimidos por query. Resultado: 1M tokens com ~27% dos FLOPs e ~10% do KV cache do V3.2.
  • *eavily Compressed Attention (HCA):*Compressão mais agressiva (m' >> m), *ense*(sem sparse selection); intercalada com camadas CSA na hybrid architecture. V4-Flash chega a 10% dos FLOPs e 7% do KV em 1M.
  • *ightning indexer em FP4:*As queries QK do indexer rodam em *P4*(MXFP4) — index scores quantizados de FP32 para BF16 dão 2× speedup no top-k selector com 99.7% de recall.
  • *tenção complementar:*Sliding-window branch (n_win KVs uncompressed mais recentes) + *ttention sink*com logits learnable + *artial RoPE*(só nos últimos 64 dims das queriesKVsoutputs).
  • *anifoldConstrained HyperConnections (mHC):*Restringe a matriz residual ao manifold de matrizes doublystochastic (Birkhoff polytope) via *inkhornKnopp 20 iters* garante spectral norm ≤ 1 (mapeamento non-expansive), eliminando instabilidade numérica do HC convencional em stacks profundos.
  • *uon Optimizer:*Substitui AdamW para a maioria dos módulos (AdamW persiste em embedding, prediction head, biases estáticos, gating do mHC, RMSNorm). Usa *ybrid NewtonSchulz* 8 iters com coefs (3.4445, −4.7750, 2.0315) para convergência rápida + 2 iters com (2, −1.5, 0.5) para estabilizar singular values em 1. Sem QKClip (RMSNorm em queries/KV é suficiente).
  • *oE alterado vs V3:*activation function Sigmoid → *qrt(Softplus)* sequencewise balance loss + auxiliaryloss-free; *ash routing*nas primeiras camadas (substitui dense FFN inicial); removida a constraint de número de routing target nodes.
  • *TP (Multi-Token Prediction):*Mantido idêntico ao V3.
  • *aciocínio cross-tool:*Mantém histórico de raciocínio completo entre tool calls (V3.2 descartava).
  • *rês modos de raciocínio:*Non-Think / Think High / Think Max (via token <think>).

*V cache híbrido — engenharia de inferência (§3.6):*

  • *eterogeneous KV cache:*dois componentes — classical block cache (CSA Indexer KV + CSA Main KV + HCA KV, block size = lcm(m, m')) + state cache per-request (SWA KV + tail tokens uncompressed ainda não prontos para compressão).
  • *ndisk KV cache*para sharedprefix reuse: elimina re-prefill repetido em prompts longos compartilhados.
  • *ixed-precision storage:*RoPE dims em BF16, demais dims em FP8 → ~50% de economia vs BF16 puro. Esse esquema, somado a CSA+HCA, leva o KV cache em 1M para ~2% do baseline BF16 GQA8.

*reinamento (§3):*

  • *P4 QuantizationAware Training (QAT):*MXFP4 aplicada a (1) MoE expert weights e (2) caminho QK do indexer em CSA. FP4toFP8 dequantization é lossless (E4M3 absorve as scales dos subblocks 1×32 dentro de blocks 128×128 FP8). Pesos FP4 reais usados em inferência e RL rollout.
  • *eterminismo bitwise train↔inference:*separate accumulation buffers por SM no attention backward; tokenorder preprocessing + buffer isolation no MoE backward; split-k mHC com redução em kernel separado.
  • *ybrid ZeRO para Muon*(Muon precisa do gradient matrix completo — ZeRO clássico assume optimizers elementwise): knapsack para parâmetros densos, flatten dos experts MoE para distribuição uniforme; gradients sincronizados em BF16 com stochastic rounding (–50% comm); reducescatter substituído por alltoall + sum FP32 local.
  • *HC overhead*apenas 6.7% do wall-time do pipeline 1F1B — graças a fused kernels + recomputação seletiva + ajuste do DualPipe.
  • *ileLang DSL*para desenvolvimento de kernels (substrato de todos os custom kernels).

*ós-treino em 2 fases:*

  1. SFT + GRPO por domínio especializado
  2. Consolidação via distilação on-policy

*enchmarks V4ProMax:*

Benchmark Score
GPQA Diamond 90.1%
MMLU-Pro 87.5%
SWE-bench Verified 80.6%
LiveCodeBench 93.5%
Codeforces Rating 3206
IMOAnswerBench 89.8%
MRCR 1M (long context) 83.5%

*reços API (vs concorrentes):*

  • V4Flash: $0.14/M tokens (vs GPT5-Nano: $0.20)
  • V4-Pro: \(1.74/M tokens (vs Claude Sonnet 4.6: \)3.00)

Mistral

Versão Parâmetros Contexto Licença Destaques
Mistral 7B 7B 32K Apache 2.0 Sliding window attention; GQA; muito eficiente
Mixtral 8×7B ~46.7B total (12.9B efetivo) 32K Apache 2.0 MoE; paridade GPT-3.5
Mixtral 8×22B ~160B total 65K Apache 2.0 MoE maior; forte em código e raciocínio
Mistral Small 3 123B total 128K Apache 2.0 80+ idiomas
Mistral Large 3 675B total / 41B ativos Apache 2.0 Sparse MoE; modelo mais capaz da família
*istral Small 4* *19B total / 6B ativos* *pache 2.0* *agistral + Pixtral + Devstral unificados; 128 experts*
*oxtral TTS* *pen-weight* *rimeiro modelo de áudio da Mistral; 9 idiomas*
*eanstral* — / 6B ativos Open Agente de código para Lean 4 (matemática formal)

*istral Small 4 (16032026):*Combina reasoning (Magistral), visão (Pixtral) e coding agentic (Devstral) num único modelo. 128 experts com 6B ativos por token. *oxtral TTS (23032026):*Primeira aposta de áudio da Mistral; open-weights; suporte: EN, FR, DE, ES, NL, PT, IT, HI, AR. *eanstral:*Primeiro agente open-source para verificação formal em Lean 4; 6B ativos; vem com FLTEval (suite de avaliação). *inks:*mistral.ai · huggingface.co/mistralai


Gemma (Google)

Versão Parâmetros Contexto Licença Destaques
Gemma 1 2B/7B 8K Apache 2.0 Destilado do Gemini; eficiente
Gemma 2 9B/27B 8K Apache 2.0 Melhorado; Gemma 2 27B forte
Gemma 3 270M–27B Apache 2.0 Multimodal nativo
*emma 4 E2B / E4B* *B / 4B* *56K* *pache 2.0* *dgeoptimized; sub100ms em dispositivos*
*emma 4 26B MoE* *6B total / 4B ativos* *56K* *pache 2.0* *oE eficiente; supera Llama 4 Maverick em vários benchmarks*
*emma 4 31B Dense* *1B* *56K* *pache 2.0* *elhor open por parâmetro; AIME 2026: 89.2%*

*emma 4 (02042026):*Construída sobre a mesma tecnologia do Gemini 3. Primeira vez que a família Gemma usa Apache 2.0 em todos os tamanhos. Suporte a texto, imagens, áudio e código; 140+ idiomas.

*emma 4 31B — Benchmarks:*

Benchmark Score
AIME 2026 89.2%
GPQA Diamond 84.3%
LiveCodeBench 80.0%

*inks:*ai.google.devgemma · huggingface.cogoogle · deepmind.googlemodelsgemma


Phi (Microsoft)

Versão Parâmetros Contexto Licença Destaques
Phi-3 Mini 3.8B 128K MIT Dados sintéticos de qualidade educacional
Phi-3 Small 7B 128K MIT Eficiência extrema
Phi-3 Medium 14B 128K MIT Balance performance/tamanho
Phi-4 14B 16K MIT Dados sintéticos avançados; STEM forte
*hi4mini* *.8B* *28K* *IT* *QA melhorado; multilingual aprimorado*
*hi4multimodal* *4B* *IT* *exto + áudio + visão nativamente*
*hi4reasoning-vision* *4B* *IT* *hi-4 + raciocínio visual; treinado com 16B tokens*

*inks:*huggingface.comicrosoft · microsoft.comresearch


Kimi K2.6 (Moonshot AI)

Versão Lançamento Parâmetros Contexto Licença Destaques
*imi K2.6* *br/2026* *T total / 32B ativos* *56K* *odified MIT* *WEBench Pro líder open; 300agent swarms*

*imi K2.6 (20042026):*384 experts (8 selecionados + 1 shared), 61 camadas, 64 attention heads, MLA, visão com MoonViT (400M params). Sistema Agent Swarm escala até 300 sub-agentes com 4.000 passos coordenados.

*enchmarks K2.6:*

Benchmark Score Comparativo
SWE-Bench Pro 58.6% GPT-5.4: 57.7%; Gemini 3.1 Pro: 54.2%
HLE-Full (com tools) 54.0% GPT-5.4: 52.1%; Claude Opus 4.6: 53.0%

*ara o Kode:*Interessante para agentic coding em contexto amplo; licença permite uso comercial.


Nemotron 3 (NVIDIA)

Versão Parâmetros Contexto Destaques
*emotron 3 Nano* Pequeno Edge/device; eficiente
*emotron 3 Super* *atentMoE; 25T tokens; 2.2× throughput vs GPTOSS120B*
*emotron 3 Ultra* Máxima capacidade open

*emotron 3 Super (03042026) — Relatório técnico:*research.nvidia.comlabsnemotronfilesNVIDIANemotron3SuperTechnical-Report.pdf

*atentMoE:*Nova arquitetura MoE que projeta expert weights num espaço latente compartilhado, reduzindo parâmetros totais enquanto mantém capacidade. Melhor accuracy por parâmetro e por FLOP que MoEs regulares.

*VIDIA Nemotron Coalition:*Black Forest Labs, Cursor, LangChain, Mistral AI, Perplexity, Reflection AI, Sarvam, Thinking Machines Lab — construindo juntos o Nemotron 4.


OLMo (Allen AI)

Versão Lançamento Parâmetros Licença Destaques
OLMo 2 2024 7B/32B Apache 2.0 Totalmente aberto (dados, checkpoints, código)
OLMo 3 dez/2025 7B/32B Apache 2.0 Raciocínio melhorado; "model flow" completo publicado
*LMo Hybrid* *ar/2026* *B* *pache 2.0* *ransformer + linear RNN; 2× data efficiency vs OLMo 3*

*LMo 3 — Paper:*arXiv:2512.13961. Inclui checkpoints intermediários, todos os dados, dependências. *LMo Hybrid (05032026):*Combina attention layers (Transformer) com linear RNN layers. Atinge mesma accuracy do OLMo 3 com 49% menos tokens. Treinado em NVIDIA H100 → B200. Primeiro modelo SOTA treinado em B200s em produção.


Command A (Cohere)

Modelo Parâmetros Licença Destaques
*ommand A* Pesquisa RAG enterprise; 23 idiomas; SRPO+CoPG alignment
Command R7B 7B Pesquisa Destilado eficiente do Command A

*aper:*arXiv:2504.00698 (Cohere, abr/2026). Algoritmos de alinhamento próprios: SRPO (SelfRewarding Preference Optimization) e CoPG (Contrastive Preference Gradient). Multiphase polish pipeline para entrega enterprise.


Outros Relevantes

Modelo Origem Parâmetros Licença Destaques
Yi / Yi-1.5 01.AI 6B9B15B/34B Custom Commercial Bilíngue EN/ZH; 200K contexto
Falcon 2 TII 11B Apache 2.0 5.5T tokens; 10 idiomas
Grok-1 xAI 314B MoE Apache 2.0 JAX; 8 experts, 2 ativos; único open de grande escala
LFM224BA2B Liquid AI 24B total / 2B ativos Apache 2.0 Hybrid Transformer+linear; edge focus
GPT-OSS OpenAI 120B+ Em definição Primeiro modelo open-weight da OpenAI (2026)

Modelos de Código Especializados

Modelo Base Parâmetros Destaques
*wen2.5-Coder* Qwen 0.5B–32B *ecomendado para Kode*— melhor relação tamanho/perf
DeepSeekCoderV2 DeepSeek 236B MoE SOTA open em código; pesos abertos
StarCoder 2 BigCode 3B7B15B The Stack v2; licença permissiva
Codestral Mistral Forte em código multi-linguagem
CodeLlama Meta 7B–70B Llama 2 fine-tuned para código; FIM

Modelos de Código Especializados

Modelo Base Parâmetros Destaques
*wen2.5-Coder* Qwen 0.5B–32B *ecomendado para Kode*— melhor relação tamanho/perf
DeepSeekCoderV2 DeepSeek 236B MoE SOTA open em código; pesos abertos
StarCoder 2 BigCode 3B7B15B The Stack v2 (arXiv:2402.19173); licença permissiva
Codestral Mistral Forte em código multi-linguagem
Kimi K2.6 Moonshot AI 1T/32B MoE SWE-Bench Pro líder; 256K contexto; agentic coding

Recomendação para o Kode

Caso de uso Modelo recomendado Motivo
Base para fine-tuning Qwen2.5Coder32B Melhor tamanho/perf; Apache 2.0
Iteração rápida (1 GPU) DeepSeekCoderV2-Lite Rápido, suficientemente capaz
Raciocínio avançado DeepSeek-R1 (distill 7B) MIT; raciocínio de fronteira destilado
Contexto enorme de repositório Llama 4 Scout 10M tokens; único nessa escala
Agentic coding + longo contexto Kimi K2.6 256K; agent swarms; SWE-Bench Pro líder open
Edge / dispositivo Gemma 4 E2B/E4B Sub-250ms; Apache 2.0; multimodal

Source: ../home/koder/dev/koder/meta/docs/ia/compendium/03-modelos/open-source.md