Open source

Modelos Open-Source — Catálogo Completo

Atualizado em abril de 2026. Foco em modelos viáveis para base/fine-tuning do Kode.

Llama (Meta)

Versão	Lançamento	Parâmetros	Contexto	Licença	Destaques
Llama 1	fev/2023	7B13B30B/65B	2K	Restrita	Fundacional; iniciou era open-source LLMs
Llama 2	jul/2023	7B13B70B	4K	Llama Community	2T tokens; chat fine-tuned disponível
Llama 3	abr/2024	8B/70B	8K	Llama License	Tokenizador 128K vocab; instruction-tuned
Llama 3.1	jul/2024	8B70B405B	28K	Llama License	Multilingual; tool use; SOTA open-source
Llama 3.2	set/2024	1B3B11B/90B	128K	Llama License	Modelos multimodais (11B/90B) + pequenos texto
Llama 3.3	dez/2024	70B	128K	Llama License	Performance de 405B com custo de 70B
lama 4 Scout	br/2025	7B-A17B (16 experts)	0M	Llama License	aior contexto open-source; MoE nativo multimodal
lama 4 Maverick	br/2025	7B-A17B (128 experts)	M	Llama License	elhor multimodal open em sua classe; destilado de Behemoth

*lama 4 — Paper:*arXiv:2601.11659 (jan/2026) *lama 4 Behemoth:*288B-A288B (16 experts) — modelo "professor" ainda em treinamento; usado para codistilação do Scout e Maverick. *inks:*meta.llama.com · huggingface.co/meta-llama

Qwen (Alibaba)

Versão	Lançamento	Parâmetros	Contexto	Licença	Destaques
Qwen 2	abr/2024	0.5B–72B	128K	Apache 2.0	Ampla capacidade multilingual
Qwen 2.5	set/2024	0.5B–72B	128K (8M variantes)	Apache 2.0	7 modelos open; 1M context variantes
Qwen2.5-Coder	set/2024	0.5B–32B	128K	Apache 2.0	elhor relação tamanho/perf para código
Qwen2.5-Math	set/2024	1.5B7B72B	128K	Apache 2.0	1T tokens de matemática; CoT + Python
wen 3	ai/2025	.6B–235B(dense+MoE)	131K	Apache 2.0	Thinking+non-thinking unificados; 119 idiomas
Qwen 3.5	mar/2026	0.8B–397B-A17B	256K	Apache 2.0	201 idiomas; melhor coding
wen3.5-Omni	ar/2026	—	—	Apache 2.0	Multimodal nativo: texto + áudio + vídeo + realtime

*wen 3 — Paper:*arXiv:2505.09388. Inovação chave: *hinking budget*— aloca compute de raciocínio adaptativamente por prompt. *wen3-VL — Paper:*arXiv:2511.21631. Análise de vídeo de até 2 horas. *wen3~~72B:*primeiro modelo open a superar GPT~~4o no MMLU-Pro. *inks:*qwenlm.github.io · huggingface.co/Qwen

DeepSeek

Versão	Lançamento	Parâmetros	Contexto	Licença	Destaques
DeepSeek~~Coder~~V2	jun/2024	236B-A21B	128K	MIT	MoE; 21B ativos; forte em código
DeepSeek-V3	dez/2024	671B-A37B	128K	MIT	14.8T tokens; SOTA open-source
DeepSeek-R1	jan/2025	671B-A37B	128K	MIT	LVR puro; raciocínio rival do o1
DeepSeekR1Distill	jan/2025	7B14B32B	128K	MIT	R1 destilado; raciocínio em modelo pequeno
DeepSeek-V3.1	ago/2025	671B-A37B	128K	MIT	Híbrido thinking/non-thinking
DeepSeek-V3.2	dez/2025	671B-A37B	128K	MIT	Enhanced long-thinking; theorem proving
eepSeekV4Flash	br/2026	84B-A13B	M	IT	Contexto 1M; 10% FLOPs do V3.2 em 1M tokens
eepSeekV4Pro	br/2026	.6T-A49B	M	IT	OTA open; 80.6% SWE-bench; 1M contexto

*rquitetura:*V2V3V3.2 = Multi-Head Latent Attention (MLA) + DeepSeekMoE. *4 substitui MLA por CSA + HCA*(atenção híbrida) mantendo o DeepSeekMoE — KV cache cai para ~2% do baseline BF16 GQA8 em 1M de contexto. *inks:*deepseek.com · huggingface.co/deepseek-ai

DeepSeek-V4 — Detalhes Técnicos (abr/2026)

*aper:*DeepSeek~~V4: Towards Highly Efficient Million~~Token Context Intelligence (24042026) *DF:*huggingface.codeepseek-aiDeepSeekV4Problobmain/DeepSeek_V4.pdf

*ódigo liberado (MIT):*

*nferência V4*(modelo + kernels específicos): huggingface.co/deepseek-ai/DeepSeek-V4-Pro/tree/main/inference — referência canônica citada no §2.3 do paper. (NÃO há repo github.com/deepseek-ai/DeepSeek-V4 — o código fica no HF.)
*epos GitHub correlatos*(github.com/deepseek-ai/): TileKernels (kernel lib em TileLang, atualizado 23042026 junto do V4) · DeepGEMM (FP8 GEMM kernels, atualizado 24042026) · FlashMLA (kernels de Multi~~head Latent Attention — usados em V2/V3, mantidos para compat) · DeepEP (expert~~parallel comm).
*rojeto irmão (não~~V4):*`deepseek~~aiEngram` — Conditional Memory via Scalable Lookup (jan2026, Apache 2.0). Trabalho separado da DeepSeek; *ão integrado ao V4*(paper do V4 não cita Engram). Vídeos de divulgação têm conflado Engram com a CSA+HCA do V4 — são coisas distintas.

*novações arquiteturais:*

*ompressed Sparse Attention (CSA):*Comprime cada m KV entries em uma única entrada via pooling com softmax~~gate e positional bias aprendido; depois aplica *eepSeek Sparse Attention (DSA)*com *ightning indexer*que seleciona top~~k blocos comprimidos por query. Resultado: 1M tokens com ~27% dos FLOPs e ~10% do KV cache do V3.2.
*eavily Compressed Attention (HCA):*Compressão mais agressiva (m' >> m), *ense*(sem sparse selection); intercalada com camadas CSA na hybrid architecture. V4-Flash chega a 10% dos FLOPs e 7% do KV em 1M.
*ightning indexer em FP4:*As queries QK do indexer rodam em *P4*(MXFP4) — index scores quantizados de FP32 para BF16 dão 2× speedup no top-k selector com 99.7% de recall.
*tenção complementar:*Sliding-window branch (n_win KVs uncompressed mais recentes) + *ttention sink*com logits learnable + *artial RoPE*(só nos últimos 64 dims das queriesKVsoutputs).
*anifold~~Constrained Hyper~~Connections (mHC):*Restringe a matriz residual ao manifold de matrizes doubly~~stochastic (Birkhoff polytope) via *inkhorn~~Knopp 20 iters* garante spectral norm ≤ 1 (mapeamento non-expansive), eliminando instabilidade numérica do HC convencional em stacks profundos.
*uon Optimizer:*Substitui AdamW para a maioria dos módulos (AdamW persiste em embedding, prediction head, biases estáticos, gating do mHC, RMSNorm). Usa *ybrid Newton~~Schulz* 8 iters com coefs (3.4445, −4.7750, 2.0315) para convergência rápida + 2 iters com (2, −1.5, 0.5) para estabilizar singular values em 1. Sem QK~~Clip (RMSNorm em queries/KV é suficiente).
*oE alterado vs V3:*activation function Sigmoid → *qrt(Softplus)* sequence~~wise balance loss + auxiliary~~loss-free; *ash routing*nas primeiras camadas (substitui dense FFN inicial); removida a constraint de número de routing target nodes.
*TP (Multi-Token Prediction):*Mantido idêntico ao V3.
*aciocínio cross-tool:*Mantém histórico de raciocínio completo entre tool calls (V3.2 descartava).
*rês modos de raciocínio:*Non-Think / Think High / Think Max (via token <think>).

*V cache híbrido — engenharia de inferência (§3.6):*

*eterogeneous KV cache:*dois componentes — classical block cache (CSA Indexer KV + CSA Main KV + HCA KV, block size = lcm(m, m')) + state cache per-request (SWA KV + tail tokens uncompressed ainda não prontos para compressão).
*n~~disk KV cache*para shared~~prefix reuse: elimina re-prefill repetido em prompts longos compartilhados.
*ixed-precision storage:*RoPE dims em BF16, demais dims em FP8 → ~50% de economia vs BF16 puro. Esse esquema, somado a CSA+HCA, leva o KV cache em 1M para ~2% do baseline BF16 GQA8.

*reinamento (§3):*

*P4 Quantization~~Aware Training (QAT):*MXFP4 aplicada a (1) MoE expert weights e (2) caminho QK do indexer em CSA. FP4~~to~~FP8 dequantization é lossless (E4M3 absorve as scales dos sub~~blocks 1×32 dentro de blocks 128×128 FP8). Pesos FP4 reais usados em inferência e RL rollout.
*eterminismo bitwise train↔inference:*separate accumulation buffers por SM no attention backward; token~~order pre~~processing + buffer isolation no MoE backward; split-k mHC com redução em kernel separado.
*ybrid ZeRO para Muon*(Muon precisa do gradient matrix completo — ZeRO clássico assume optimizers element~~wise): knapsack para parâmetros densos, flatten dos experts MoE para distribuição uniforme; gradients sincronizados em BF16 com stochastic rounding (–50% comm); reduce~~scatter substituído por alltoall + sum FP32 local.
*HC overhead*apenas 6.7% do wall-time do pipeline 1F1B — graças a fused kernels + recomputação seletiva + ajuste do DualPipe.
*ileLang DSL*para desenvolvimento de kernels (substrato de todos os custom kernels).

*ós-treino em 2 fases:*

SFT + GRPO por domínio especializado
Consolidação via distilação on-policy

*enchmarks V4~~Pro~~Max:*

Benchmark	Score
GPQA Diamond	90.1%
MMLU-Pro	87.5%
SWE-bench Verified	80.6%
LiveCodeBench	93.5%
Codeforces Rating	3206
IMOAnswerBench	89.8%
MRCR 1M (long context)	83.5%

*reços API (vs concorrentes):*

V4~~Flash: $0.14/M tokens (vs GPT~~5-Nano: $0.20)
V4-Pro: $1.74/M tokens (vs Claude Sonnet 4.6: $3.00)

Mistral

Versão	Parâmetros	Contexto	Licença	Destaques
Mistral 7B	7B	32K	Apache 2.0	Sliding window attention; GQA; muito eficiente
Mixtral 8×7B	~46.7B total (12.9B efetivo)	32K	Apache 2.0	MoE; paridade GPT-3.5
Mixtral 8×22B	~160B total	65K	Apache 2.0	MoE maior; forte em código e raciocínio
Mistral Small 3	123B total	128K	Apache 2.0	80+ idiomas
Mistral Large 3	675B total / 41B ativos	—	Apache 2.0	Sparse MoE; modelo mais capaz da família
istral Small 4	19B total / 6B ativos	—	pache 2.0	agistral + Pixtral + Devstral unificados; 128 experts
oxtral TTS	—	—	pen-weight	rimeiro modelo de áudio da Mistral; 9 idiomas
eanstral	— / 6B ativos	—	Open	Agente de código para Lean 4 (matemática formal)

*istral Small 4 (16032026):*Combina reasoning (Magistral), visão (Pixtral) e coding agentic (Devstral) num único modelo. 128 experts com 6B ativos por token. *oxtral TTS (23032026):*Primeira aposta de áudio da Mistral; open-weights; suporte: EN, FR, DE, ES, NL, PT, IT, HI, AR. *eanstral:*Primeiro agente open-source para verificação formal em Lean 4; 6B ativos; vem com FLTEval (suite de avaliação). *inks:*mistral.ai · huggingface.co/mistralai

Gemma (Google)

Versão	Parâmetros	Contexto	Licença	Destaques
Gemma 1	2B/7B	8K	Apache 2.0	Destilado do Gemini; eficiente
Gemma 2	9B/27B	8K	Apache 2.0	Melhorado; Gemma 2 27B forte
Gemma 3	270M–27B	—	Apache 2.0	Multimodal nativo
emma 4 E2B / E4B	B / 4B	56K	pache 2.0	dge~~optimized; sub~~100ms em dispositivos
emma 4 26B MoE	6B total / 4B ativos	56K	pache 2.0	oE eficiente; supera Llama 4 Maverick em vários benchmarks
emma 4 31B Dense	1B	56K	pache 2.0	elhor open por parâmetro; AIME 2026: 89.2%

*emma 4 (02042026):*Construída sobre a mesma tecnologia do Gemini 3. Primeira vez que a família Gemma usa Apache 2.0 em todos os tamanhos. Suporte a texto, imagens, áudio e código; 140+ idiomas.

*emma 4 31B — Benchmarks:*

Benchmark	Score
AIME 2026	89.2%
GPQA Diamond	84.3%
LiveCodeBench	80.0%

*inks:*ai.google.devgemma · huggingface.cogoogle · deepmind.googlemodelsgemma

Phi (Microsoft)

Versão	Parâmetros	Contexto	Licença	Destaques
Phi-3 Mini	3.8B	128K	MIT	Dados sintéticos de qualidade educacional
Phi-3 Small	7B	128K	MIT	Eficiência extrema
Phi-3 Medium	14B	128K	MIT	Balance performance/tamanho
Phi-4	14B	16K	MIT	Dados sintéticos avançados; STEM forte
hi4mini	.8B	28K	IT	QA melhorado; multilingual aprimorado
hi4multimodal	4B	—	IT	exto + áudio + visão nativamente
hi4reasoning-vision	4B	—	IT	hi-4 + raciocínio visual; treinado com 16B tokens

*inks:*huggingface.comicrosoft · microsoft.comresearch

Kimi K2.6 (Moonshot AI)

Versão	Lançamento	Parâmetros	Contexto	Licença	Destaques
imi K2.6	br/2026	T total / 32B ativos	56K	odified MIT	WE~~Bench Pro líder open; 300~~agent swarms

*imi K2.6 (20042026):*384 experts (8 selecionados + 1 shared), 61 camadas, 64 attention heads, MLA, visão com MoonViT (400M params). Sistema Agent Swarm escala até 300 sub-agentes com 4.000 passos coordenados.

*enchmarks K2.6:*

Benchmark	Score	Comparativo
SWE-Bench Pro	58.6%	GPT-5.4: 57.7%; Gemini 3.1 Pro: 54.2%
HLE-Full (com tools)	54.0%	GPT-5.4: 52.1%; Claude Opus 4.6: 53.0%

*ara o Kode:*Interessante para agentic coding em contexto amplo; licença permite uso comercial.

Nemotron 3 (NVIDIA)

Versão	Parâmetros	Contexto	Destaques
emotron 3 Nano	Pequeno	—	Edge/device; eficiente
emotron 3 Super	—	—	atentMoE; 25T tokens; 2.2× throughput vs GPT~~OSS~~120B
emotron 3 Ultra	—	—	Máxima capacidade open

*emotron 3 Super (03042026) — Relatório técnico:*research.nvidia.comlabsnemotronfilesNVIDIA~~Nemotron~~3~~Super~~Technical-Report.pdf

*atentMoE:*Nova arquitetura MoE que projeta expert weights num espaço latente compartilhado, reduzindo parâmetros totais enquanto mantém capacidade. Melhor accuracy por parâmetro e por FLOP que MoEs regulares.

*VIDIA Nemotron Coalition:*Black Forest Labs, Cursor, LangChain, Mistral AI, Perplexity, Reflection AI, Sarvam, Thinking Machines Lab — construindo juntos o Nemotron 4.

OLMo (Allen AI)

Versão	Lançamento	Parâmetros	Licença	Destaques
OLMo 2	2024	7B/32B	Apache 2.0	Totalmente aberto (dados, checkpoints, código)
OLMo 3	dez/2025	7B/32B	Apache 2.0	Raciocínio melhorado; "model flow" completo publicado
LMo Hybrid	ar/2026	B	pache 2.0	ransformer + linear RNN; 2× data efficiency vs OLMo 3

*LMo 3 — Paper:*arXiv:2512.13961. Inclui checkpoints intermediários, todos os dados, dependências. *LMo Hybrid (05032026):*Combina attention layers (Transformer) com linear RNN layers. Atinge mesma accuracy do OLMo 3 com 49% menos tokens. Treinado em NVIDIA H100 → B200. Primeiro modelo SOTA treinado em B200s em produção.

Command A (Cohere)

Modelo	Parâmetros	Licença	Destaques
ommand A	—	Pesquisa	RAG enterprise; 23 idiomas; SRPO+CoPG alignment
Command R7B	7B	Pesquisa	Destilado eficiente do Command A

*aper:*arXiv:2504.00698 (Cohere, abr/2026). Algoritmos de alinhamento próprios: SRPO (Self~~Rewarding Preference Optimization) e CoPG (Contrastive Preference Gradient). Multi~~phase polish pipeline para entrega enterprise.

Outros Relevantes

Modelo	Origem	Parâmetros	Licença	Destaques
Yi / Yi-1.5	01.AI	6B9B15B/34B	Custom Commercial	Bilíngue EN/ZH; 200K contexto
Falcon 2	TII	11B	Apache 2.0	5.5T tokens; 10 idiomas
Grok-1	xAI	314B MoE	Apache 2.0	JAX; 8 experts, 2 ativos; único open de grande escala
LFM2~~24B~~A2B	Liquid AI	24B total / 2B ativos	Apache 2.0	Hybrid Transformer+linear; edge focus
GPT-OSS	OpenAI	120B+	Em definição	Primeiro modelo open-weight da OpenAI (2026)

Modelos de Código Especializados

Modelo	Base	Parâmetros	Destaques
wen2.5-Coder	Qwen	0.5B–32B	ecomendado para Kode— melhor relação tamanho/perf
DeepSeek~~Coder~~V2	DeepSeek	236B MoE	SOTA open em código; pesos abertos
StarCoder 2	BigCode	3B7B15B	The Stack v2; licença permissiva
Codestral	Mistral	—	Forte em código multi-linguagem
CodeLlama	Meta	7B–70B	Llama 2 fine-tuned para código; FIM

Modelos de Código Especializados

Modelo	Base	Parâmetros	Destaques
wen2.5-Coder	Qwen	0.5B–32B	ecomendado para Kode— melhor relação tamanho/perf
DeepSeek~~Coder~~V2	DeepSeek	236B MoE	SOTA open em código; pesos abertos
StarCoder 2	BigCode	3B7B15B	The Stack v2 (arXiv:2402.19173); licença permissiva
Codestral	Mistral	—	Forte em código multi-linguagem
Kimi K2.6	Moonshot AI	1T/32B MoE	SWE-Bench Pro líder; 256K contexto; agentic coding

Recomendação para o Kode

Caso de uso	Modelo recomendado	Motivo
Base para fine-tuning	Qwen2.5~~Coder~~32B	Melhor tamanho/perf; Apache 2.0
Iteração rápida (1 GPU)	DeepSeek~~Coder~~V2-Lite	Rápido, suficientemente capaz
Raciocínio avançado	DeepSeek-R1 (distill 7B)	MIT; raciocínio de fronteira destilado
Contexto enorme de repositório	Llama 4 Scout	10M tokens; único nessa escala
Agentic coding + longo contexto	Kimi K2.6	256K; agent swarms; SWE-Bench Pro líder open
Edge / dispositivo	Gemma 4 E2B/E4B	Sub-250ms; Apache 2.0; multimodal