Arquiteturas alternativas

Arquiteturas Alternativas ao Transformer

Pesquisadas como alternativas para eficiência em contexto longo, inferência mais rápida e menor consumo de memória.

State Space Models (SSMs)

Mamba / Mamba-2

*rXiv:*2312.00752 | ICLR 2024
*utores:*Albert Gu & Tri Dao
*ecanismo:*SSM seletivo — parâmetros de estado são função do input (selectivity); linear em tempo de sequência
*antagens vs Transformer:*
- O(n) em memória vs O(n²) da atenção
- 5× maior throughput na inferência
- Escala para sequências de 1M+ tokens
*esempenho:*Mamba-3B supera Transformers 3B; iguala Transformers 6B em algumas métricas
*odelos que usam:*Jamba (AI21 Labs — híbrido Mamba+Transformer), Zamba
*itHub:*github.comstate-spacesmamba

S4 (Structured State Spaces)

*rXiv:*2111.00396
*ntecessor do Mamba:*primeiro SSM de alta performance para sequências longas
*elhoria:*Mamba adicionou seletividade que S4 não tinha

Redes Recorrentes Modernas

xLSTM — Extended Long Short-Term Memory

*rXiv:*2405.04517 | NeurIPS 2024 Spotlight
*utores:*Maximilian Beck et al. (ELLIS Institute)
*novações:*
- sLSTM: memória escalar com memory mixing e gating exponencial
- mLSTM: memória matricial totalmente paralelizável com atualizações de covariância
*esempenho:*Competitivo com Transformers e SSMs em scaling

RWKV — Receptance Weighted Key Value

*rXiv:*2305.13048 | EMNLP 2023
*utores:*Peng et al.
*ecanismo:*Pode ser formulado como Transformer (treino paralelo) ou RNN (inferência O(1))
*antagem:*Inferência de custo constante sem KV cache; memória fixa
*esempenho:*RWKV~~14B compete com Transformer~~14B

Mecanismos de Atenção Híbrida e Linear

RetNet — Retentive Network

*rXiv:*2307.08621
*icrosoft Research*
*ecanismo:*Retention — três paradigmas: paralelo (treino), recorrente (inferência O(1)), chunkwise (sequências longas O(n))
*antagem:*Training parallelism + low-cost inference + boa performance

Infini-Attention

*rXiv:*2404.07143
*oogle*
*ecanismo:*Memória compressiva + atenção local mascarada + atenção linear
*ompressão:*114× de redução de memória
*esultado:*LLM 1B escala para 1M de contexto; 8B SOTA em resumo de 500K livros

Linear Attention

*onceito:*Aproxima a atenção softmax com complexidade O(n) usando kernel tricks
*ariantes:*Performer, FNet, cosFormer, GLA (Gated Linear Attention)

Liquid Neural Networks

Família de arquiteturas inspiradas em sistemas dinâmicos contínuos (EDOs) — neurônios com dinâmica não-linear contínua no tempo, em vez de discretizada como em RNN/Transformer.

Liquid Time-Constant Networks (LTC)

*rXiv:*2006.04439 | AAAI 2021 | Hasani, Lechner et al. (MIT CSAIL)
*ecanismo:*ODEs com constantes de tempo learnable — cada neurônio é função do estado anterior + input via integrador contínuo.
*esultado emblemático:**9 neurônios*pilotaram drone em tarefa de visual lane-following onde CNN+LSTM precisava de milhões de params.

Closedform Continuoustime Networks (CfC)

*ature Machine Intelligence 4, 992-1003 (2022)*| Hasani et al.
*antagem sobre LTC:*forma fechada da ODE — dispensa solver numérico, 10-100× mais rápido em treino e inferência mantendo expressividade.

Liquid Foundation Models (LFM)

*iquid AI, 2024-2026*— comercialização das ideias acadêmicas em escala foundation.
*FM~~1B / LFM~~3B / LFM-40B (MoE)*— competitivos com Llama/Mistral em accuracy com *onstante de memória*durante inferência longa.
*FM2*(2026) — segunda geração focada em edge; ver entrada em "Híbridas" abaixo.
*ite:*liquid.ai

Para o Kode

Promissor para edge (mobile/desktop on~~device); revisitar quando koder_kit precisar de modelos dedicados a tasks pequenas com latência sub~~segundo.

Joint Embedding Predictive Architectures (JEPA)

Paradigma *ão~~generativo*de self~~supervised learning: prediz *mbeddings*de partes mascaradas no espaço latente, não pixels/tokens. Resumo conceitual aqui; aprofundamento em [[paradigmas-alternativos]] sob "JEPA".

IJEPA (ImageJEPA)

*rXiv:*2301.08243 | CVPR 2023 | Meta AI (LeCun group)
*omparado com MAE:*accuracy similar em ImageNet linear probe com *enos compute*

VJEPA / VJEPA 2

*-JEPA:*Bardes et al., 2024 — vídeo SSL.
*~~JEPA 2:*Meta 2025 — 2M+ horas; transferência *ero~~shot para controle robótico*

Por que está aqui

JEPA é considerado por LeCun a base arquitetural de *orld models*futuros que substituiriam LLMs autorregressivos como caminho para AGI/AMI. Não compete com Transformer em geração de linguagem; compete em *epresentação para perception + ação*

Para o Kode

Se a Stack ganhar vision encoder próprio (Eye 2.0, screen understanding), JEPA é candidato a pretraining mais eficiente que CLIP/SigLIP.

Arquiteturas Híbridas

Jamba (AI21 Labs, 2024)

*ombina:*Transformer (self-attention) + Mamba (SSM) + MoE
*antagem:*Melhor eficiência de KV cache do Mamba com expressividade do Transformer

Zamba (Zyphra, 2024)

*ombina:*Mamba + camadas de atenção periódicas
*amanhos:*2.7B, 7B — competitivo para modelos pequenos

OLMo Hybrid (Allen AI, 2026)

*ombina:*Transformer attention layers + Linear RNN layers (RWKV-style)
*esultado:*Mesma accuracy que OLMo 3 usando 49% menos tokens de pré-treino (2× data efficiency)
*rimeiro SOTA treinado em B200s*(Lambda infra)
*aper:*allenai.orgpapersolmo-hybrid

LFM224BA2B (Liquid AI, 2026)

*ombina:*Liquid Foundation Model (LFM) + atenção linear
*oco:*Edge deployment e on-device inference
*esultado:*Aborda "scaling bottlenecks" de LLMs tradicionais em hardware limitado

Multi-Memory Architectures

Google Titans (2025)

*ecanismo:*3 tipos de memória num único modelo:
- *emória de curto prazo:*Atenção local na janela de contexto imediato
- *emória de longo prazo:*Neural memory module — aprende a comprimir e recuperar informações de contextos passados
- *emória persistente:*Parâmetros do modelo (conhecimento fixo de treino)
*ontexto:*Escala além de 2M tokens com custo linear
*iferencial:*A memória de longo prazo é *prendida*durante fine-tuning, não heurística

DeepSeek Engram (2026)

*rXiv:*2601.07372 · *ódigo:*github.comdeepseek-aiEngram (Apache 2.0)
*remissa:*MoE escala capacidade via conditional computation; Engram introduz *onditional memory*como *ova axis de sparsity*— complementar (não substitutiva) ao MoE.
*ecanismo:*N~~gram embedding tables massivas e estáticas injetadas em camadas Transformer. Para cada posição, hash de sequências de 2~~3 tokens → lookup O(1) na tabela. Modernização do classic N-gram embedding.
*parsity Allocation Problem:*Lei de scaling *~~shaped*que governa o trade~~off entre computação neural (MoE) e memória estática (Engram). Ótimo empírico: *5~~80% compute + 20~~25% memory*
*esultados (27B, iso~~params + iso~~FLOPs vs MoE baseline):*MMLU +3.4, CMMLU +4.0, BBH +5.0, ARC~~Challenge +3.7, HumanEval +3.0, MATH +2.4. Multi~~Query NIAH long-context: *4.2 → 97.0*(delegar dependências locais ao lookup libera atenção para contexto global).
*iferencial vs RAG:*Memória *aramétrica integrada*(não retrieval externo); decisões de "lookup vs compute" são fim a fim treináveis.
*tatus no V4:**ÃO*integrado ao DeepSeek-V4 (paper jan2026 vs paper V4 abr2026). Trabalhos paralelos da DeepSeek; vídeos de divulgação têm conflado os dois.

Novas Arquiteturas MoE

LatentMoE (NVIDIA, 2026)

*ntroduzido em:*Nemotron 3 Super
*ecanismo:*Expert weights são projetados num espaço latente compartilhado — não são pesos independentes
*esultado:*Melhor accuracy por parâmetro E por FLOP que MoEs regulares
*feito:*Modelo menor com capacidade de um MoE maior; throughput 2.2–7.5× superior em inferência

Comparação de Arquiteturas

Arquitetura	Treino	Inferência	Memória	Contexto Longo	Status 2026
Transformer	Paralelo O(n²)	O(n²) KV cache	Alto	Quadrático	Dominante
MoE Transformer	Paralelo	O(n) ativo	Alto por token	Quadrático	Frontier (DeepSeek, Mixtral, Nemotron)
LatentMoE	Paralelo	O(n) ativo	Menor	Quadrático	NVIDIA Nemotron 3
Mamba/SSM	Paralelo	O(1) por token	Fixo	Linear	Nicho, crescendo
RWKV	Paralelo	O(1) por token	Fixo	Linear	Open-source ativo
Híbrido (Jamba, OLMo Hybrid)	Paralelo	Melhor que Transformer	Moderado	Melhor	Adoção crescente
Multi-Memory (Titans)	Paralelo	Linear	Adaptativo	Linear	Google research (2026)
Liquid (LTCCfCLFM)	Paralelo (CfC closed-form)	O(1) contínuo	Muito baixo	Bom	Comercial (Liquid AI)
JEPA (vision/video)	Paralelo SSL	N/A (representação)	Baixo	N/A	Produção (Meta)

Nota sobre Relevância para Kode

Os modelos de fronteira em 2026 são todos Transformers ou MoE-Transformers. Arquiteturas alternativas são interessantes para:

*ontextos >1M tokens:*Titans ou OLMo Hybrid (linear scaling)
*ardware limitado:*LFM2/Liquid, RWKV (O(1) inference)
*ficiência de treino:*Híbridos com linear RNN (2× data efficiency)

Para Kode v1: usar Transformer/MoE padrão. Revisitar híbridos quando houver necessidade de contexto de repositório inteiro (>500K tokens).

Ver também

[[paradigmas~~alternativos]] — neurosimbólico, Tsetlin, HDC, Forward~~Forward, EBM, Active Inference, aprofundamento JEPA
[[..06-hardwareneuromorfico]] — Loihi 2, NorthPole, SpiNNaker; SNN training (casa com Forward-Forward e Predictive Coding)