Arquiteturas alternativas
Arquiteturas Alternativas ao Transformer
Pesquisadas como alternativas para eficiência em contexto longo, inferência mais rápida e menor consumo de memória.
State Space Models (SSMs)
Mamba / Mamba-2
- *rXiv:*2312.00752 | ICLR 2024
- *utores:*Albert Gu & Tri Dao
- *ecanismo:*SSM seletivo — parâmetros de estado são função do input (selectivity); linear em tempo de sequência
- *antagens vs Transformer:*
- O(n) em memória vs O(n²) da atenção
- 5× maior throughput na inferência
- Escala para sequências de 1M+ tokens
- *esempenho:*Mamba-3B supera Transformers 3B; iguala Transformers 6B em algumas métricas
- *odelos que usam:*Jamba (AI21 Labs — híbrido Mamba+Transformer), Zamba
- *itHub:*github.comstate-spacesmamba
S4 (Structured State Spaces)
- *rXiv:*2111.00396
- *ntecessor do Mamba:*primeiro SSM de alta performance para sequências longas
- *elhoria:*Mamba adicionou seletividade que S4 não tinha
Redes Recorrentes Modernas
xLSTM — Extended Long Short-Term Memory
- *rXiv:*2405.04517 | NeurIPS 2024 Spotlight
- *utores:*Maximilian Beck et al. (ELLIS Institute)
- *novações:*
- sLSTM: memória escalar com memory mixing e gating exponencial
- mLSTM: memória matricial totalmente paralelizável com atualizações de covariância
- *esempenho:*Competitivo com Transformers e SSMs em scaling
RWKV — Receptance Weighted Key Value
- *rXiv:*2305.13048 | EMNLP 2023
- *utores:*Peng et al.
- *ecanismo:*Pode ser formulado como Transformer (treino paralelo) ou RNN (inferência O(1))
- *antagem:*Inferência de custo constante sem KV cache; memória fixa
- *esempenho:*RWKV
14B compete com Transformer14B
Mecanismos de Atenção Híbrida e Linear
RetNet — Retentive Network
- *rXiv:*2307.08621
- *icrosoft Research*
- *ecanismo:*Retention — três paradigmas: paralelo (treino), recorrente (inferência O(1)), chunkwise (sequências longas O(n))
- *antagem:*Training parallelism + low-cost inference + boa performance
Infini-Attention
- *rXiv:*2404.07143
- *oogle*
- *ecanismo:*Memória compressiva + atenção local mascarada + atenção linear
- *ompressão:*114× de redução de memória
- *esultado:*LLM 1B escala para 1M de contexto; 8B SOTA em resumo de 500K livros
Linear Attention
- *onceito:*Aproxima a atenção softmax com complexidade O(n) usando kernel tricks
- *ariantes:*Performer, FNet, cosFormer, GLA (Gated Linear Attention)
Liquid Neural Networks
Família de arquiteturas inspiradas em sistemas dinâmicos contínuos (EDOs) — neurônios com dinâmica não-linear contínua no tempo, em vez de discretizada como em RNN/Transformer.
Liquid Time-Constant Networks (LTC)
- *rXiv:*2006.04439 | AAAI 2021 | Hasani, Lechner et al. (MIT CSAIL)
- *ecanismo:*ODEs com constantes de tempo learnable — cada neurônio é função do estado anterior + input via integrador contínuo.
- *esultado emblemático:**9 neurônios*pilotaram drone em tarefa de visual lane-following onde CNN+LSTM precisava de milhões de params.
Closedform Continuoustime Networks (CfC)
- *ature Machine Intelligence 4, 992-1003 (2022)*| Hasani et al.
- *antagem sobre LTC:*forma fechada da ODE — dispensa solver numérico, 10-100× mais rápido em treino e inferência mantendo expressividade.
Liquid Foundation Models (LFM)
- *iquid AI, 2024-2026*— comercialização das ideias acadêmicas em escala foundation.
- *FM
1B / LFM3B / LFM-40B (MoE)*— competitivos com Llama/Mistral em accuracy com *onstante de memória*durante inferência longa. - *FM2*(2026) — segunda geração focada em edge; ver entrada em "Híbridas" abaixo.
- *ite:*liquid.ai
Para o Kode
- Promissor para edge (mobile/desktop on
device); revisitar quandosegundo.koder_kitprecisar de modelos dedicados a tasks pequenas com latência sub
Joint Embedding Predictive Architectures (JEPA)
Paradigma *ãogenerativo*de selfsupervised learning: prediz *mbeddings*de partes mascaradas no espaço latente, não pixels/tokens. Resumo conceitual aqui; aprofundamento em [[paradigmas-alternativos]] sob "JEPA".
IJEPA (ImageJEPA)
- *rXiv:*2301.08243 | CVPR 2023 | Meta AI (LeCun group)
- *omparado com MAE:*accuracy similar em ImageNet linear probe com *enos compute*
VJEPA / VJEPA 2
- *-JEPA:*Bardes et al., 2024 — vídeo SSL.
- *
JEPA 2:*Meta 2025 — 2M+ horas; transferência *eroshot para controle robótico*
Por que está aqui
JEPA é considerado por LeCun a base arquitetural de *orld models*futuros que substituiriam LLMs autorregressivos como caminho para AGI/AMI. Não compete com Transformer em geração de linguagem; compete em *epresentação para perception + ação*
Para o Kode
- Se a Stack ganhar vision encoder próprio (Eye 2.0, screen understanding), JEPA é candidato a pretraining mais eficiente que CLIP/SigLIP.
Arquiteturas Híbridas
Jamba (AI21 Labs, 2024)
- *ombina:*Transformer (self-attention) + Mamba (SSM) + MoE
- *antagem:*Melhor eficiência de KV cache do Mamba com expressividade do Transformer
Zamba (Zyphra, 2024)
- *ombina:*Mamba + camadas de atenção periódicas
- *amanhos:*2.7B, 7B — competitivo para modelos pequenos
OLMo Hybrid (Allen AI, 2026)
- *ombina:*Transformer attention layers + Linear RNN layers (RWKV-style)
- *esultado:*Mesma accuracy que OLMo 3 usando 49% menos tokens de pré-treino (2× data efficiency)
- *rimeiro SOTA treinado em B200s*(Lambda infra)
- *aper:*allenai.orgpapersolmo-hybrid
LFM224BA2B (Liquid AI, 2026)
- *ombina:*Liquid Foundation Model (LFM) + atenção linear
- *oco:*Edge deployment e on-device inference
- *esultado:*Aborda "scaling bottlenecks" de LLMs tradicionais em hardware limitado
Multi-Memory Architectures
Google Titans (2025)
- *ecanismo:*3 tipos de memória num único modelo:
- *emória de curto prazo:*Atenção local na janela de contexto imediato
- *emória de longo prazo:*Neural memory module — aprende a comprimir e recuperar informações de contextos passados
- *emória persistente:*Parâmetros do modelo (conhecimento fixo de treino)
- *ontexto:*Escala além de 2M tokens com custo linear
- *iferencial:*A memória de longo prazo é *prendida*durante fine-tuning, não heurística
DeepSeek Engram (2026)
- *rXiv:*2601.07372 · *ódigo:*github.comdeepseek-aiEngram (Apache 2.0)
- *remissa:*MoE escala capacidade via conditional computation; Engram introduz *onditional memory*como *ova axis de sparsity*— complementar (não substitutiva) ao MoE.
- *ecanismo:*N
gram embedding tables massivas e estáticas injetadas em camadas Transformer. Para cada posição, hash de sequências de 23 tokens → lookup O(1) na tabela. Modernização do classic N-gram embedding. - *parsity Allocation Problem:*Lei de scaling *
shaped*que governa o tradeoff entre computação neural (MoE) e memória estática (Engram). Ótimo empírico: *580% compute + 2025% memory* - *esultados (27B, iso
params + isoFLOPs vs MoE baseline):*MMLU +3.4, CMMLU +4.0, BBH +5.0, ARCChallenge +3.7, HumanEval +3.0, MATH +2.4. MultiQuery NIAH long-context: *4.2 → 97.0*(delegar dependências locais ao lookup libera atenção para contexto global). - *iferencial vs RAG:*Memória *aramétrica integrada*(não retrieval externo); decisões de "lookup vs compute" são fim a fim treináveis.
- *tatus no V4:**ÃO*integrado ao DeepSeek-V4 (paper jan2026 vs paper V4 abr2026). Trabalhos paralelos da DeepSeek; vídeos de divulgação têm conflado os dois.
Novas Arquiteturas MoE
LatentMoE (NVIDIA, 2026)
- *ntroduzido em:*Nemotron 3 Super
- *ecanismo:*Expert weights são projetados num espaço latente compartilhado — não são pesos independentes
- *esultado:*Melhor accuracy por parâmetro E por FLOP que MoEs regulares
- *feito:*Modelo menor com capacidade de um MoE maior; throughput 2.2–7.5× superior em inferência
Comparação de Arquiteturas
| Arquitetura | Treino | Inferência | Memória | Contexto Longo | Status 2026 |
|---|---|---|---|---|---|
| Transformer | Paralelo O(n²) | O(n²) KV cache | Alto | Quadrático | Dominante |
| MoE Transformer | Paralelo | O(n) ativo | Alto por token | Quadrático | Frontier (DeepSeek, Mixtral, Nemotron) |
| LatentMoE | Paralelo | O(n) ativo | Menor | Quadrático | NVIDIA Nemotron 3 |
| Mamba/SSM | Paralelo | O(1) por token | Fixo | Linear | Nicho, crescendo |
| RWKV | Paralelo | O(1) por token | Fixo | Linear | Open-source ativo |
| Híbrido (Jamba, OLMo Hybrid) | Paralelo | Melhor que Transformer | Moderado | Melhor | Adoção crescente |
| Multi-Memory (Titans) | Paralelo | Linear | Adaptativo | Linear | Google research (2026) |
| Liquid (LTCCfCLFM) | Paralelo (CfC closed-form) | O(1) contínuo | Muito baixo | Bom | Comercial (Liquid AI) |
| JEPA (vision/video) | Paralelo SSL | N/A (representação) | Baixo | N/A | Produção (Meta) |
Nota sobre Relevância para Kode
Os modelos de fronteira em 2026 são todos Transformers ou MoE-Transformers. Arquiteturas alternativas são interessantes para:
- *ontextos >1M tokens:*Titans ou OLMo Hybrid (linear scaling)
- *ardware limitado:*LFM2/Liquid, RWKV (O(1) inference)
- *ficiência de treino:*Híbridos com linear RNN (2× data efficiency)
Para Kode v1: usar Transformer/MoE padrão. Revisitar híbridos quando houver necessidade de contexto de repositório inteiro (>500K tokens).
Ver também
- [[paradigmas
alternativos]] — neurosimbólico, Tsetlin, HDC, ForwardForward, EBM, Active Inference, aprofundamento JEPA - [[..06-hardwareneuromorfico]] — Loihi 2, NorthPole, SpiNNaker; SNN training (casa com Forward-Forward e Predictive Coding)