Arquiteturas alternativas

Arquiteturas Alternativas ao Transformer

Pesquisadas como alternativas para eficiência em contexto longo, inferência mais rápida e menor consumo de memória.


State Space Models (SSMs)

Mamba / Mamba-2

  • *rXiv:*2312.00752 | ICLR 2024
  • *utores:*Albert Gu & Tri Dao
  • *ecanismo:*SSM seletivo — parâmetros de estado são função do input (selectivity); linear em tempo de sequência
  • *antagens vs Transformer:*
    • O(n) em memória vs O(n²) da atenção
    • 5× maior throughput na inferência
    • Escala para sequências de 1M+ tokens
  • *esempenho:*Mamba-3B supera Transformers 3B; iguala Transformers 6B em algumas métricas
  • *odelos que usam:*Jamba (AI21 Labs — híbrido Mamba+Transformer), Zamba
  • *itHub:*github.comstate-spacesmamba

S4 (Structured State Spaces)

  • *rXiv:*2111.00396
  • *ntecessor do Mamba:*primeiro SSM de alta performance para sequências longas
  • *elhoria:*Mamba adicionou seletividade que S4 não tinha

Redes Recorrentes Modernas

xLSTM — Extended Long Short-Term Memory

  • *rXiv:*2405.04517 | NeurIPS 2024 Spotlight
  • *utores:*Maximilian Beck et al. (ELLIS Institute)
  • *novações:*
    • sLSTM: memória escalar com memory mixing e gating exponencial
    • mLSTM: memória matricial totalmente paralelizável com atualizações de covariância
  • *esempenho:*Competitivo com Transformers e SSMs em scaling

RWKV — Receptance Weighted Key Value

  • *rXiv:*2305.13048 | EMNLP 2023
  • *utores:*Peng et al.
  • *ecanismo:*Pode ser formulado como Transformer (treino paralelo) ou RNN (inferência O(1))
  • *antagem:*Inferência de custo constante sem KV cache; memória fixa
  • *esempenho:*RWKV14B compete com Transformer14B

Mecanismos de Atenção Híbrida e Linear

RetNet — Retentive Network

  • *rXiv:*2307.08621
  • *icrosoft Research*
  • *ecanismo:*Retention — três paradigmas: paralelo (treino), recorrente (inferência O(1)), chunkwise (sequências longas O(n))
  • *antagem:*Training parallelism + low-cost inference + boa performance

Infini-Attention

  • *rXiv:*2404.07143
  • *oogle*
  • *ecanismo:*Memória compressiva + atenção local mascarada + atenção linear
  • *ompressão:*114× de redução de memória
  • *esultado:*LLM 1B escala para 1M de contexto; 8B SOTA em resumo de 500K livros

Linear Attention

  • *onceito:*Aproxima a atenção softmax com complexidade O(n) usando kernel tricks
  • *ariantes:*Performer, FNet, cosFormer, GLA (Gated Linear Attention)

Liquid Neural Networks

Família de arquiteturas inspiradas em sistemas dinâmicos contínuos (EDOs) — neurônios com dinâmica não-linear contínua no tempo, em vez de discretizada como em RNN/Transformer.

Liquid Time-Constant Networks (LTC)

  • *rXiv:*2006.04439 | AAAI 2021 | Hasani, Lechner et al. (MIT CSAIL)
  • *ecanismo:*ODEs com constantes de tempo learnable — cada neurônio é função do estado anterior + input via integrador contínuo.
  • *esultado emblemático:**9 neurônios*pilotaram drone em tarefa de visual lane-following onde CNN+LSTM precisava de milhões de params.

Closedform Continuoustime Networks (CfC)

  • *ature Machine Intelligence 4, 992-1003 (2022)*| Hasani et al.
  • *antagem sobre LTC:*forma fechada da ODE — dispensa solver numérico, 10-100× mais rápido em treino e inferência mantendo expressividade.

Liquid Foundation Models (LFM)

  • *iquid AI, 2024-2026*— comercialização das ideias acadêmicas em escala foundation.
  • *FM1B / LFM3B / LFM-40B (MoE)*— competitivos com Llama/Mistral em accuracy com *onstante de memória*durante inferência longa.
  • *FM2*(2026) — segunda geração focada em edge; ver entrada em "Híbridas" abaixo.
  • *ite:*liquid.ai

Para o Kode

  • Promissor para edge (mobile/desktop ondevice); revisitar quando koder_kit precisar de modelos dedicados a tasks pequenas com latência subsegundo.

Joint Embedding Predictive Architectures (JEPA)

Paradigma *ãogenerativo*de selfsupervised learning: prediz *mbeddings*de partes mascaradas no espaço latente, não pixels/tokens. Resumo conceitual aqui; aprofundamento em [[paradigmas-alternativos]] sob "JEPA".

IJEPA (ImageJEPA)

  • *rXiv:*2301.08243 | CVPR 2023 | Meta AI (LeCun group)
  • *omparado com MAE:*accuracy similar em ImageNet linear probe com *enos compute*

VJEPA / VJEPA 2

  • *-JEPA:*Bardes et al., 2024 — vídeo SSL.
  • *JEPA 2:*Meta 2025 — 2M+ horas; transferência *eroshot para controle robótico*

Por que está aqui

JEPA é considerado por LeCun a base arquitetural de *orld models*futuros que substituiriam LLMs autorregressivos como caminho para AGI/AMI. Não compete com Transformer em geração de linguagem; compete em *epresentação para perception + ação*

Para o Kode

  • Se a Stack ganhar vision encoder próprio (Eye 2.0, screen understanding), JEPA é candidato a pretraining mais eficiente que CLIP/SigLIP.

Arquiteturas Híbridas

Jamba (AI21 Labs, 2024)

  • *ombina:*Transformer (self-attention) + Mamba (SSM) + MoE
  • *antagem:*Melhor eficiência de KV cache do Mamba com expressividade do Transformer

Zamba (Zyphra, 2024)

  • *ombina:*Mamba + camadas de atenção periódicas
  • *amanhos:*2.7B, 7B — competitivo para modelos pequenos

OLMo Hybrid (Allen AI, 2026)

  • *ombina:*Transformer attention layers + Linear RNN layers (RWKV-style)
  • *esultado:*Mesma accuracy que OLMo 3 usando 49% menos tokens de pré-treino (2× data efficiency)
  • *rimeiro SOTA treinado em B200s*(Lambda infra)
  • *aper:*allenai.orgpapersolmo-hybrid

LFM224BA2B (Liquid AI, 2026)

  • *ombina:*Liquid Foundation Model (LFM) + atenção linear
  • *oco:*Edge deployment e on-device inference
  • *esultado:*Aborda "scaling bottlenecks" de LLMs tradicionais em hardware limitado

Multi-Memory Architectures

Google Titans (2025)

  • *ecanismo:*3 tipos de memória num único modelo:
    • *emória de curto prazo:*Atenção local na janela de contexto imediato
    • *emória de longo prazo:*Neural memory module — aprende a comprimir e recuperar informações de contextos passados
    • *emória persistente:*Parâmetros do modelo (conhecimento fixo de treino)
  • *ontexto:*Escala além de 2M tokens com custo linear
  • *iferencial:*A memória de longo prazo é *prendida*durante fine-tuning, não heurística

DeepSeek Engram (2026)

  • *rXiv:*2601.07372 · *ódigo:*github.comdeepseek-aiEngram (Apache 2.0)
  • *remissa:*MoE escala capacidade via conditional computation; Engram introduz *onditional memory*como *ova axis de sparsity*— complementar (não substitutiva) ao MoE.
  • *ecanismo:*Ngram embedding tables massivas e estáticas injetadas em camadas Transformer. Para cada posição, hash de sequências de 23 tokens → lookup O(1) na tabela. Modernização do classic N-gram embedding.
  • *parsity Allocation Problem:*Lei de scaling *shaped*que governa o tradeoff entre computação neural (MoE) e memória estática (Engram). Ótimo empírico: *580% compute + 2025% memory*
  • *esultados (27B, isoparams + isoFLOPs vs MoE baseline):*MMLU +3.4, CMMLU +4.0, BBH +5.0, ARCChallenge +3.7, HumanEval +3.0, MATH +2.4. MultiQuery NIAH long-context: *4.2 → 97.0*(delegar dependências locais ao lookup libera atenção para contexto global).
  • *iferencial vs RAG:*Memória *aramétrica integrada*(não retrieval externo); decisões de "lookup vs compute" são fim a fim treináveis.
  • *tatus no V4:**ÃO*integrado ao DeepSeek-V4 (paper jan2026 vs paper V4 abr2026). Trabalhos paralelos da DeepSeek; vídeos de divulgação têm conflado os dois.

Novas Arquiteturas MoE

LatentMoE (NVIDIA, 2026)

  • *ntroduzido em:*Nemotron 3 Super
  • *ecanismo:*Expert weights são projetados num espaço latente compartilhado — não são pesos independentes
  • *esultado:*Melhor accuracy por parâmetro E por FLOP que MoEs regulares
  • *feito:*Modelo menor com capacidade de um MoE maior; throughput 2.2–7.5× superior em inferência

Comparação de Arquiteturas

Arquitetura Treino Inferência Memória Contexto Longo Status 2026
Transformer Paralelo O(n²) O(n²) KV cache Alto Quadrático Dominante
MoE Transformer Paralelo O(n) ativo Alto por token Quadrático Frontier (DeepSeek, Mixtral, Nemotron)
LatentMoE Paralelo O(n) ativo Menor Quadrático NVIDIA Nemotron 3
Mamba/SSM Paralelo O(1) por token Fixo Linear Nicho, crescendo
RWKV Paralelo O(1) por token Fixo Linear Open-source ativo
Híbrido (Jamba, OLMo Hybrid) Paralelo Melhor que Transformer Moderado Melhor Adoção crescente
Multi-Memory (Titans) Paralelo Linear Adaptativo Linear Google research (2026)
Liquid (LTCCfCLFM) Paralelo (CfC closed-form) O(1) contínuo Muito baixo Bom Comercial (Liquid AI)
JEPA (vision/video) Paralelo SSL N/A (representação) Baixo N/A Produção (Meta)

Nota sobre Relevância para Kode

Os modelos de fronteira em 2026 são todos Transformers ou MoE-Transformers. Arquiteturas alternativas são interessantes para:

  • *ontextos >1M tokens:*Titans ou OLMo Hybrid (linear scaling)
  • *ardware limitado:*LFM2/Liquid, RWKV (O(1) inference)
  • *ficiência de treino:*Híbridos com linear RNN (2× data efficiency)

Para Kode v1: usar Transformer/MoE padrão. Revisitar híbridos quando houver necessidade de contexto de repositório inteiro (>500K tokens).


Ver também

  • [[paradigmasalternativos]] — neurosimbólico, Tsetlin, HDC, ForwardForward, EBM, Active Inference, aprofundamento JEPA
  • [[..06-hardwareneuromorfico]] — Loihi 2, NorthPole, SpiNNaker; SNN training (casa com Forward-Forward e Predictive Coding)

Source: ../home/koder/dev/koder/meta/docs/ia/compendium/02-arquiteturas/arquiteturas-alternativas.md