Transformer e atencao

Transformer e Mecanismos de Atenção

O Paper Original

Attention Is All You Need (2017)

  • *utores:*Ashish Vaswani et al. (Google Brain)
  • *rXiv:*1706.03762
  • *ontribuição:*Arquitetura Transformer pura — elimina RNNs/CNNs; selfattention multihead; permite paralelismo total no treino
  • *esultado:*28.4 BLEU em WMT14 En-De; treino 3.5 dias em 8 P100s

Variantes de Atenção

Multi-Query Attention (MQA)

  • *aper:*Noam Shazeer (2019)
  • *roblema:*KV cache cresce com o número de cabeças — gargalo de memória
  • *olução:*Uma única cabeça K e V compartilhada; múltiplas cabeças Q
  • *peedup:*Redução significativa do KV cache; trade-off leve de qualidade

Grouped-Query Attention (GQA)

  • *rXiv:*2305.13245
  • *olução:*Número intermediário de grupos K/V (entre 1 e full); recupera qualidade do MHA com velocidade próxima ao MQA
  • *peedup:*10.6× em LLaMA27B a 8K contexto com mínima perda de qualidade
  • *dotado por:*Llama 3, Qwen 2+, Mistral, DeepSeek-V3

Multi-Head Latent Attention (MLA)

  • *rXiv:*2502.07864 (TransMLA), 2502.14837
  • *novação:*Projeta Q, K, V para espaço latente compacto; reduz KV cache via projeção de baixa dimensão
  • *esempenho:*93% de compressão do KV cache; 1.4× speedup para modelos menores
  • *ioneiro:*DeepSeek-V2/V3 — usa MLA como diferencial arquitetural
  • *eepSeek-V4 abandonou MLA*em favor de Hybrid CSA+HCA (próxima entrada).

NSA — Native Sparse Attention (DeepSeek, 2025)

  • *rXiv:*2502.11089 · *enue:*ACL 2025 (Long)
  • *utores:*Yuan, Gao, Dai, Luo et al. (DeepSeek-AI + Peking University)
  • *remissa:*Sparse attention póstreino (H2O, SnapKV, etc.) corta KV cache mas raramente acelera o treino. NSA é *ardwarealigned*+ *ativamente treinável*endtoend.
  • *stratégia hierárquica dinâmica*com 3 ramos paralelos por token:
    1. *oarse-grained token compression*— comprime blocos largos para preservar contexto global
    2. *inegrained token selection*— seleciona topk tokens individuais para precisão local
    3. *liding window*— preserva dependências locais imediatas
  • *esultado:*modelo prétreinado com NSA *guala ou supera*Full Attention em benchmarks gerais, longcontext e instruction reasoning. Speedups substanciais em 64k tokens em decodingforwardbackward.
  • *mportância para o compendium:**redecessor direto*do CSA (Compressed Sparse Attention) usado no DeepSeekV4 — V4 cita "DeepSeekAI 2025" para a estratégia DSA aplicada dentro do CSA. NSA estabeleceu o padrão "compression + selection" que CSA refinou e HCA estendeu.

Hybrid CSA + HCA (DeepSeek-V4)

  • *aper:*DeepSeek-V4 §2.3 (24042026)
  • *ompressed Sparse Attention (CSA):*comprime cada m tokens em 1 KV entry via softmaxgate aprendido com positional bias; depois aplica DeepSeek Sparse Attention (DSA) — um lightning indexer (queries lowrank em FP4 + ReLU) seleciona top-k blocos por query.
  • *eavily Compressed Attention (HCA):*mesmo esquema de compressão com fator m' ≫ m, mas *ense*(sem sparse selection); intercalada com camadas CSA.
  • *tenção complementar:*sliding-window branch (n_win KVs uncompressed recentes), attention sink learnable, partial RoPE (só nos últimos 64 dims).
  • *esultado em 1M tokens:*~27% dos FLOPs de singletoken e ~10% do KV cache vs DeepSeekV3.2; ~2% do baseline BF16 GQA8 — viabiliza 1M de contexto em hardware corrente.
  • Detalhes complementares em 03-modelos/open-source.md (seção DeepSeekV4) e em `05inferencia/kv-cache.md` (Heterogeneous KV Cache).

FlashAttention 123

  • *roblema:*Atenção padrão é limitada pela largura de banda de memória (O(n²) em memória)
  • *olução:*Algoritmo IO-aware; calcula atenção em blocos — evita materializar a matriz completa na HBM
  • *lashAttention 1*(Dao et al., 2022) — arXiv:2205.14135 — base
  • *lashAttention 2*(2023) — melhor paralelismo, melhor ocupação das GPUs
  • *lashAttention 3*(2024) — otimizado para Hopper (H100); pipelining assíncrono; 75% das FLOPS teóricas
  • *ntegrado em:*PyTorch, vLLM, SGLang, TensorRT-LLM, todos os principais frameworks

Encodificação Posicional

RoPE — Rotary Positional Embedding

  • *rXiv:*2104.09864
  • *ecanismo:*Codifica posição relativa via matrizes de rotação no espaço complexo
  • *antagem:*Naturalmente relativo; decaimento suave da atenção com distância
  • *dotado por:*Llama (123/4), Qwen, Mistral, DeepSeek, GPT-NeoX, PaLM

ALiBi — Attention with Linear Biases

  • *rXiv:*2108.12409
  • *ecanismo:*Penalidade de viés linear na atenção baseada em distância relativa; sem embedding de posição
  • *antagem:*Extrapolação para contextos maiores que o treinado

Positional Interpolation (PI)

  • *ecanismo:*Comprime índices de posição dentro da janela de treino (escalonamento)
  • *xtensão:*Permite extrapolar contexto 2-4× sem retreino

YaRN (Yet Another RoPE Extension)

  • *rXiv:*2309.00071 | ICLR 2024
  • *ecanismo:*Escalonamento por partes das frequências + temperatura; NTKbyparts interpolation
  • *ficiência:*10× menos tokens, 2.5× menos steps vs métodos anteriores
  • *xtensão:*128K+ tokens em LLaMA2 com 400600 steps de fine-tuning

LongRoPE

  • *rXiv:*2402.13753 | ICML 2024
  • *xtensão:*2M tokens com apenas 1K steps de fine-tuning
  • *ntegrado em:*Microsoft Phi-3

Arquiteturas de Mistura de Especialistas (MoE)

Sparsely-Gated MoE (2017)

  • *rXiv:*1701.06538
  • *utores:*Shazeer et al. (Google)
  • *ecanismo:*Rede de gating seleciona top-k especialistas por token; apenas k ativos por forward pass
  • *mpacto:*Aumenta capacidade 1000× com overhead mínimo de compute

Switch Transformer (2021)

  • *rXiv:*2101.03961
  • *implificação:*top-1 routing (apenas 1 especialista) — mais estável, menos comunicação
  • *reinado em:*T5 11B → 1T parâmetros com mesmo FLOP

Mixtral 8×7B8×22B (Mistral, 20232024)

  • *rquitetura:*MoE com 8 especialistas, 2 ativos por token (~12.9B de compute efetivo por token)
  • *icença:*Apache 2.0

DeepSeek MoE Architecture

  • *novação:*Fine-grained experts + shared experts; permite maior especialização com roteamento mais eficiente
  • *sado em:*DeepSeek-V2, V3, R1 (671B total, 37B ativos)

Tokenização

BPE (Byte Pair Encoding)

  • *rigem:*Philip Gage (1994) para compressão; adaptado por Sennrich et al. (2015) para NLP
  • *ecanismo:*Combina pares de bytes mais frequentes iterativamente
  • *sado por:*GPT-234, Llama, Qwen, DeepSeek, maioria dos LLMs modernos

SentencePiece

  • *aper:*Kudo & Richardson (2018)
  • *iferencial:*Agnóstico de idioma; trata input como bytes brutos sem pré-processamento de linguagem
  • *itHub:*github.comgooglesentencepiece

WordPiece

  • *rigem:*BERT (Devlin et al., 2018)
  • *iferença do BPE:*Maximiza probabilidade do corpus ao selecionar vocab em vez de frequência

Tiktoken

  • *rigem:*OpenAI
  • *sado por:*GPT-3.544o — vocabulário de 100K tokens
  • *ota:*Codificação eficiente para código (reduz tokens por whitespace/indentação)

Source: ../home/koder/dev/koder/meta/docs/ia/compendium/02-arquiteturas/transformer-e-atencao.md