Transformer e atencao

Transformer e Mecanismos de Atenção

*utores:*Ashish Vaswani et al. (Google Brain)
*rXiv:*1706.03762
*ontribuição:*Arquitetura Transformer pura — elimina RNNs/CNNs; self~~attention multi~~head; permite paralelismo total no treino
*esultado:*28.4 BLEU em WMT14 En-De; treino 3.5 dias em 8 P100s

*rXiv:*2305.13245
*olução:*Número intermediário de grupos K/V (entre 1 e full); recupera qualidade do MHA com velocidade próxima ao MQA
*peedup:*10.6× em LLaMA27B a 8K contexto com mínima perda de qualidade
*dotado por:*Llama 3, Qwen 2+, Mistral, DeepSeek-V3

*rXiv:*2502.07864 (TransMLA), 2502.14837
*novação:*Projeta Q, K, V para espaço latente compacto; reduz KV cache via projeção de baixa dimensão
*esempenho:*93% de compressão do KV cache; 1.4× speedup para modelos menores
*ioneiro:*DeepSeek-V2/V3 — usa MLA como diferencial arquitetural
*eepSeek-V4 abandonou MLA*em favor de Hybrid CSA+HCA (próxima entrada).

*rXiv:*2502.11089 · *enue:*ACL 2025 (Long)
*utores:*Yuan, Gao, Dai, Luo et al. (DeepSeek-AI + Peking University)
*remissa:*Sparse attention pós~~treino (H2O, SnapKV, etc.) corta KV cache mas raramente acelera o treino. NSA é *ardware~~aligned*+ *ativamente treinável*endtoend.
*stratégia hierárquica dinâmica*com 3 ramos paralelos por token:
1. *oarse-grained token compression*— comprime blocos largos para preservar contexto global
2. *ine~~grained token selection*— seleciona top~~k tokens individuais para precisão local
3. *liding window*— preserva dependências locais imediatas
*esultado:*modelo pré~~treinado com NSA *guala ou supera*Full Attention em benchmarks gerais, long~~context e instruction reasoning. Speedups substanciais em 64k tokens em decodingforwardbackward.
*mportância para o compendium:**redecessor direto*do CSA (Compressed Sparse Attention) usado no DeepSeek~~V4 — V4 cita "DeepSeek~~AI 2025" para a estratégia DSA aplicada dentro do CSA. NSA estabeleceu o padrão "compression + selection" que CSA refinou e HCA estendeu.

*aper:*DeepSeek-V4 §2.3 (24042026)
*ompressed Sparse Attention (CSA):*comprime cada m tokens em 1 KV entry via softmax~~gate aprendido com positional bias; depois aplica DeepSeek Sparse Attention (DSA) — um lightning indexer (queries low~~rank em FP4 + ReLU) seleciona top-k blocos por query.
*eavily Compressed Attention (HCA):*mesmo esquema de compressão com fator m' ≫ m, mas *ense*(sem sparse selection); intercalada com camadas CSA.
*tenção complementar:*sliding-window branch (n_win KVs uncompressed recentes), attention sink learnable, partial RoPE (só nos últimos 64 dims).
*esultado em 1M tokens:*~27% dos FLOPs de single~~token e ~10% do KV cache vs DeepSeek~~V3.2; ~2% do baseline BF16 GQA8 — viabiliza 1M de contexto em hardware corrente.
Detalhes complementares em 03-modelos/open-source.md (seção DeepSeek~~V4) e em `05~~inferencia/kv-cache.md` (Heterogeneous KV Cache).

*roblema:*Atenção padrão é limitada pela largura de banda de memória (O(n²) em memória)
*olução:*Algoritmo IO-aware; calcula atenção em blocos — evita materializar a matriz completa na HBM
*lashAttention 1*(Dao et al., 2022) — arXiv:2205.14135 — base
*lashAttention 2*(2023) — melhor paralelismo, melhor ocupação das GPUs
*lashAttention 3*(2024) — otimizado para Hopper (H100); pipelining assíncrono; 75% das FLOPS teóricas
*ntegrado em:*PyTorch, vLLM, SGLang, TensorRT-LLM, todos os principais frameworks

*rXiv:*2108.12409
*ecanismo:*Penalidade de viés linear na atenção baseada em distância relativa; sem embedding de posição
*antagem:*Extrapolação para contextos maiores que o treinado

*ecanismo:*Comprime índices de posição dentro da janela de treino (escalonamento)
*xtensão:*Permite extrapolar contexto 2-4× sem retreino

*rXiv:*2309.00071 | ICLR 2024
*ecanismo:*Escalonamento por partes das frequências + temperatura; NTKbyparts interpolation
*ficiência:*10× menos tokens, 2.5× menos steps vs métodos anteriores
*xtensão:*128K+ tokens em LLaMA~~2 com 400~~600 steps de fine-tuning

*rXiv:*1701.06538
*utores:*Shazeer et al. (Google)
*ecanismo:*Rede de gating seleciona top-k especialistas por token; apenas k ativos por forward pass
*mpacto:*Aumenta capacidade 1000× com overhead mínimo de compute

*rXiv:*2101.03961
*implificação:*top-1 routing (apenas 1 especialista) — mais estável, menos comunicação
*reinado em:*T5 11B → 1T parâmetros com mesmo FLOP

*rquitetura:*MoE com 8 especialistas, 2 ativos por token (~12.9B de compute efetivo por token)
*icença:*Apache 2.0

*novação:*Fine-grained experts + shared experts; permite maior especialização com roteamento mais eficiente
*sado em:*DeepSeek-V2, V3, R1 (671B total, 37B ativos)

*rigem:*Philip Gage (1994) para compressão; adaptado por Sennrich et al. (2015) para NLP
*ecanismo:*Combina pares de bytes mais frequentes iterativamente
*sado por:*GPT-234, Llama, Qwen, DeepSeek, maioria dos LLMs modernos

*aper:*Kudo & Richardson (2018)
*iferencial:*Agnóstico de idioma; trata input como bytes brutos sem pré-processamento de linguagem
*itHub:*github.comgooglesentencepiece

*rigem:*BERT (Devlin et al., 2018)
*iferença do BPE:*Maximiza probabilidade do corpus ao selecionar vocab em vez de frequência

*rigem:*OpenAI
*sado por:*GPT-3.544o — vocabulário de 100K tokens
*ota:*Codificação eficiente para código (reduz tokens por whitespace/indentação)