*esultado:*modelo prétreinado com NSA *guala ou supera*Full Attention em benchmarks gerais, longcontext e instruction reasoning. Speedups substanciais em 64k tokens em decodingforwardbackward.
*mportância para o compendium:**redecessor direto*do CSA (Compressed Sparse Attention) usado no DeepSeekV4 — V4 cita "DeepSeekAI 2025" para a estratégia DSA aplicada dentro do CSA. NSA estabeleceu o padrão "compression + selection" que CSA refinou e HCA estendeu.
Hybrid CSA + HCA (DeepSeek-V4)
*aper:*DeepSeek-V4 §2.3 (24042026)
*ompressed Sparse Attention (CSA):*comprime cada m tokens em 1 KV entry via softmaxgate aprendido com positional bias; depois aplica DeepSeek Sparse Attention (DSA) — um lightning indexer (queries lowrank em FP4 + ReLU) seleciona top-k blocos por query.
*eavily Compressed Attention (HCA):*mesmo esquema de compressão com fator m' ≫ m, mas *ense*(sem sparse selection); intercalada com camadas CSA.
*esultado em 1M tokens:*~27% dos FLOPs de singletoken e ~10% do KV cache vs DeepSeekV3.2; ~2% do baseline BF16 GQA8 — viabiliza 1M de contexto em hardware corrente.
Detalhes complementares em 03-modelos/open-source.md (seção DeepSeekV4) e em `05inferencia/kv-cache.md` (Heterogeneous KV Cache).
FlashAttention 123
*roblema:*Atenção padrão é limitada pela largura de banda de memória (O(n²) em memória)
*olução:*Algoritmo IO-aware; calcula atenção em blocos — evita materializar a matriz completa na HBM
*lashAttention 1*(Dao et al., 2022) — arXiv:2205.14135 — base
*lashAttention 2*(2023) — melhor paralelismo, melhor ocupação das GPUs
*lashAttention 3*(2024) — otimizado para Hopper (H100); pipelining assíncrono; 75% das FLOPS teóricas
*ntegrado em:*PyTorch, vLLM, SGLang, TensorRT-LLM, todos os principais frameworks
Encodificação Posicional
RoPE — Rotary Positional Embedding
*rXiv:*2104.09864
*ecanismo:*Codifica posição relativa via matrizes de rotação no espaço complexo
*antagem:*Naturalmente relativo; decaimento suave da atenção com distância