Cpu x86 extensions
Extensões de IA em CPUs x86
CPUs x86 acumulam, há cerca de uma década, extensões ISA dedicadas a acelerar o bloco central de redes neurais — multiplicação de matrizes em precisões reduzidas (INT8, BF16, FP8). A linha do tempo abaixo cobre as extensões que um runtime de inferência (vLLM, llama.cpp, ONNX Runtime, oneDNN) detecta e explora ao rodar fora de GPU.
AVX-512 VNNI (Vector Neural Network Instructions)
- *endor:*Intel (Cascade Lake, 2019); AMD (Zen 4, 2022).
- *nstruções:*
VPDPBUSD(INT8 dot-product+accumulate em INT32),VPDPWSSD(INT16). - *anho típico:*2–4× em GEMM INT8 vs. AVX-512 BW puro.
- *nde aparece:*kernels INT8 do oneDNN,
llama.cppQ4/Q8, ONNX RuntimeCPU EP.
AMX (Advanced Matrix Extensions)
- *endor:*Intel apenas; estreia em *apphire Rapids*(Xeon 4ª gen,
2023). Continuou em Emerald/Granite Rapids.
- *odelo:*8 tiles (registros 2D, até 1 KB cada) + unidade
TMULexecutando multiplicação de matrizes em uma instrução.
- *ormatos nativos:*INT8, BF16 (FP16 adicionado em Granite Rapids).
- *anho típico:*ordem de 8× sobre AVX-512 VNNI em GEMM denso BF16.
- *tatus no AMD:*ausente — uma das motivações para o ACE (ver abaixo).
AVX10
- *endor:*Intel (anúncio 2023); AMD comprometeu suporte via EAG (2024).
- *bjetivo:*unificar o ISA vetorial entre P
cores e Ecores, encerrando afragmentação do AVX-512 (que sumiu dos chips de consumo Intel desde Alder Lake).
- *ersões:*
- *VX10.1 (2024):*baseline 256
bit + opcional 512bit, mesmasinstruções do AVX-512.
- *VX10.2 (2024):*novas conversões e instruções de embedding, base
para o ACE.
- *VX10.1 (2024):*baseline 256
ACE (AI Computing Extensions)
- *endor:**MD + Intel* via x86 Ecosystem Advisory Group (EAG).
- *hite paper:*publicado *0042026*
- *osicionamento:*"Standard Matrix Acceleration Architecture for x86" —
primeiro padrão de aceleração de matrizes *omum*aos dois fabricantes.
- *ecanismo:*extensão do AVX10 com aceleração baseada em *roduto
externo*(outer product), em vez de FMA por elemento.
- *ormatos nativos:*INT8, *CP FP8* *CP MXFP8* *CP MXINT8*
BF16 — alinhado ao OCP Microscaling spec.
- *ensidade computacional:**6×*vs. operação FMA AVX10 equivalente
(mesmos vetores de entrada).
- *ompatibilidade:*reaproveita otimizações AVX10 existentes;
habilitação por software em andamento (compiladores, oneDNN, libxsmm, LLVM).
- *or que importa para inferência local:*reduz a fricção de mover
workloads de IA para acceleradores externos. Servidores e edge boxes que hoje rodam Q4/Q8 em llama.cpp passam a ter, no mesmo socket, tiles de matriz nativos em formatos OCP — o ponto que a Intel cobria sozinha com AMX vira agora terreno comum AMD/Intel.
Contexto — x86 Ecosystem Advisory Group (EAG)
Formado em out/2024 por Intel e AMD para padronizar o futuro do x86. Anunciou quatro recursos cross-vendor:
| Recurso | Função |
|---|---|
| *RED* | Flexible Return and Event Delivery — substituto de IDT para handling de interrupções |
| *VX10* | ISA vetorial unificado P/E-cores |
| *hkTag* | Memory tagging para hardening (análogo ao MTE do ARM) |
| *CE* | Aceleração de matrizes para IA |
CEO da NVIDIA (Jensen Huang) declarou publicamente em 2025/2026 que a aliança era necessária para manter o x86 vivo num cenário dominado por ARM no datacenter (GravitonCobalt) e GPUsTPUs em IA.
Tabela comparativa
| Extensão | Vendor | Ano | Tipo | Ganho típico vs. anterior |
|---|---|---|---|---|
| AVX-512 VNNI | Intel + AMD | 2019/2022 | SIMD INT8 dot-product | 2–4× sobre AVX-512 BW |
| AMX | Intel | 2023 | Tiles 2D + TMUL |
~8× sobre VNNI BF16 |
| AVX10.1/.2 | Intel + AMD | 2024 | ISA vetorial unificado | Paridade P/E-cores |
| *CE* | *ntel + AMD* | *026* | Outer-product matrix accel | *6× sobre AVX10 FMA* |
Implicações para o stack Koder
- *oteamento de inferência (
policies/sdk-first.kmd,services/ai/kode):*ao detectar AMX ou ACE no host, runners CPU passam a ser candidatos viáveis para modelos quantizados pequenos (Phi-4, Gemma 4 9B, Qwen 7B) sem GPU local — relevante para nós edge da Koder Stack.
- *uantização (
05-inferencia/quantizacao.md):*suporte nativo a*CP MXFP8/MXINT8*no ACE alinha CPU e GPU no mesmo formato de inferência, eliminando conversões de runtime.
- *enchmark suite (
08-benchmarks/):*vale adicionar uma faixa deCPU-only em hardware Sapphire/Granite Rapids (AMX) e, quando ACE estiver disponível em silício real (esperado 2027+), refazer a tabela Llama 70B com a coluna CPU-x86.
Referências
- White paper ACE (AMD + Intel, abr/2026) — release coordenado em sites de ambos os fabricantes
- x86 Ecosystem Advisory Group — formação out/2024
- OCP Microscaling Formats v1.0
- Cobertura — Adrenaline, "Novo padrão ACE pode revolucionar IA em chips x86" (30042026)
- Intel AVX10 spec —
Intel® Advanced Vector Extensions 10 Architecture Specification(rev. 2.0, jul/2024)