Cpu x86 extensions

Extensões de IA em CPUs x86

CPUs x86 acumulam, há cerca de uma década, extensões ISA dedicadas a acelerar o bloco central de redes neurais — multiplicação de matrizes em precisões reduzidas (INT8, BF16, FP8). A linha do tempo abaixo cobre as extensões que um runtime de inferência (vLLM, llama.cpp, ONNX Runtime, oneDNN) detecta e explora ao rodar fora de GPU.

AVX-512 VNNI (Vector Neural Network Instructions)

*endor:*Intel (Cascade Lake, 2019); AMD (Zen 4, 2022).
*nstruções:*VPDPBUSD (INT8 dot-product+accumulate em INT32),
VPDPWSSD (INT16).
*anho típico:*2–4× em GEMM INT8 vs. AVX-512 BW puro.
*nde aparece:*kernels INT8 do oneDNN, llama.cpp Q4/Q8, ONNX Runtime
CPU EP.

AMX (Advanced Matrix Extensions)

*endor:*Intel apenas; estreia em *apphire Rapids*(Xeon 4ª gen,
2023). Continuou em Emerald/Granite Rapids.
*odelo:*8 tiles (registros 2D, até 1 KB cada) + unidade TMUL
executando multiplicação de matrizes em uma instrução.
*ormatos nativos:*INT8, BF16 (FP16 adicionado em Granite Rapids).
*anho típico:*ordem de 8× sobre AVX-512 VNNI em GEMM denso BF16.
*tatus no AMD:*ausente — uma das motivações para o ACE (ver abaixo).

AVX10

*endor:*Intel (anúncio 2023); AMD comprometeu suporte via EAG (2024).
*bjetivo:*unificar o ISA vetorial entre P~~cores e E~~cores, encerrando a
fragmentação do AVX-512 (que sumiu dos chips de consumo Intel desde Alder Lake).
*ersões:*
- *VX10.1 (2024):*baseline 256~~bit + opcional 512~~bit, mesmas
  instruções do AVX-512.
- *VX10.2 (2024):*novas conversões e instruções de embedding, base
  para o ACE.

ACE (AI Computing Extensions)

*endor:**MD + Intel* via x86 Ecosystem Advisory Group (EAG).
*hite paper:*publicado *0042026*
*osicionamento:*"Standard Matrix Acceleration Architecture for x86" —
primeiro padrão de aceleração de matrizes *omum*aos dois fabricantes.
*ecanismo:*extensão do AVX10 com aceleração baseada em *roduto
externo*(outer product), em vez de FMA por elemento.
*ormatos nativos:*INT8, *CP FP8* *CP MXFP8* *CP MXINT8*
BF16 — alinhado ao OCP Microscaling spec.
*ensidade computacional:**6×*vs. operação FMA AVX10 equivalente
(mesmos vetores de entrada).
*ompatibilidade:*reaproveita otimizações AVX10 existentes;
habilitação por software em andamento (compiladores, oneDNN, libxsmm, LLVM).
*or que importa para inferência local:*reduz a fricção de mover
workloads de IA para acceleradores externos. Servidores e edge boxes que hoje rodam Q4/Q8 em llama.cpp passam a ter, no mesmo socket, tiles de matriz nativos em formatos OCP — o ponto que a Intel cobria sozinha com AMX vira agora terreno comum AMD/Intel.

Contexto — x86 Ecosystem Advisory Group (EAG)

Formado em out/2024 por Intel e AMD para padronizar o futuro do x86. Anunciou quatro recursos cross-vendor:

Recurso	Função
RED	Flexible Return and Event Delivery — substituto de IDT para handling de interrupções
VX10	ISA vetorial unificado P/E-cores
hkTag	Memory tagging para hardening (análogo ao MTE do ARM)
CE	Aceleração de matrizes para IA

CEO da NVIDIA (Jensen Huang) declarou publicamente em 2025/2026 que a aliança era necessária para manter o x86 vivo num cenário dominado por ARM no datacenter (GravitonCobalt) e GPUsTPUs em IA.

Tabela comparativa

Extensão	Vendor	Ano	Tipo	Ganho típico vs. anterior
AVX-512 VNNI	Intel + AMD	2019/2022	SIMD INT8 dot-product	2–4× sobre AVX-512 BW
AMX	Intel	2023	Tiles 2D + `TMUL`	~8× sobre VNNI BF16
AVX10.1/.2	Intel + AMD	2024	ISA vetorial unificado	Paridade P/E-cores
CE	ntel + AMD	026	Outer-product matrix accel	6× sobre AVX10 FMA

Implicações para o stack Koder

*oteamento de inferência (policies/sdk-first.kmd, services/ai/kode):*
ao detectar AMX ou ACE no host, runners CPU passam a ser candidatos viáveis para modelos quantizados pequenos (Phi-4, Gemma 4 9B, Qwen 7B) sem GPU local — relevante para nós edge da Koder Stack.
*uantização (05-inferencia/quantizacao.md):*suporte nativo a
*CP MXFP8/MXINT8*no ACE alinha CPU e GPU no mesmo formato de inferência, eliminando conversões de runtime.
*enchmark suite (08-benchmarks/):*vale adicionar uma faixa de
CPU-only em hardware Sapphire/Granite Rapids (AMX) e, quando ACE estiver disponível em silício real (esperado 2027+), refazer a tabela Llama 70B com a coluna CPU-x86.

Referências

White paper ACE (AMD + Intel, abr/2026) — release coordenado em sites de ambos os fabricantes
x86 Ecosystem Advisory Group — formação out/2024
OCP Microscaling Formats v1.0
Cobertura — Adrenaline, "Novo padrão ACE pode revolucionar IA em chips x86" (30042026)
Intel AVX10 spec — Intel® Advanced Vector Extensions 10 Architecture Specification (rev. 2.0, jul/2024)