Cpu x86 extensions

Extensões de IA em CPUs x86

CPUs x86 acumulam, há cerca de uma década, extensões ISA dedicadas a acelerar o bloco central de redes neurais — multiplicação de matrizes em precisões reduzidas (INT8, BF16, FP8). A linha do tempo abaixo cobre as extensões que um runtime de inferência (vLLM, llama.cpp, ONNX Runtime, oneDNN) detecta e explora ao rodar fora de GPU.


AVX-512 VNNI (Vector Neural Network Instructions)

  • *endor:*Intel (Cascade Lake, 2019); AMD (Zen 4, 2022).
  • *nstruções:*VPDPBUSD (INT8 dot-product+accumulate em INT32),

    VPDPWSSD (INT16).

  • *anho típico:*2–4× em GEMM INT8 vs. AVX-512 BW puro.
  • *nde aparece:*kernels INT8 do oneDNN, llama.cpp Q4/Q8, ONNX Runtime

    CPU EP.

AMX (Advanced Matrix Extensions)

  • *endor:*Intel apenas; estreia em *apphire Rapids*(Xeon 4ª gen,

    2023). Continuou em Emerald/Granite Rapids.

  • *odelo:*8 tiles (registros 2D, até 1 KB cada) + unidade TMUL

    executando multiplicação de matrizes em uma instrução.

  • *ormatos nativos:*INT8, BF16 (FP16 adicionado em Granite Rapids).
  • *anho típico:*ordem de 8× sobre AVX-512 VNNI em GEMM denso BF16.
  • *tatus no AMD:*ausente — uma das motivações para o ACE (ver abaixo).

AVX10

  • *endor:*Intel (anúncio 2023); AMD comprometeu suporte via EAG (2024).
  • *bjetivo:*unificar o ISA vetorial entre Pcores e Ecores, encerrando a

    fragmentação do AVX-512 (que sumiu dos chips de consumo Intel desde Alder Lake).

  • *ersões:*
    • *VX10.1 (2024):*baseline 256bit + opcional 512bit, mesmas

      instruções do AVX-512.

    • *VX10.2 (2024):*novas conversões e instruções de embedding, base

      para o ACE.

ACE (AI Computing Extensions)

  • *endor:**MD + Intel* via x86 Ecosystem Advisory Group (EAG).
  • *hite paper:*publicado *0042026*
  • *osicionamento:*"Standard Matrix Acceleration Architecture for x86" —

    primeiro padrão de aceleração de matrizes *omum*aos dois fabricantes.

  • *ecanismo:*extensão do AVX10 com aceleração baseada em *roduto

    externo*(outer product), em vez de FMA por elemento.

  • *ormatos nativos:*INT8, *CP FP8* *CP MXFP8* *CP MXINT8*

    BF16 — alinhado ao OCP Microscaling spec.

  • *ensidade computacional:**6×*vs. operação FMA AVX10 equivalente

    (mesmos vetores de entrada).

  • *ompatibilidade:*reaproveita otimizações AVX10 existentes;

    habilitação por software em andamento (compiladores, oneDNN, libxsmm, LLVM).

  • *or que importa para inferência local:*reduz a fricção de mover

    workloads de IA para acceleradores externos. Servidores e edge boxes que hoje rodam Q4/Q8 em llama.cpp passam a ter, no mesmo socket, tiles de matriz nativos em formatos OCP — o ponto que a Intel cobria sozinha com AMX vira agora terreno comum AMD/Intel.

Contexto — x86 Ecosystem Advisory Group (EAG)

Formado em out/2024 por Intel e AMD para padronizar o futuro do x86. Anunciou quatro recursos cross-vendor:

Recurso Função
*RED* Flexible Return and Event Delivery — substituto de IDT para handling de interrupções
*VX10* ISA vetorial unificado P/E-cores
*hkTag* Memory tagging para hardening (análogo ao MTE do ARM)
*CE* Aceleração de matrizes para IA

CEO da NVIDIA (Jensen Huang) declarou publicamente em 2025/2026 que a aliança era necessária para manter o x86 vivo num cenário dominado por ARM no datacenter (GravitonCobalt) e GPUsTPUs em IA.


Tabela comparativa

Extensão Vendor Ano Tipo Ganho típico vs. anterior
AVX-512 VNNI Intel + AMD 2019/2022 SIMD INT8 dot-product 2–4× sobre AVX-512 BW
AMX Intel 2023 Tiles 2D + TMUL ~8× sobre VNNI BF16
AVX10.1/.2 Intel + AMD 2024 ISA vetorial unificado Paridade P/E-cores
*CE* *ntel + AMD* *026* Outer-product matrix accel *6× sobre AVX10 FMA*

Implicações para o stack Koder

  • *oteamento de inferência (policies/sdk-first.kmd, services/ai/kode):*

    ao detectar AMX ou ACE no host, runners CPU passam a ser candidatos viáveis para modelos quantizados pequenos (Phi-4, Gemma 4 9B, Qwen 7B) sem GPU local — relevante para nós edge da Koder Stack.

  • *uantização (05-inferencia/quantizacao.md):*suporte nativo a

    *CP MXFP8/MXINT8*no ACE alinha CPU e GPU no mesmo formato de inferência, eliminando conversões de runtime.

  • *enchmark suite (08-benchmarks/):*vale adicionar uma faixa de

    CPU-only em hardware Sapphire/Granite Rapids (AMX) e, quando ACE estiver disponível em silício real (esperado 2027+), refazer a tabela Llama 70B com a coluna CPU-x86.


Referências

Source: ../home/koder/dev/koder/meta/docs/ia/compendium/06-hardware/cpu-x86-extensions.md