Gpus outros asics

GPUs Não-NVIDIA e ASICs para IA

AMD — Linha Instinct (Data Center)

MI300X (2024)

Spec Valor
VRAM *92 GB HBM3*
Bandwidth 5.3 TB/s
FP16 TFLOPS 1,307
FP8 TFLOPS 2,614
TDP 750W
Interconexão Infinity Fabric (8 GPUs)
  • *iferencial:*Maior VRAM por GPU no mercado até B300
  • *odelos grandes:*Llama 70B cabe em 1 GPU sem sharding
  • *oftware:*ROCm 6.x; PyTorchCUDA compatible via HIP; vLLMSGLang support
  • *doção:*Microsoft Azure, Google Cloud, Oracle Cloud

MI355X (2025)

Spec Valor
VRAM 288 GB HBM3e
Bandwidth 8.0 TB/s
FP8 TFLOPS ~5,000
TDP 850W
  • Concorrente direto ao H200/B100
  • Software AMD ROCm 6.3+

MI450 (2026)

Spec Valor
VRAM 384 GB HBM4
Bandwidth *9.6 TB/s*
TDP ~1,000W
  • HBM4: bandwidth 3.7× maior que MI300X
  • Projetado para competir com GB200

Google — TPU (Tensor Processing Unit)

TPU v4 (2021)

  • *hips por pod:*4,096
  • *ompute:*275 TFLOPS BF16 por chip
  • *nterconexão:*3D torus ICI (Inter-Chip Interconnect)
  • *so:*Treino PaLM, Gemini 1.0

TPU v5e (2023)

  • *oco:*Eficiência; menor custo por token
  • *onfiguração:*256 chips por slice
  • *ompute:*197 TFLOPS BF16 por chip
  • *so:*Gemini 1.5 Pro inference; workloads de custo-eficiência

TPU v5p (2023)

  • *oco:*Performance máxima de treino
  • *ompute:*459 TFLOPS BF16 por chip
  • *onfiguração:*8,960 chips no maior pod
  • *so:*Treino dos Gemini frontier

TPU v6 "Trillium" (2024)

  • *ompute:*918 TFLOPS BF16 por chip (~4.7× vs v4)
  • *BM:*32 GB HBM2e por chip
  • *CI:*1.2 TB/s total
  • *so:*Gemini 2.x training e inference

TPU v7 "Ironwood" (nov/2025)

  • *ompute:*4,614 TFLOPS por chip — analistas: "on par with Blackwell"
  • *so:*Gemini 3 training
  • *omparação:*Considerado pari passu com GB200 de NVIDIA em workloads Google-optimizados

TPU 8t / TPU 8i (abr/2026 — Google Cloud Next)

  • *PU 8t:*Otimizado para treino de modelos
  • *PU 8i:*Otimizado para inferência de modelos (novo produto)
  • *ontexto:*Lançados no Google Cloud Next 2026 como reforço à competição com NVIDIA

*ota de mercado:*Anthropic fechou o maior contrato de TPU da história do Google — centenas de milhares de Trillium TPUs em 2026, escalando para 1M até 2027.

*cesso:*Google Cloud (TPU VMs, Google Kubernetes Engine) *rameworks:*JAX (nativo), PyTorch/XLA, TensorFlow


AWS — Trainium e Inferentia

Trainium 2 (2024)

  • *abricante:*Amazon (TSMC 3nm)
  • *ompute:*~840 TFLOPS BF16 por chip
  • *onfiguração:*Trn2.48xlarge: 16 Trainium 2 chips
  • *BM:*96 GB HBM3e por chip
  • *nterconexão:*NeuronLink v2 (168 GB/s peertopeer)
  • *luster:*EFA (Elastic Fabric Adapter) para até 65,536 chips
  • *ramework:*AWS Neuron SDK (PyTorch compatible)

Trainium 3 (dez/2025)

  • *ompute:*2.52 PFLOPS FP8 por chip — confirmado pela AWS
  • *BM:*144 GB HBM3e por chip
  • *tatus:*Shipping desde dezembro 2025
  • *ontexto:*Amazon treinou modelos da Anthropic em 500K chips Trainium 2 em seu datacenter em Indiana

Inferentia 2 (2023)

  • *oco:*Inferência de baixo custo e latência
  • *ompute:*190 TFLOPS BF16
  • *BM:*32 GB HBM
  • *aso de uso:*Instâncias inf2 no EC2

Intel — Gaudi

Gaudi 3 (2024)

Spec Valor
VRAM 128 GB HBM2e
Bandwidth 3.7 TB/s
BF16 TFLOPS 1,835
FP8 TFLOPS 3,670
TDP 600W
Interconexão HCCL (Habana Collective Communications Library)
  • *oftware:*Intel Gaudi SDK (PyTorch/TensorFlow compatible)
  • *reço:*~40% mais barato que H100 equivalente
  • *imitação:*Ecosistema menor; menos kernels otimizados
  • *arceiro:*OEM em servidores Dell, HP

Cerebras — Wafer-Scale Engine

WSE-3 (2024)

Spec Valor
Transistores 4 trilhões
Cores 900,000
SRAM on-chip 44 GB
Bandwidth 21 PB/s (on-chip!)
Potência 23 kW
  • *onceito:*CPU/GPU inteira fabricada como um único wafer de silício
  • *antagem:*Latência zero entre cores (on-chip SRAM vs HBM)
  • *imitação:*Sem HBM; modelos pequenos muito rápidos; grandes precisam de particionamento
  • *so:*Treino de modelos específicos; research de scaling

Groq — LPU (Language Processing Unit)

  • *rquitetura:*Streaming; determinística; sem cache de KV (re-computa)
  • *elocidade:*800 tokens/segundo com Llama 3 70B (100× mais rápido que GPU comparável)
  • *atência:*< 1ms timetofirst-token
  • *imitação:*Menor throughput em batch; custo alto por chip
  • *so:*Demos de velocidade; aplicações sensíveis a latência
  • *PI:*groq.com/api

SambaNova — SN40L

  • *rquitetura:*Reconfigurable Dataflow Architecture (RDA)
  • *novação:*Socket Design — CPU + GPU + banco de memória integrados
  • *n-chip SRAM:*520 MB por RDU
  • *antagem:*Eficiência energética em inferência de modelos grandes
  • *so:*Enterprise; modelos fine-tuned

Graphcore — IPU (Intelligence Processing Unit)

  • *iferença:*Bulk Synchronous Parallel; grafo computacional estático
  • *oco:*Sparsidade; grafos de conhecimento
  • *tatus (2025):*Adquirido pela SoftBank; futuro incerto

Comparativo de Inferência — Llama 3 70B

Hardware Tokens/seg (batch=1) VRAM Total Preço est. cloud/hora
H100 SXM 80GB × 2 ~300 160 GB $8
MI300X 192GB × 1 ~250 192 GB $6
B200 192GB × 1 ~600 192 GB $15
Groq (GroqCloud) ~800 N/A Tokens
RTX 4090 24GB × 4 ~80 96 GB $0.40 (consumer)

Frameworks de Software por Hardware

Hardware Framework Principal Compatibilidade PyTorch
NVIDIA CUDA + cuDNN Nativa
AMD ROCm + HIP Via HIP (muda cudahip)
Google TPU JAX + XLA Via PyTorch/XLA
AWS Trainium Neuron SDK Plugin PyTorch
Intel Gaudi Gaudi SDK Plugin PyTorch
Groq GroqWare API REST apenas

Source: ../home/koder/dev/koder/meta/docs/ia/compendium/06-hardware/gpus-outros-asics.md