Gpus outros asics

GPUs Não-NVIDIA e ASICs para IA

AMD — Linha Instinct (Data Center)

MI300X (2024)

Spec	Valor
VRAM	92 GB HBM3
Bandwidth	5.3 TB/s
FP16 TFLOPS	1,307
FP8 TFLOPS	2,614
TDP	750W
Interconexão	Infinity Fabric (8 GPUs)

*iferencial:*Maior VRAM por GPU no mercado até B300
*odelos grandes:*Llama 70B cabe em 1 GPU sem sharding
*oftware:*ROCm 6.x; PyTorchCUDA compatible via HIP; vLLMSGLang support
*doção:*Microsoft Azure, Google Cloud, Oracle Cloud

MI355X (2025)

Spec	Valor
VRAM	288 GB HBM3e
Bandwidth	8.0 TB/s
FP8 TFLOPS	~5,000
TDP	850W

Concorrente direto ao H200/B100
Software AMD ROCm 6.3+

MI450 (2026)

Spec	Valor
VRAM	384 GB HBM4
Bandwidth	9.6 TB/s
TDP	~1,000W

HBM4: bandwidth 3.7× maior que MI300X
Projetado para competir com GB200

Google — TPU (Tensor Processing Unit)

TPU v4 (2021)

*hips por pod:*4,096
*ompute:*275 TFLOPS BF16 por chip
*nterconexão:*3D torus ICI (Inter-Chip Interconnect)
*so:*Treino PaLM, Gemini 1.0

TPU v5e (2023)

*oco:*Eficiência; menor custo por token
*onfiguração:*256 chips por slice
*ompute:*197 TFLOPS BF16 por chip
*so:*Gemini 1.5 Pro inference; workloads de custo-eficiência

TPU v5p (2023)

*oco:*Performance máxima de treino
*ompute:*459 TFLOPS BF16 por chip
*onfiguração:*8,960 chips no maior pod
*so:*Treino dos Gemini frontier

TPU v6 "Trillium" (2024)

*ompute:*918 TFLOPS BF16 por chip (~4.7× vs v4)
*BM:*32 GB HBM2e por chip
*CI:*1.2 TB/s total
*so:*Gemini 2.x training e inference

TPU v7 "Ironwood" (nov/2025)

*ompute:*4,614 TFLOPS por chip — analistas: "on par with Blackwell"
*so:*Gemini 3 training
*omparação:*Considerado pari passu com GB200 de NVIDIA em workloads Google-optimizados

TPU 8t / TPU 8i (abr/2026 — Google Cloud Next)

*PU 8t:*Otimizado para treino de modelos
*PU 8i:*Otimizado para inferência de modelos (novo produto)
*ontexto:*Lançados no Google Cloud Next 2026 como reforço à competição com NVIDIA

*ota de mercado:*Anthropic fechou o maior contrato de TPU da história do Google — centenas de milhares de Trillium TPUs em 2026, escalando para 1M até 2027.

*cesso:*Google Cloud (TPU VMs, Google Kubernetes Engine) *rameworks:*JAX (nativo), PyTorch/XLA, TensorFlow

AWS — Trainium e Inferentia

Trainium 2 (2024)

*abricante:*Amazon (TSMC 3nm)
*ompute:*~840 TFLOPS BF16 por chip
*onfiguração:*Trn2.48xlarge: 16 Trainium 2 chips
*BM:*96 GB HBM3e por chip
*nterconexão:*NeuronLink v2 (168 GB/s peertopeer)
*luster:*EFA (Elastic Fabric Adapter) para até 65,536 chips
*ramework:*AWS Neuron SDK (PyTorch compatible)

Trainium 3 (dez/2025)

*ompute:*2.52 PFLOPS FP8 por chip — confirmado pela AWS
*BM:*144 GB HBM3e por chip
*tatus:*Shipping desde dezembro 2025
*ontexto:*Amazon treinou modelos da Anthropic em 500K chips Trainium 2 em seu datacenter em Indiana

Inferentia 2 (2023)

*oco:*Inferência de baixo custo e latência
*ompute:*190 TFLOPS BF16
*BM:*32 GB HBM
*aso de uso:*Instâncias inf2 no EC2

Intel — Gaudi

Gaudi 3 (2024)

Spec	Valor
VRAM	128 GB HBM2e
Bandwidth	3.7 TB/s
BF16 TFLOPS	1,835
FP8 TFLOPS	3,670
TDP	600W
Interconexão	HCCL (Habana Collective Communications Library)

*oftware:*Intel Gaudi SDK (PyTorch/TensorFlow compatible)
*reço:*~40% mais barato que H100 equivalente
*imitação:*Ecosistema menor; menos kernels otimizados
*arceiro:*OEM em servidores Dell, HP

Cerebras — Wafer-Scale Engine

WSE-3 (2024)

Spec	Valor
Transistores	4 trilhões
Cores	900,000
SRAM on-chip	44 GB
Bandwidth	21 PB/s (on-chip!)
Potência	23 kW

*onceito:*CPU/GPU inteira fabricada como um único wafer de silício
*antagem:*Latência zero entre cores (on-chip SRAM vs HBM)
*imitação:*Sem HBM; modelos pequenos muito rápidos; grandes precisam de particionamento
*so:*Treino de modelos específicos; research de scaling

Groq — LPU (Language Processing Unit)

*rquitetura:*Streaming; determinística; sem cache de KV (re-computa)
*elocidade:*800 tokens/segundo com Llama 3 70B (100× mais rápido que GPU comparável)
*atência:*< 1ms timetofirst-token
*imitação:*Menor throughput em batch; custo alto por chip
*so:*Demos de velocidade; aplicações sensíveis a latência
*PI:*groq.com/api

SambaNova — SN40L

*rquitetura:*Reconfigurable Dataflow Architecture (RDA)
*novação:*Socket Design — CPU + GPU + banco de memória integrados
*n-chip SRAM:*520 MB por RDU
*antagem:*Eficiência energética em inferência de modelos grandes
*so:*Enterprise; modelos fine-tuned

Graphcore — IPU (Intelligence Processing Unit)

*iferença:*Bulk Synchronous Parallel; grafo computacional estático
*oco:*Sparsidade; grafos de conhecimento
*tatus (2025):*Adquirido pela SoftBank; futuro incerto

Comparativo de Inferência — Llama 3 70B

Hardware	Tokens/seg (batch=1)	VRAM Total	Preço est. cloud/hora
H100 SXM 80GB × 2	~300	160 GB	$8
MI300X 192GB × 1	~250	192 GB	$6
B200 192GB × 1	~600	192 GB	$15
Groq (GroqCloud)	~800	N/A	Tokens
RTX 4090 24GB × 4	~80	96 GB	$0.40 (consumer)

Frameworks de Software por Hardware

Hardware	Framework Principal	Compatibilidade PyTorch
NVIDIA	CUDA + cuDNN	Nativa
AMD	ROCm + HIP	Via HIP (muda `cuda` → `hip`)
Google TPU	JAX + XLA	Via PyTorch/XLA
AWS Trainium	Neuron SDK	Plugin PyTorch
Intel Gaudi	Gaudi SDK	Plugin PyTorch
Groq	GroqWare	API REST apenas