GPUs Não-NVIDIA e ASICs para IA
AMD — Linha Instinct (Data Center)
MI300X (2024)
| Spec |
Valor |
| VRAM |
*92 GB HBM3* |
| Bandwidth |
5.3 TB/s |
| FP16 TFLOPS |
1,307 |
| FP8 TFLOPS |
2,614 |
| TDP |
750W |
| Interconexão |
Infinity Fabric (8 GPUs) |
- *iferencial:*Maior VRAM por GPU no mercado até B300
- *odelos grandes:*Llama 70B cabe em 1 GPU sem sharding
- *oftware:*ROCm 6.x; PyTorchCUDA compatible via HIP; vLLMSGLang support
- *doção:*Microsoft Azure, Google Cloud, Oracle Cloud
MI355X (2025)
| Spec |
Valor |
| VRAM |
288 GB HBM3e |
| Bandwidth |
8.0 TB/s |
| FP8 TFLOPS |
~5,000 |
| TDP |
850W |
- Concorrente direto ao H200/B100
- Software AMD ROCm 6.3+
MI450 (2026)
| Spec |
Valor |
| VRAM |
384 GB HBM4 |
| Bandwidth |
*9.6 TB/s* |
| TDP |
~1,000W |
- HBM4: bandwidth 3.7× maior que MI300X
- Projetado para competir com GB200
Google — TPU (Tensor Processing Unit)
TPU v4 (2021)
- *hips por pod:*4,096
- *ompute:*275 TFLOPS BF16 por chip
- *nterconexão:*3D torus ICI (Inter-Chip Interconnect)
- *so:*Treino PaLM, Gemini 1.0
TPU v5e (2023)
- *oco:*Eficiência; menor custo por token
- *onfiguração:*256 chips por slice
- *ompute:*197 TFLOPS BF16 por chip
- *so:*Gemini 1.5 Pro inference; workloads de custo-eficiência
TPU v5p (2023)
- *oco:*Performance máxima de treino
- *ompute:*459 TFLOPS BF16 por chip
- *onfiguração:*8,960 chips no maior pod
- *so:*Treino dos Gemini frontier
TPU v6 "Trillium" (2024)
- *ompute:*918 TFLOPS BF16 por chip (~4.7× vs v4)
- *BM:*32 GB HBM2e por chip
- *CI:*1.2 TB/s total
- *so:*Gemini 2.x training e inference
TPU v7 "Ironwood" (nov/2025)
- *ompute:*4,614 TFLOPS por chip — analistas: "on par with Blackwell"
- *so:*Gemini 3 training
- *omparação:*Considerado pari passu com GB200 de NVIDIA em workloads Google-optimizados
TPU 8t / TPU 8i (abr/2026 — Google Cloud Next)
- *PU 8t:*Otimizado para treino de modelos
- *PU 8i:*Otimizado para inferência de modelos (novo produto)
- *ontexto:*Lançados no Google Cloud Next 2026 como reforço à competição com NVIDIA
*ota de mercado:*Anthropic fechou o maior contrato de TPU da história do Google — centenas de milhares de Trillium TPUs em 2026, escalando para 1M até 2027.
*cesso:*Google Cloud (TPU VMs, Google Kubernetes Engine) *rameworks:*JAX (nativo), PyTorch/XLA, TensorFlow
AWS — Trainium e Inferentia
Trainium 2 (2024)
- *abricante:*Amazon (TSMC 3nm)
- *ompute:*~840 TFLOPS BF16 por chip
- *onfiguração:*Trn2.48xlarge: 16 Trainium 2 chips
- *BM:*96 GB HBM3e por chip
- *nterconexão:*NeuronLink v2 (168 GB/s peer
topeer)
- *luster:*EFA (Elastic Fabric Adapter) para até 65,536 chips
- *ramework:*AWS Neuron SDK (PyTorch compatible)
Trainium 3 (dez/2025)
- *ompute:*2.52 PFLOPS FP8 por chip — confirmado pela AWS
- *BM:*144 GB HBM3e por chip
- *tatus:*Shipping desde dezembro 2025
- *ontexto:*Amazon treinou modelos da Anthropic em 500K chips Trainium 2 em seu datacenter em Indiana
Inferentia 2 (2023)
- *oco:*Inferência de baixo custo e latência
- *ompute:*190 TFLOPS BF16
- *BM:*32 GB HBM
- *aso de uso:*Instâncias inf2 no EC2
Intel — Gaudi
Gaudi 3 (2024)
| Spec |
Valor |
| VRAM |
128 GB HBM2e |
| Bandwidth |
3.7 TB/s |
| BF16 TFLOPS |
1,835 |
| FP8 TFLOPS |
3,670 |
| TDP |
600W |
| Interconexão |
HCCL (Habana Collective Communications Library) |
- *oftware:*Intel Gaudi SDK (PyTorch/TensorFlow compatible)
- *reço:*~40% mais barato que H100 equivalente
- *imitação:*Ecosistema menor; menos kernels otimizados
- *arceiro:*OEM em servidores Dell, HP
Cerebras — Wafer-Scale Engine
WSE-3 (2024)
| Spec |
Valor |
| Transistores |
4 trilhões |
| Cores |
900,000 |
| SRAM on-chip |
44 GB |
| Bandwidth |
21 PB/s (on-chip!) |
| Potência |
23 kW |
- *onceito:*CPU/GPU inteira fabricada como um único wafer de silício
- *antagem:*Latência zero entre cores (on-chip SRAM vs HBM)
- *imitação:*Sem HBM; modelos pequenos muito rápidos; grandes precisam de particionamento
- *so:*Treino de modelos específicos; research de scaling
Groq — LPU (Language Processing Unit)
- *rquitetura:*Streaming; determinística; sem cache de KV (re-computa)
- *elocidade:*800 tokens/segundo com Llama 3 70B (100× mais rápido que GPU comparável)
- *atência:*< 1ms time
tofirst-token
- *imitação:*Menor throughput em batch; custo alto por chip
- *so:*Demos de velocidade; aplicações sensíveis a latência
- *PI:*groq.com/api
SambaNova — SN40L
- *rquitetura:*Reconfigurable Dataflow Architecture (RDA)
- *novação:*Socket Design — CPU + GPU + banco de memória integrados
- *n-chip SRAM:*520 MB por RDU
- *antagem:*Eficiência energética em inferência de modelos grandes
- *so:*Enterprise; modelos fine-tuned
Graphcore — IPU (Intelligence Processing Unit)
- *iferença:*Bulk Synchronous Parallel; grafo computacional estático
- *oco:*Sparsidade; grafos de conhecimento
- *tatus (2025):*Adquirido pela SoftBank; futuro incerto
Comparativo de Inferência — Llama 3 70B
| Hardware |
Tokens/seg (batch=1) |
VRAM Total |
Preço est. cloud/hora |
| H100 SXM 80GB × 2 |
~300 |
160 GB |
$8 |
| MI300X 192GB × 1 |
~250 |
192 GB |
$6 |
| B200 192GB × 1 |
~600 |
192 GB |
$15 |
| Groq (GroqCloud) |
~800 |
N/A |
Tokens |
| RTX 4090 24GB × 4 |
~80 |
96 GB |
$0.40 (consumer) |
Frameworks de Software por Hardware
| Hardware |
Framework Principal |
Compatibilidade PyTorch |
| NVIDIA |
CUDA + cuDNN |
Nativa |
| AMD |
ROCm + HIP |
Via HIP (muda cuda → hip) |
| Google TPU |
JAX + XLA |
Via PyTorch/XLA |
| AWS Trainium |
Neuron SDK |
Plugin PyTorch |
| Intel Gaudi |
Gaudi SDK |
Plugin PyTorch |
| Groq |
GroqWare |
API REST apenas |