GPUs NVIDIA para IA — Catálogo
Linha de Data Center
H100 (Hopper, 2022–2024)
| Variante |
VRAM |
Bandwidth |
FP16 TFLOPS |
FP8 TFLOPS |
TDP |
Interconexão |
| H100 SXM5 |
80 GB HBM3 |
3.35 TB/s |
989 |
1,979 |
700W |
NVLink 4.0 |
| H100 PCIe |
80 GB HBM3 |
2.0 TB/s |
756 |
1,513 |
350W |
PCIe 5.0 |
| H100 NVL (2-way) |
188 GB |
— |
— |
— |
600W |
NVLink |
- *ensor Cores:*4a geração; FP8 nativo
- *VLink 4.0:*900 GB/s bidirectional entre 8 GPUs
- *so:*Padrão de treino e inferência (2022–2025)
- *isponibilidade:*AWS p4de, GCP A3, Azure NDv5
H200 (2024)
| Variante |
VRAM |
Bandwidth |
FP16 TFLOPS |
FP8 TFLOPS |
TDP |
| H200 SXM |
141 GB HBM3e |
*.8 TB/s* |
989 |
1,979 |
700W |
| H200 NVL |
141 GB HBM3e |
4.8 TB/s |
989 |
1,979 |
600W |
- *iferença vs H100:*Apenas memória maior e mais rápida; mesmo chip GH100
- *mpacto:*+40% bandwidth; modelos maiores cabem sem offload
- *uando usar:*Inferência de modelos 70B+ sem sharding de memória
B100 / B200 / B300 (Blackwell, 2025–2026)
| Variante |
VRAM |
Bandwidth |
FP16 TFLOPS |
FP8 TFLOPS |
FP4 TFLOPS |
TDP |
| B100 SXM |
192 GB HBM3e |
8.0 TB/s |
1,800 |
3,500 |
7,000 |
700W |
| B200 SXM |
192 GB HBM3e |
8.0 TB/s |
2,250 |
4,500 |
9,000 |
1,000W |
| B300 SXM |
288 GB HBM4 |
15+ TB/s |
2,500+ |
5,000+ |
10,000+ |
1,000W |
- *ensor Cores:*5a geração; FP4 nativo (NVFP4)
- *VLink 5.0:*1.8 TB/s bidirectional
- *P4:*2× throughput vs FP8; revolucionário para inferência
- *300:*Lançamento projetado Q3 2026 com HBM4
GB200 NVL72 (Grace Blackwell, 2025)
- *onfiguração:*36 Grace CPUs + 72 B200 GPUs em rack completo
- *RAM total:*72 × 192 GB = *3,824 GB HBM3e*
- *PU-GPU bandwidth:*1.8 TB/s NVLink 5.0 entre todos os 72 B200s (NVSwitch 4.0)
- *PU
GPU:*900 GB/s NVLinkC2C por CPU-GPU pair
- *so:*Treino de modelos frontier (1T+ parâmetros); inferência de MoEs gigantes
- *otência total:*~120 kW por rack
A100 (Ampere, 2020–2022) — Referência Histórica
| Variante |
VRAM |
Bandwidth |
FP16 TFLOPS |
TDP |
| A100 SXM4 80GB |
80 GB HBM2e |
2.0 TB/s |
312 |
400W |
| A100 PCIe 40GB |
40 GB HBM2e |
1.6 TB/s |
312 |
300W |
- *inda em uso:*Muitos clusters de cloud; mais barato que H100
- *F16:*Introduzido no A100; padrão de treino desde então
- *VLink 3.0:*600 GB/s
A40 / A6000 (Ampere — Workstation)
| GPU |
VRAM |
Bandwidth |
FP16 TFLOPS |
| A40 |
48 GB GDDR6 |
696 GB/s |
149.7 |
| RTX A6000 |
48 GB GDDR6 |
768 GB/s |
154.8 |
- *so:*Fine-tuning de modelos 13B–34B em 1 GPU; renderização + IA
Linha Consumer (RTX)
RTX 4090 (Ada Lovelace, 2022)
| Spec |
Valor |
| VRAM |
24 GB GDDR6X |
| Bandwidth |
1,008 GB/s |
| FP16 TFLOPS |
165.2 |
| INT8 TOPS |
661 |
| TDP |
450W |
| Preço (lançamento) |
~$1,599 |
- *elhor custo
benefício*para pesquisa e finetuning consumer
- *ine-tuning:*LLaMA 8B em FP16; modelos 70B com QLoRA (2–4 GPUs)
- *nferência:*Modelos até 24B em FP16 ou 70B em AWQ INT4
- *VLink:*NÃO suportado; comunicação via PCIe (bottleneck multi-GPU)
- *orkaround multi-GPU:*Tensor parallelism com PCIe 4.0 (redução de ~40% no speedup ideal)
RTX 5090 (Blackwell Consumer, 2025)
| Spec |
Valor |
| VRAM |
32 GB GDDR7 |
| Bandwidth |
1,790 GB/s |
| FP16 TFLOPS |
838 |
| INT4 TOPS |
~3,300 |
| TDP |
575W |
- *8% mais memória*que RTX 4090; 5× mais throughput FP16
- *DDR7:*Bandwidth quase 2× do 4090
- *so:*Modelos até 32B em FP16; fine-tuning de modelos 70B com 2 GPUs
RTX 4080 Super / 4070 Ti Super
| GPU |
VRAM |
Bandwidth |
FP16 TFLOPS |
| RTX 4080 Super |
16 GB GDDR6X |
736 GB/s |
121.9 |
| RTX 4070 Ti Super |
16 GB GDDR6X |
672 GB/s |
79.2 |
- *so:*Modelos até 13B em FP16; Qwen2.5
Coder7B confortável
Comparação de Relação Custo/FLOPS (2025)
| GPU |
FP16 TFLOPS |
Preço est. |
TFLOPS/$ |
| RTX 4090 |
165 |
$1,800 |
91 |
| RTX 5090 |
838 |
$2,000 |
419 |
| H100 PCIe |
756 |
$25,000 |
30 |
| H200 |
989 |
$40,000 |
25 |
| B200 |
2,250 |
$70,000+ |
32 |
RTX 5090 tem melhor TFLOPS/$ mas sem NVLink e sem HBM — limite de banda de memória para modelos grandes.
Considerações de Resfriamento
| GPU |
TDP |
Resfriamento Necessário |
| RTX 4090 |
450W |
Air cooling (3-slot) ou liquid cooling |
| B200 SXM |
1,000W |
Liquid cooling obrigatório |
| GB200 NVL72 |
~120 kW |
Liquid cooling por rack; rear-door HX |
Software Support por GPU
| Feature |
A100 |
H100 |
H200 |
B100/B200 |
RTX 4090 |
| BF16 |
Sim |
Sim |
Sim |
Sim |
Sim |
| FP8 |
Não |
Sim |
Sim |
Sim |
Não |
| FP4 (NVFP4) |
Não |
Não |
Não |
Sim |
Não |
| NVLink |
3.0 |
4.0 |
4.0 |
5.0 |
Não |
| Transformer Engine |
Não |
Sim |
Sim |
Sim |
Não |
| FlashAttention 3 |
Parcial |
Sim |
Sim |
Sim |
Parcial |