Gpus nvidia

GPUs NVIDIA para IA — Catálogo

Linha de Data Center

H100 (Hopper, 2022–2024)

Variante VRAM Bandwidth FP16 TFLOPS FP8 TFLOPS TDP Interconexão
H100 SXM5 80 GB HBM3 3.35 TB/s 989 1,979 700W NVLink 4.0
H100 PCIe 80 GB HBM3 2.0 TB/s 756 1,513 350W PCIe 5.0
H100 NVL (2-way) 188 GB 600W NVLink
  • *ensor Cores:*4a geração; FP8 nativo
  • *VLink 4.0:*900 GB/s bidirectional entre 8 GPUs
  • *so:*Padrão de treino e inferência (2022–2025)
  • *isponibilidade:*AWS p4de, GCP A3, Azure NDv5

H200 (2024)

Variante VRAM Bandwidth FP16 TFLOPS FP8 TFLOPS TDP
H200 SXM 141 GB HBM3e *.8 TB/s* 989 1,979 700W
H200 NVL 141 GB HBM3e 4.8 TB/s 989 1,979 600W
  • *iferença vs H100:*Apenas memória maior e mais rápida; mesmo chip GH100
  • *mpacto:*+40% bandwidth; modelos maiores cabem sem offload
  • *uando usar:*Inferência de modelos 70B+ sem sharding de memória

B100 / B200 / B300 (Blackwell, 2025–2026)

Variante VRAM Bandwidth FP16 TFLOPS FP8 TFLOPS FP4 TFLOPS TDP
B100 SXM 192 GB HBM3e 8.0 TB/s 1,800 3,500 7,000 700W
B200 SXM 192 GB HBM3e 8.0 TB/s 2,250 4,500 9,000 1,000W
B300 SXM 288 GB HBM4 15+ TB/s 2,500+ 5,000+ 10,000+ 1,000W
  • *ensor Cores:*5a geração; FP4 nativo (NVFP4)
  • *VLink 5.0:*1.8 TB/s bidirectional
  • *P4:*2× throughput vs FP8; revolucionário para inferência
  • *300:*Lançamento projetado Q3 2026 com HBM4

GB200 NVL72 (Grace Blackwell, 2025)

  • *onfiguração:*36 Grace CPUs + 72 B200 GPUs em rack completo
  • *RAM total:*72 × 192 GB = *3,824 GB HBM3e*
  • *PU-GPU bandwidth:*1.8 TB/s NVLink 5.0 entre todos os 72 B200s (NVSwitch 4.0)
  • *PUGPU:*900 GB/s NVLinkC2C por CPU-GPU pair
  • *so:*Treino de modelos frontier (1T+ parâmetros); inferência de MoEs gigantes
  • *otência total:*~120 kW por rack

A100 (Ampere, 2020–2022) — Referência Histórica

Variante VRAM Bandwidth FP16 TFLOPS TDP
A100 SXM4 80GB 80 GB HBM2e 2.0 TB/s 312 400W
A100 PCIe 40GB 40 GB HBM2e 1.6 TB/s 312 300W
  • *inda em uso:*Muitos clusters de cloud; mais barato que H100
  • *F16:*Introduzido no A100; padrão de treino desde então
  • *VLink 3.0:*600 GB/s

A40 / A6000 (Ampere — Workstation)

GPU VRAM Bandwidth FP16 TFLOPS
A40 48 GB GDDR6 696 GB/s 149.7
RTX A6000 48 GB GDDR6 768 GB/s 154.8
  • *so:*Fine-tuning de modelos 13B–34B em 1 GPU; renderização + IA

Linha Consumer (RTX)

RTX 4090 (Ada Lovelace, 2022)

Spec Valor
VRAM 24 GB GDDR6X
Bandwidth 1,008 GB/s
FP16 TFLOPS 165.2
INT8 TOPS 661
TDP 450W
Preço (lançamento) ~$1,599
  • *elhor custobenefício*para pesquisa e finetuning consumer
  • *ine-tuning:*LLaMA 8B em FP16; modelos 70B com QLoRA (2–4 GPUs)
  • *nferência:*Modelos até 24B em FP16 ou 70B em AWQ INT4
  • *VLink:*NÃO suportado; comunicação via PCIe (bottleneck multi-GPU)
  • *orkaround multi-GPU:*Tensor parallelism com PCIe 4.0 (redução de ~40% no speedup ideal)

RTX 5090 (Blackwell Consumer, 2025)

Spec Valor
VRAM 32 GB GDDR7
Bandwidth 1,790 GB/s
FP16 TFLOPS 838
INT4 TOPS ~3,300
TDP 575W
  • *8% mais memória*que RTX 4090; 5× mais throughput FP16
  • *DDR7:*Bandwidth quase 2× do 4090
  • *so:*Modelos até 32B em FP16; fine-tuning de modelos 70B com 2 GPUs

RTX 4080 Super / 4070 Ti Super

GPU VRAM Bandwidth FP16 TFLOPS
RTX 4080 Super 16 GB GDDR6X 736 GB/s 121.9
RTX 4070 Ti Super 16 GB GDDR6X 672 GB/s 79.2
  • *so:*Modelos até 13B em FP16; Qwen2.5Coder7B confortável

Comparação de Relação Custo/FLOPS (2025)

GPU FP16 TFLOPS Preço est. TFLOPS/$
RTX 4090 165 $1,800 91
RTX 5090 838 $2,000 419
H100 PCIe 756 $25,000 30
H200 989 $40,000 25
B200 2,250 $70,000+ 32

RTX 5090 tem melhor TFLOPS/$ mas sem NVLink e sem HBM — limite de banda de memória para modelos grandes.


Considerações de Resfriamento

GPU TDP Resfriamento Necessário
RTX 4090 450W Air cooling (3-slot) ou liquid cooling
B200 SXM 1,000W Liquid cooling obrigatório
GB200 NVL72 ~120 kW Liquid cooling por rack; rear-door HX

Software Support por GPU

Feature A100 H100 H200 B100/B200 RTX 4090
BF16 Sim Sim Sim Sim Sim
FP8 Não Sim Sim Sim Não
FP4 (NVFP4) Não Não Não Sim Não
NVLink 3.0 4.0 4.0 5.0 Não
Transformer Engine Não Sim Sim Sim Não
FlashAttention 3 Parcial Sim Sim Sim Parcial

Source: ../home/koder/dev/koder/meta/docs/ia/compendium/06-hardware/gpus-nvidia.md