Gpus nvidia

GPUs NVIDIA para IA — Catálogo

Linha de Data Center

H100 (Hopper, 2022–2024)

Variante	VRAM	Bandwidth	FP16 TFLOPS	FP8 TFLOPS	TDP	Interconexão
H100 SXM5	80 GB HBM3	3.35 TB/s	989	1,979	700W	NVLink 4.0
H100 PCIe	80 GB HBM3	2.0 TB/s	756	1,513	350W	PCIe 5.0
H100 NVL (2-way)	188 GB	—	—	—	600W	NVLink

*ensor Cores:*4a geração; FP8 nativo
*VLink 4.0:*900 GB/s bidirectional entre 8 GPUs
*so:*Padrão de treino e inferência (2022–2025)
*isponibilidade:*AWS p4de, GCP A3, Azure NDv5

H200 (2024)

Variante	VRAM	Bandwidth	FP16 TFLOPS	FP8 TFLOPS	TDP
H200 SXM	141 GB HBM3e	.8 TB/s	989	1,979	700W
H200 NVL	141 GB HBM3e	4.8 TB/s	989	1,979	600W

*iferença vs H100:*Apenas memória maior e mais rápida; mesmo chip GH100
*mpacto:*+40% bandwidth; modelos maiores cabem sem offload
*uando usar:*Inferência de modelos 70B+ sem sharding de memória

B100 / B200 / B300 (Blackwell, 2025–2026)

Variante	VRAM	Bandwidth	FP16 TFLOPS	FP8 TFLOPS	FP4 TFLOPS	TDP
B100 SXM	192 GB HBM3e	8.0 TB/s	1,800	3,500	7,000	700W
B200 SXM	192 GB HBM3e	8.0 TB/s	2,250	4,500	9,000	1,000W
B300 SXM	288 GB HBM4	15+ TB/s	2,500+	5,000+	10,000+	1,000W

*ensor Cores:*5a geração; FP4 nativo (NVFP4)
*VLink 5.0:*1.8 TB/s bidirectional
*P4:*2× throughput vs FP8; revolucionário para inferência
*300:*Lançamento projetado Q3 2026 com HBM4

GB200 NVL72 (Grace Blackwell, 2025)

*onfiguração:*36 Grace CPUs + 72 B200 GPUs em rack completo
*RAM total:*72 × 192 GB = *3,824 GB HBM3e*
*PU-GPU bandwidth:*1.8 TB/s NVLink 5.0 entre todos os 72 B200s (NVSwitch 4.0)
*PU~~GPU:*900 GB/s NVLink~~C2C por CPU-GPU pair
*so:*Treino de modelos frontier (1T+ parâmetros); inferência de MoEs gigantes
*otência total:*~120 kW por rack

A100 (Ampere, 2020–2022) — Referência Histórica

Variante	VRAM	Bandwidth	FP16 TFLOPS	TDP
A100 SXM4 80GB	80 GB HBM2e	2.0 TB/s	312	400W
A100 PCIe 40GB	40 GB HBM2e	1.6 TB/s	312	300W

*inda em uso:*Muitos clusters de cloud; mais barato que H100
*F16:*Introduzido no A100; padrão de treino desde então
*VLink 3.0:*600 GB/s

A40 / A6000 (Ampere — Workstation)

GPU	VRAM	Bandwidth	FP16 TFLOPS
A40	48 GB GDDR6	696 GB/s	149.7
RTX A6000	48 GB GDDR6	768 GB/s	154.8

*so:*Fine-tuning de modelos 13B–34B em 1 GPU; renderização + IA

Linha Consumer (RTX)

RTX 4090 (Ada Lovelace, 2022)

Spec	Valor
VRAM	24 GB GDDR6X
Bandwidth	1,008 GB/s
FP16 TFLOPS	165.2
INT8 TOPS	661
TDP	450W
Preço (lançamento)	~$1,599

*elhor custo~~benefício*para pesquisa e fine~~tuning consumer
*ine-tuning:*LLaMA 8B em FP16; modelos 70B com QLoRA (2–4 GPUs)
*nferência:*Modelos até 24B em FP16 ou 70B em AWQ INT4
*VLink:*NÃO suportado; comunicação via PCIe (bottleneck multi-GPU)
*orkaround multi-GPU:*Tensor parallelism com PCIe 4.0 (redução de ~40% no speedup ideal)

RTX 5090 (Blackwell Consumer, 2025)

Spec	Valor
VRAM	32 GB GDDR7
Bandwidth	1,790 GB/s
FP16 TFLOPS	838
INT4 TOPS	~3,300
TDP	575W

*8% mais memória*que RTX 4090; 5× mais throughput FP16
*DDR7:*Bandwidth quase 2× do 4090
*so:*Modelos até 32B em FP16; fine-tuning de modelos 70B com 2 GPUs

RTX 4080 Super / 4070 Ti Super

GPU	VRAM	Bandwidth	FP16 TFLOPS
RTX 4080 Super	16 GB GDDR6X	736 GB/s	121.9
RTX 4070 Ti Super	16 GB GDDR6X	672 GB/s	79.2

*so:*Modelos até 13B em FP16; Qwen2.5~~Coder~~7B confortável

Comparação de Relação Custo/FLOPS (2025)

GPU	FP16 TFLOPS	Preço est.	TFLOPS/$
RTX 4090	165	$1,800	91
RTX 5090	838	$2,000	419
H100 PCIe	756	$25,000	30
H200	989	$40,000	25
B200	2,250	$70,000+	32

RTX 5090 tem melhor TFLOPS/$ mas sem NVLink e sem HBM — limite de banda de memória para modelos grandes.

Considerações de Resfriamento

GPU	TDP	Resfriamento Necessário
RTX 4090	450W	Air cooling (3-slot) ou liquid cooling
B200 SXM	1,000W	Liquid cooling obrigatório
GB200 NVL72	~120 kW	Liquid cooling por rack; rear-door HX

Software Support por GPU

Feature	A100	H100	H200	B100/B200	RTX 4090
BF16	Sim	Sim	Sim	Sim	Sim
FP8	Não	Sim	Sim	Sim	Não
FP4 (NVFP4)	Não	Não	Não	Sim	Não
NVLink	3.0	4.0	4.0	5.0	Não
Transformer Engine	Não	Sim	Sim	Sim	Não
FlashAttention 3	Parcial	Sim	Sim	Sim	Parcial