Memoria interconexao

Memória e Interconexão para IA

HBM — High Bandwidth Memory

A memória padrão para GPUs de data center. Empilhada verticalmente (stacking), conectada via interposer, oferece muito maior bandwidth que GDDR.

Evolução do HBM

Geração	Lançamento	Bandwidth/stack	Capacity/stack	Uso
HBM2	2016	256 GB/s	4–8 GB	V100, primeiras GPUs IA
HBM2e	2020	460 GB/s	16 GB	A100, MI100
HBM3	2023	819 GB/s	24 GB	H100, MI300X
HBM3e	2024	1,228 GB/s	36 GB	H200, B100/B200, MI355X
HBM4	2026	~2,400 GB/s	48+ GB	B300, MI450
HBM4e	2027	~3,500 GB/s	64+ GB	Previsto para próxima geração

*or que bandwidth importa para LLMs:*

Inferência de LLMs é *emory-bandwidth bound* não compute bound
Cada token gerado precisa carregar *odos os pesos*do modelo da memória
GPT-3 175B: 350 GB de pesos → precisa de 350 GBs para 1 tokensegundo
H100 tem 3.35 TBs → permite ~10 tokenssegundo em 2-GPU split

GDDR — Graphics DDR

Memória de GPUs consumer (GeForce RTX, Radeon RX) e algumas workstation.

Geração	Lançamento	Bandwidth máx	Uso típico
GDDR5X	2016	448 GB/s	GTX 10-series
GDDR6	2018	672 GB/s	RTX 30-series
GDDR6X	2020	1,008 GB/s	RTX 3090, RTX 4090
GDDR7	2025	1,792 GB/s	RTX 5090, RTX 5080

*esvantagem vs HBM:*Menor bandwidth total (single die vs multi-stack); mais distância física → maior latência. *antagem:*Muito mais barato; mais capacidade por $.

NVLink — Interconexão GPU-GPU (NVIDIA)

Versão	Geração GPU	Bandwidth Bidirecional/link	Links máx	Total Bidirecional
NVLink 2.0	Volta (V100)	50 GB/s	6	300 GB/s
NVLink 3.0	Ampere (A100)	50 GB/s	12	600 GB/s
NVLink 4.0	Hopper (H100)	56.25 GB/s	18	00 GB/s
NVLink 5.0	Blackwell (B100/B200)	100 GB/s	18	.8 TB/s

*mportância:*Com NVLink, múltiplas GPUs agem como uma GPU maior — model parallelism sem bottleneck de PCIe.

NVSwitch — Switch para Redes de GPU

*unção:*Alltoall NVLink entre muitas GPUs (sem restrição de topologia pontoaponto)
*VSwitch 3.0 (Hopper):*8 GPUs full-bandwidth → 900 GB/s todos para todos
*VSwitch 4.0 (Blackwell):*72 GPUs (GB200 NVL72) com 1.8 TB/s todos para todos
*nalogia:*Se NVLink é a "rodovia", NVSwitch é a "praça de pedágio" que conecta todas

InfiniBand — Rede de Alta Performance para Clusters

HDR InfiniBand

*andwidth:*200 Gb/s por porta
*atência:*~600 ns
*doção:*Clusters H100/A100 modernos

NDR InfiniBand (2022)

*andwidth:*400 Gb/s por porta
*atência:*~500 ns
*witches:*NVIDIA Quantum-2 (64 portas)
*doção:*Padrão para clusters H100 novos

XDR InfiniBand (2025)

*andwidth:*800 Gb/s por porta
*doção:*Clusters GB200/B200

*so:*Comunicação entre nós em distributed training (all-reduce, gradient sync)

RoCE — RDMA over Converged Ethernet

*lternativa:*InfiniBand mais barato usando Ethernet
*oCEv2:*Over UDP; amplamente suportado
*antagem:*Infraestrutura Ethernet existente; mais barato
*esvantagem:*Maior latência que InfiniBand; mais sensível a congestionamento
*doção:*AWS EFA (Elastic Fabric Adapter), Azure RDMA, Google Jupiter

PCIe — CPUGPU e GPUGPU Consumer

Versão	Bandwidth/lane	x16 Bandwidth (bidirecional)
PCIe 4.0	16 GT/s	64 GB/s
PCIe 5.0	32 GT/s	28 GB/s
PCIe 6.0	64 GT/s	256 GB/s

*imitação para multi-GPU:*Sem NVLink, duas RTX 4090 se comunicam via PCIe 4.0 x16 = 64 GBs — vs NVLink 4.0 = 900 GBs (14× mais lento).

NVLinkC2C — CPUGPU Coerente (Grace Blackwell)

*andwidth:*900 GB/s por CPU-GPU pair (bidirecional)
*oerência:*CPU e GPU compartilham espaço de endereçamento unificado
*mpacto:*Elimina transferência de dados CPU↔GPU; zero-copy
*so:*GB200 NVL72 — Grace CPU + B200 GPU em mesmo package

CXL — Compute Express Link (Futuro)

*obre PCIe 5.0/6.0:*Protocolo para memória coerente entre CPU e aceleradores
*XL 3.0:*Permite pool de memória compartilhada entre múltiplos nós
*elevância:*Permite adicionar HBM externo ao servidor sem GPU
*imeline:*Em adoção em servidores enterprise 2025–2027

Memória CPU — DRAM

Tipo	Bandwidth	Capacity típica	Uso em IA
DDR4-3200	51.2 GB/s	256–512 GB	Padrão 2020–2023
DDR5-4800	76.8 GB/s	512 GB–1 TB	Padrão 2023+
DDR5-6400	102.4 GB/s	512 GB–2 TB	High-end 2024+
LPDDR5X	68.3 GB/s	64 GB	Laptops (M3 Max, etc)

*ara ZeRO-Infinity:*CPU DRAM como extensão de VRAM — bandwidth é o gargalo (PCIe 5.0 limita a 128 GB/s)

NVMe — Armazenamento para IA

*eRO-Infinity:*Offload de estados do optimizer para NVMe
*CIe 5.0 NVMe:*12–14 GB/s de leitura (Samsung 990 Pro, SK Hynix Platinum P41)
*elevância:*Permite treinar modelos maiores que a DRAM disponível
*imitação:*14 GBs vs 100+ GBs de DRAM = 7× mais lento; apenas para parâmetros raramente acessados

Topologia de Cluster Típica

[Nó A]                          [Nó B]
GPU0─┐                          GPU0─┐
GPU1─┤ NVSwitch ─── NVLink ─── NVSwitch ─┤GPU1
GPU2─┤   (NVLink 4.0)              │     ├GPU2
GPU3─┘                              └────┘GPU3
 │                                   │
 CPU (PCIe 5.0)              CPU (PCIe 5.0)
 │                                   │
 └──────── InfiniBand NDR ───────────┘
           (400 Gb/s entre nós)

Flash Storage para Datasets

*reino de LLMs:*Dataset de 15T tokens (FineWeb) ≈ 15 TB brutos
*hroughput necessário:*5–10 GB/s para não fazer GPU esperar dados
*olução:*RAID de NVMe PCIe 5.0 ou object storage com prefetching (datatrove)
*loud:*S3GCS com dataloader assíncrono; datasets em formato ArrowParquet shardado