Железо

Интерконнект (NVLink, InfiniBand)

Интерконнект — высокоскоростные каналы связи между GPU внутри узла (NVLink) или между узлами в кластере (InfiniBand, Ethernet), определяющие скорость обмена весами и градиентами при распределённом обучении. Пропускная способность интерконнекта напрямую влияет на эффективность многоускорительных систем.

Интерконнект в контексте AI-инфраструктуры — совокупность аппаратных и протокольных решений для передачи данных между вычислительными узлами. Различают два уровня: внутриузловой (intra-node) и межузловой (inter-node). На внутриузловом уровне лидирует NVLink от NVIDIA — проприетарная шина с пропускной способностью до 900 ГБ/с (NVLink 4.0 в H100) и латентностью значительно ниже PCIe. Восемь GPU внутри сервера DGX H100 объединяются через коммутатор NVSwitch, образуя полносвязную топологию.

Межузловой уровень критичен при масштабировании за пределы одного сервера. InfiniBand — специализированный стандарт с нативной поддержкой RDMA (Remote Direct Memory Access), позволяющий GPU на разных серверах обмениваться данными, минуя CPU. Актуальные стандарты — InfiniBand NDR (400 Гбит/с на порт) и HDR (200 Гбит/с). Альтернатива — RoCE (RDMA over Converged Ethernet), применяемая в крупных облачных дата-центрах. Google использует собственную сеть ICI (Inter-Chip Interconnect) для TPU-подов с совокупной пропускной способностью сотни ТБ/с внутри суперподов.

Пропускная способность интерконнекта определяет, насколько эффективно реализуется синхронизация весов операцией AllReduce. При недостаточной скорости канала GPU простаивают в ожидании градиентов — падает MFU. Именно поэтому гиперскейлеры инвестируют в многоуровневые сети fat-tree или dragonfly с резервированием: потеря одного коммутатора не должна прерывать обучение. В 2025–2026 годах NVIDIA перешла на NVLink 5.0 с пропускной способностью до 1800 ГБ/с в платформе Blackwell Ultra.

Пример

В кластере из 8 серверов DGX H100 GPU внутри каждого сервера общаются через NVLink 4.0 со скоростью до 900 ГБ/с, а между серверами данные передаются через InfiniBand NDR 400 Гбит/с — разница в пропускной способности определяет, какой тип параллелизма выгоднее применять.

Связанные термины

← Глоссарий