Железо

GPU-кластер

GPU-кластер — вычислительная установка из сотен или тысяч графических ускорителей, объединённых высокоскоростными сетями для совместного обучения крупных нейросетей. Современные кластеры для обучения frontier-моделей насчитывают десятки тысяч GPU.

GPU-кластер — инфраструктурная единица AI-вычислений, в которой множество серверов с GPU соединены в единую вычислительную среду через специализированные высокоскоростные сети. Каждый сервер (узел) обычно содержит 4–8 GPU, соединённых внутри узла шиной NVLink или PCIe, а межузловая связь реализуется через InfiniBand или Ethernet с пропускной способностью 400–800 Гбит/с на порт. Для распределённого обучения нейросеть делится между GPU с помощью техник tensor, pipeline или data parallelism.

Масштаб кластеров рос экспоненциально. GPT-3 (2020) обучался примерно на 1024 A100. GPT-4 (2023) — по различным оценкам, на 10–25 тысячах A100. Llama-3 405B от Meta (2024) потребовал около 16 тысяч H100. В 2025 году xAI построила Colossus — кластер из 100 тысяч H100 в Мемфисе, а Microsoft и OpenAI анонсировали проект Stargate с целевой мощностью до 500 тысяч GPU к 2028 году. Физические ограничения — электроснабжение и охлаждение: кластер из 10 тысяч H100 потребляет более 30 МВт.

Организация кластера определяет эффективность обучения. Ключевой показатель — MFU (Model FLOP Utilization): доля теоретической пиковой мощности GPU, реально задействованной в вычислениях. Лучшие кластеры достигают MFU 40–60%, остальное теряется на синхронизацию весов и коммуникации. Программный стек включает NCCL (NVIDIA Collective Communications Library) для коллективных операций, фреймворки Megatron-LM или DeepSpeed для параллелизма и Kubernetes или Slurm для оркестрации задач.

Пример

Для обучения модели с несколькими сотнями миллиардов параметров за разумный срок Meta использовала кластер из тысяч GPU H100, разделив модель с помощью 3D-параллелизма: data, tensor и pipeline parallelism одновременно.

Связанные термины

Последние новости по теме

← Глоссарий