Железо

Графический процессор (GPU)

GPU (Graphics Processing Unit) — специализированный микропроцессор с тысячами параллельных вычислительных ядер, изначально созданный для рендеринга 3D-графики и ставший основным вычислительным ресурсом для обучения и инференса нейронных сетей.

GPU — полупроводниковый чип, архитектура которого оптимизирована под массово-параллельные вычисления. Там, где CPU содержит 8–128 мощных ядер для последовательных задач, современный GPU насчитывает тысячи небольших ядер, способных одновременно выполнять тысячи умножений матриц — именно эта операция составляет основу обучения и инференса нейронных сетей.

Применение GPU для машинного обучения стало mainstream в 2012 году, когда Алекс Крижевский использовал видеокарты NVIDIA GTX 580 для обучения AlexNet, выигравшей ImageNet с большим отрывом. NVIDIA ответила созданием платформы CUDA и серии вычислительных ускорителей: Tesla → Volta → Ampere → Hopper → Blackwell. Флагманский H100 (2022) обеспечивает около 4 петафлопс в форматах FP8/INT8 и объединяется в кластеры через NVLink со скоростью 900 ГБ/с. AMD конкурирует с серией MI300X, а Google, Amazon и Microsoft разрабатывают собственные ускорители — TPU, Trainium и Maia соответственно.

Доступность GPU стала геополитическим фактором: американские экспортные ограничения 2022–2024 годов запрещают поставку H100-класса в КНР, стимулируя разработку китайских альтернатив (Huawei Ascend 910B) и расцвет вторичного рынка. В 2023 году дефицит GPU поднял стоимость аренды одного H100 до 2–3 долларов в час на облачных платформах.

К 2026 году NVIDIA удерживает более 70% рынка ИИ-ускорителей. Архитектура Blackwell (B200/GB200) обеспечивает примерно вдвое большую производительность по сравнению с H100 при сопоставимом энергопотреблении. Параллельно растёт интерес к инференс-оптимизированным чипам — Groq LPU и Cerebras WSE, — способным обслуживать запросы к большим моделям с задержкой в единицы миллисекунд.

Пример

Для предобучения GPT-4 OpenAI задействовала кластер из нескольких тысяч GPU NVIDIA A100, объединённых высокоскоростными интерконнектами InfiniBand; обучение продолжалось несколько месяцев и потребовало затрат, оцениваемых в десятки миллионов долларов.

Связанные термины

CUDA Видеопамять (VRAM)Тензорный процессор (TPU)GPU-кластер ИИ-ускоритель

← Глоссарий