NVIDIA Developer Blog→ оригинал

NVIDIA рассказала, как обучать трансформеры с пониженной точностью без потери качества

NVIDIA опубликовала техническое руководство по обучению трансформерных моделей в режиме пониженной точности — FP8 и BF16. Чем крупнее модель, тем дороже…

AI-обработка оригинала NVIDIA Developer Blog; редакция Hamidun News
NVIDIA рассказала, как обучать трансформеры с пониженной точностью без потери качества
Источник: NVIDIA Developer Blog. Коллаж: Hamidun News.
◐ Слушать статью

NVIDIA опубликовала в Developer Blog развёрнутое руководство по оптимизации трансформерных архитектур для обучения с пониженной точностью вычислений — FP8 и BF16. Статья адресована инженерам, которые хотят сократить стоимость обучающих прогонов без потери качества модели.

Зачем это нужно командам

Трансформеры лежат в основе большинства современных языковых и генеративных моделей. По мере роста размеров — от миллиардов до десятков миллиардов параметров — стоимость одного обучающего прогона растёт экспоненциально. Каждая итерация эксперимента занимает больше GPU-часов, а значит, замедляет и удорожает разработку. На практике это означает, что медленное обучение — это не просто техническая неудобство. Это ограничение на то, сколько гипотез команда успеет проверить за квартал и насколько крупную модель она сможет себе позволить. NVIDIA называет ускорение трансформеров не оптимизацией, а условием конкурентоспособности.

Что такое низкоточное обучение

Стандартное обучение нейронных сетей проводится в 32-битном формате (FP32), который даёт высокую численную точность, но потребляет много памяти и медленнее работает на современных GPU. Снижение битности позволяет уместить больше данных в видеопамять и ускорить матричные операции: FP16 — 16-битные числа с плавающей точкой; поддерживается большинством современных GPU BF16 — Brain Float 16; более широкий динамический диапазон, лучше подходит для нестабильного обучения больших моделей FP8 — восьмибитный формат, доступный на архитектуре Hopper (H100, H200); даёт двукратный прирост пропускной способности матричных операций по сравнению с BF16 INT8 — целочисленный 8-бит; чаще применяется для инференса, чем для обучения Главная сложность — сохранить численную стабильность при таком снижении точности. Наивный переход с FP32 на FP8 приводит к расходящимся градиентам и нестабильному обучению.

Техники, которые рекомендует NVIDIA

Простая замена формата не работает, поэтому NVIDIA описывает несколько проверенных подходов. Смешанная точность (mixed precision). Веса хранятся в FP32, а прямой и обратный проходы выполняются в FP16 или BF16.

Это сочетает скорость низкоточного вычисления с надёжностью полноточного хранения параметров — де-факто стандарт для большинства современных обучающих пайплайнов. Масштабирование потерь (loss scaling). FP16 плохо представляет очень маленькие числа — градиенты на поздних слоях могут обнуляться.

Loss scaling искусственно увеличивает значение функции потерь перед обратным проходом, а затем масштабирует градиенты обратно. Современные реализации делают это автоматически и адаптивно. **TransformerEngine.

** Специализированная библиотека NVIDIA, которая автоматически управляет точностью на уровне отдельного слоя трансформера. Поддерживает FP8 на Hopper, интегрируется с PyTorch, JAX и Megatron-LM. Вместо того чтобы переписывать весь тренировочный код, инженер подключает TransformerEngine и получает FP8-ускорение с минимальными изменениями.

«По мере роста моделей обучающие прогоны потребляют всё больше GPU-часов и инженерного времени.

Это напрямую влияет на то, насколько быстро команды могут экспериментировать и насколько крупную модель они могут себе позволить», — NVIDIA Developer Blog.

Что это значит

Руководство выходит в момент, когда эффективность обучения стала такой же важной, как точность модели. Команды на H100 или H200 получают конкретную инструкцию: FP8 через TransformerEngine — один из наиболее доступных способов сократить GPU-бюджет без переработки архитектуры. Для небольших лабораторий это может означать разницу между тем, чтобы обучить модель на 70 млрд параметров или отказаться от неё из-за стоимости.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Хотите не читать про ИИ, а внедрить его?

«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.

Что вы думаете?
Загружаем комментарии…