NVIDIA рассказала, как обучать трансформеры с пониженной точностью без потери качества
NVIDIA опубликовала техническое руководство по обучению трансформерных моделей в режиме пониженной точности — FP8 и BF16. Чем крупнее модель, тем дороже…
AI-обработка оригинала NVIDIA Developer Blog; редакция Hamidun News
NVIDIA опубликовала в Developer Blog развёрнутое руководство по оптимизации трансформерных архитектур для обучения с пониженной точностью вычислений — FP8 и BF16. Статья адресована инженерам, которые хотят сократить стоимость обучающих прогонов без потери качества модели.
Зачем это нужно командам
Трансформеры лежат в основе большинства современных языковых и генеративных моделей. По мере роста размеров — от миллиардов до десятков миллиардов параметров — стоимость одного обучающего прогона растёт экспоненциально. Каждая итерация эксперимента занимает больше GPU-часов, а значит, замедляет и удорожает разработку. На практике это означает, что медленное обучение — это не просто техническая неудобство. Это ограничение на то, сколько гипотез команда успеет проверить за квартал и насколько крупную модель она сможет себе позволить. NVIDIA называет ускорение трансформеров не оптимизацией, а условием конкурентоспособности.
Что такое низкоточное обучение
Стандартное обучение нейронных сетей проводится в 32-битном формате (FP32), который даёт высокую численную точность, но потребляет много памяти и медленнее работает на современных GPU. Снижение битности позволяет уместить больше данных в видеопамять и ускорить матричные операции: FP16 — 16-битные числа с плавающей точкой; поддерживается большинством современных GPU BF16 — Brain Float 16; более широкий динамический диапазон, лучше подходит для нестабильного обучения больших моделей FP8 — восьмибитный формат, доступный на архитектуре Hopper (H100, H200); даёт двукратный прирост пропускной способности матричных операций по сравнению с BF16 INT8 — целочисленный 8-бит; чаще применяется для инференса, чем для обучения Главная сложность — сохранить численную стабильность при таком снижении точности. Наивный переход с FP32 на FP8 приводит к расходящимся градиентам и нестабильному обучению.
Техники, которые рекомендует NVIDIA
Простая замена формата не работает, поэтому NVIDIA описывает несколько проверенных подходов. Смешанная точность (mixed precision). Веса хранятся в FP32, а прямой и обратный проходы выполняются в FP16 или BF16.
Это сочетает скорость низкоточного вычисления с надёжностью полноточного хранения параметров — де-факто стандарт для большинства современных обучающих пайплайнов. Масштабирование потерь (loss scaling). FP16 плохо представляет очень маленькие числа — градиенты на поздних слоях могут обнуляться.
Loss scaling искусственно увеличивает значение функции потерь перед обратным проходом, а затем масштабирует градиенты обратно. Современные реализации делают это автоматически и адаптивно. **TransformerEngine.
** Специализированная библиотека NVIDIA, которая автоматически управляет точностью на уровне отдельного слоя трансформера. Поддерживает FP8 на Hopper, интегрируется с PyTorch, JAX и Megatron-LM. Вместо того чтобы переписывать весь тренировочный код, инженер подключает TransformerEngine и получает FP8-ускорение с минимальными изменениями.
«По мере роста моделей обучающие прогоны потребляют всё больше GPU-часов и инженерного времени.
Это напрямую влияет на то, насколько быстро команды могут экспериментировать и насколько крупную модель они могут себе позволить», — NVIDIA Developer Blog.
Что это значит
Руководство выходит в момент, когда эффективность обучения стала такой же важной, как точность модели. Команды на H100 или H200 получают конкретную инструкцию: FP8 через TransformerEngine — один из наиболее доступных способов сократить GPU-бюджет без переработки архитектуры. Для небольших лабораторий это может означать разницу между тем, чтобы обучить модель на 70 млрд параметров или отказаться от неё из-за стоимости.
Хотите не читать про ИИ, а внедрить его?
«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.
Главное из мира ИИ — раз в неделю
7 ключевых событий недели, отобранных вручную. Без шума, репостов и пресс-релизов.
Готово! Проверьте почту — мы отправили подтверждение.