NVIDIA создала метод обучения нейросетей в 4-bit точности
NVIDIA создала NVFP4 — новую методологию обучения нейросетевых моделей с 4-битной точностью вместо традиционной 8-битной. Метод сокращает требования к памяти в

NVIDIA представила NVFP4 — новую методологию для обучения нейросетей с 4-битной точностью. Это позволяет существенно экономить память и вычислительные ресурсы при обучении больших моделей.
Как это работает
Стандартный подход использует 8-битную (FP8) или 16-битную (BF16) точность для хранения промежуточных результатов и градиентов обучения. NVIDIA сумела наполовину снизить эти требования к памяти, переходя на 4-битный формат NVFP4. Метод не просто урезает точность, а сочетает несколько техник: выборочное использование более точного BF16 на критических слоях модели, специальные математические преобразования входных данных градиентов (16×16 случайные преобразования Адамара) и стохастическое округление при вычислениях. Традиционно 4-битное обучение считалось рискованным — при долгом обучении ошибки в округлении накапливаются и ведут к деградации модели. Компания протестировала NVFP4 на гибридной модели Mamba-Transformer с 12 миллиардами параметров, обучив её на 10 триллионах токенов — самом долгом публичном эксперименте с 4-битным обучением. Это доказывает, что при правильной методологии цифровые ошибки не накапливаются катастрофически.
Результаты превысили ожидания
Ключевой метрикой была точность на бенчмарке MMLU-Pro — обширный тест знаний, охватывающий математику, естественные науки, гуманитарные дисциплины и другие области. NVFP4-модель набрала 62.58%, что буквально на 0.04% ниже, чем модель, обученная традиционным FP8 методом (62.62%). Для практических приложений эта разница полностью незначима — точность в пределах погрешности измерения. На фоне двукратной экономии памяти это редкий случай, когда снижение точности представления чисел не привело к заметному снижению качества результатов. Это означает, что NVFP4 не жертвует корректностью ради экономии ресурсов.
- Сокращение памяти: в 2 раза по сравнению с FP8 Потеря точности на бенчмарке: менее 0.1% Масштаб эксперимента: 10 триллионов токенов * Архитектура: гибридная модель Mamba-Transformer с 12 млрд параметров ## Что это значит для индустрии Результат важен для компаний, которые обучают модели с нуля. Экономия памяти в 2 раза означает, что тот же объём вычислений можно провести быстрее, дешевле или вложить сэкономленные ресурсы в обучение более крупных моделей. Если ваша компания обучает модель на 1000 A100 GPU-дней, NVFP4 может снизить это до 500 GPU-дней с сохранением качества. Для исследователей это открывает новые возможности в экспериментировании с архитектурами, объёмами данных и гиперпараметрами. Легче станет тестировать новые идеи на более крупных моделях в течение одного дня, чем на меньших моделях в течение недели. Однако метод ещё требует дополнительной валидации на других типах моделей — особенно на чистых трансформерах и моделях с другой структурой. NVIDIA пока показала результаты только на гибридной архитектуре Mamba-Transformer. Также важно понимать, что 4-битное обучение — это специализированная техника, требующая особых оптимизаций в софте и поддержки на оборудовании (пока полная поддержка есть только на NVIDIA GPU).