NVIDIA запаковала 3 модели в один файл и сэкономила 360× на обучении
NVIDIA представила Star Elastic — метод, который обучает три модели разных размеров (30B, 23B и 12B параметров) в одном 160B-токенном цикле. Экономия вычислений

NVIDIA представила Star Elastic — метод, который помещает три модели разных размеров (30B, 23B и 12B параметров) в один файл весов, с нуля переучив их всех за одну тренировку вместо трёх отдельных обучений.
Экономия обучения в 360 раз
Star Elastic основана на фреймворке Nemotron Elastic и применена к Nemotron Nano v3 — новому поколению моделей NVIDIA. Ключевая фишка: все три варианта модели обучаются в одном 160B-токенном цикле. Для сравнения: если бы NVIDIA обучала каждую модель отдельно, понадобилось бы примерно в 360 раз больше вычислений. Это гигантская экономия, особенно учитывая стоимость вычислений на суперкомпьютерах. Обычный подход требует либо обучать каждый размер отдельно (дорого), либо срезать веса из большой модели (теряется точность). Star Elastic делает третье: встраивает вложенные модели в единый checkpoint с полным сохранением качества каждого размера. Все три модели хранятся в одном файле и могут быть вызваны во время инфирнса.
Инфирнс становится быстрее и точнее Но обучение — это полдела.
Star Elastic вводит elastic budget control — новый способ инфирнса, который максимально использует преимущества сразу трёх моделей. Суть простая: на фазе «думания» (когда модель рассуждает) используется маленькая 12B модель, чтобы экономить вычисления, а на финальной фазе вывода — полная 30B модель для самого точного ответа. Результаты впечатляют: 16% выше точность (accuracy) в сравнении со стандартным budget control 1.9× меньше задержка (latency) — модель отвечает быстрее * Гибкость: организации могут выбирать глубину рассуждений в зависимости от задачи и бюджета Сравните с обычным budget control — это примерно то же самое, но без опции гибко переключаться между размерами во время инфирнса. Здесь переключение встроено в сам алгоритм и работает автоматически.
На RTX теперь помещается вся семья
Star Elastic позволяет квантизировать модели в FP8 и собственный формат NVFP4 (более экономный, чем стандартные форматы). Это значит: вся тройка моделей может жить на одной RTX GPU, даже на потребительских графических карточках. Раньше 30B модель требовала профессионального оборудования вроде H100, что недоступно для многих компаний. Теперь инженеры смогут экспериментировать с мощными моделями на собственных ПК.
«Это демократизирует доступ к рассуждающим моделям», — в духе этого
утверждают разработчики NVIDIA.
Что это значит
Организациям больше не надо выбирать между скоростью (маленькая модель) и качеством (большая модель) на момент обучения. Они обучают один раз и выбирают компромисс при инфирнсе — гибко, без переобучений. Это снижает затраты не только на обучение, но и на сервера для инфирнса. Практически: меньше платишь за GPU-часы, получаешь больше гибкости в production.