Hugging Face Blog→ оригинал

NVIDIA Nemotron: диффузионные модели генерируют текст в 6 раз быстрее

NVIDIA Nemotron генерирует 32 токена за раз вместо одного, используя диффузию вместо арегрессии. Три режима в одной модели: обычный autoregressive, быстрый diff

NVIDIA Nemotron: диффузионные модели генерируют текст в 6 раз быстрее
Источник: Hugging Face Blog. Коллаж: Hamidun News.
◐ Слушать статью

NVIDIA представила Nemotron-Labs Diffusion — первые языковые модели, которые генерируют несколько токенов одновременно вместо поэтапного вывода. Это кардинально меняет подход к скорости генерации текста и эффективности использования GPU.

Почему обычные модели медленные

Все современные языковые модели работают в режиме autoregressive: генерируют один токен, затем следующий, затем ещё один. Это значит, что даже мощный GPU тратит время на ожидание каждого шага. При генерации предложения из 100 токенов модель должна выполнить 100 проходов, каждый раз активируя весь нейросетевой граф. Современные процессоры (особенно B200) больше времени тратят на доступ к памяти, чем на сами вычисления — это узкое место.

Диффузия вместо арегрессии Nemotron решает эту проблему через диффузионные модели.

Идея простая: генерируй сразу много токенов, а потом их уточняй. Модель поддерживает три режима работы на одном checkpoint'е: Autoregressive — обычный режим, слово за словом, для совместимости FastDiffuser — генерирует блоки по 32 токена за раз и итеративно их улучшает через несколько проходов * LinearSpec — диффузионное черновое генерирование плюс autoregressive верификация, даёт 6× ускорение на B200 Разработчик просто выбирает режим при запуске — код приложения не меняется.

Цифры производительности

Nemotron 8B vs. аналоги: На GPU B200 в режиме самоспекуляции достигает ~865 токенов в секунду 2.6× больше токенов за один проход нейросети +1.2% точность по сравнению с Qwen3 8B В самом быстром режиме генерирует в 6.4 раза больше токенов чем обычные модели Можно снизить количество уточняющих проходов, если нужна меньше вычислений — инженер управляет компромиссом между качеством и скоростью.

Три размера и готовые веса NVIDIA выпустила модели на 3B, 8B и 14B параметров.

Каждая идёт в двух вариантах: базовая (обученная на 1.3 триллиона токенов) и инструкционная для чата. Весь код обучения и интеграция через SGLang (популярный фреймворк вывода) уже открыты на GitHub.

Что это значит

Диффузионные модели перестают быть экспериментом в лабораториях — они входят в production. Для разработчиков это значит, что можно брать одну модель и переключаться между режимами по скорости: медленный, но точный для критичных задач; быстрый для масс-операций. Для сервис-провайдеров — возможность снизить стоимость инферса и уменьшить задержку при ответе пользователям.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Что вы думаете?
Загружаем комментарии…