NVIDIA released Nemotron 3 Nano 4B — a compact hybrid model for on-device deployment
NVIDIA released Nemotron 3 Nano 4B, a compact language model designed to run directly on devices without relying on the cloud. Its hybrid Mamba-Transformer arch

NVIDIA открыла доступ к Nemotron 3 Nano 4B — компактной языковой модели на 4 млрд параметров, разработанной специально для edge-развёртывания на устройствах Jetson, RTX GPU и DGX Spark. Это первая 4B-модель NVIDIA, построенная на гибридной Mamba-Transformer архитектуре с ориентацией на минимальный расход памяти и высокую скорость вывода.
Гибридная архитектура нового поколения В основе
Nemotron 3 Nano 4B лежит 42-слойная конструкция: 21 блок Mamba, 4 блока Attention и 17 блоков MLP. Такое соотношение нетипично для языковых моделей этого размера — большинство конкурентов строятся исключительно на трансформерах. Mamba-слои обрабатывают длинные последовательности с линейной, а не квадратичной сложностью по памяти — это главный источник эффективности. Блоки Attention расставлены стратегически и сохраняют точность там, где важно глобальное понимание контекста. По сравнению с родительской моделью Nemotron Nano 9B v2 размерность эмбеддингов снижена с 4 480 до 3 136, число Mamba-голов — со 128 до 96, количество слоёв — с 56 до 42. Результат: наименьший объём VRAM в классе 4B при тестировании на RTX 4070 и рекордно низкая задержка Time-to-First-Token при длинных входных последовательностях.
Четыре стадии обучения
Nemotron 3 Nano 4B — не просто обрезанный 9B, а модель с собственным обучающим пайплайном из четырёх этапов. Первый — компрессия через Nemotron Elastic: нейросетевой поиск архитектуры (NAS) с обученным роутером определял, где именно обрезать 9B-сеть. Роутер работал по четырём осям: Mamba-головы, скрытая размерность, FFN-каналы и глубина модели.
Второй — дистилляция для восстановления точности: Короткий контекст (8K, 63B токенов): 70% post-training + 30% pretraining данных Длинный контекст (49K, 150B токенов): расширение окна для сложных задач рассуждения Третий — супервизорная тонкая настройка (SFT): два этапа по математике, коду, науке, чату, агентным задачам и безопасности. Четвёртый — трёхэтапное reinforcement learning через NeMo-RL: от однооборотного instruction following к многооборотному с JSON/XML-выходами и далее к инструментальному вызову функций. Соотношение reasoning/non-reasoning данных — 50/50 с прогрессивным ужесточением KL-штрафа.
Числа, которые важны
На Jetson Orin Nano с 4-битным GGUF (Q4_K_M) модель выдаёт 18 токенов/сек — вдвое быстрее, чем Nemotron Nano 9B v2 на том же железе. FP8-квантизация через ModelOpt сохраняет 100% медианной точности при ускорении вывода в 1,8× по сравнению с BF16.
«FP8 quantization achieved 100% median accuracy recovery with up to 1.8X latency/throughput improvement over BF16» — из технической документации NVIDIA.
По ключевым бенчмаркам модель лидирует среди конкурентов своего класса: IFBench и IFEval — следование инструкциям Orak — игровой интеллект: Super Mario, Darkest Dungeon, Stardew Valley Tool-use — вызов инструментов и избегание галлюцинаций TTFT — минимальная задержка при длинных входных последовательностях Модель доступна в трёх вариантах: BF16 (полная точность), FP8 (оптимизирован под RTX и серверные GPU), GGUF Q4_K_M (для Jetson и Llama.cpp). Поддерживаются движки vLLM, TRT-LLM и Hugging Face Transformers.
Что это значит 4B-модель с двукратным преимуществом по скорости над 9B на
Jetson меняет уравнение edge AI: роботика, IoT, локальные агенты и игровые NPC получают инструмент промышленного уровня без дорогого железа и без передачи данных в облако. Открытые веса позволяют дообучить модель под конкретный домен без лицензионных ограничений.