أطلقت NVIDIA نموذج Nemotron 3 Nano Omni للمستندات الطويلة والصوت والفيديو ووكلاء الذكاء الاصطناعي
أطلقت NVIDIA نموذج Nemotron 3 Nano Omni — نموذج متعدد الأنماط للمستندات والصوت والفيديو ومهام الوكلاء في الواجهات. يمكنه معالجة المستندات التي تحتوي على 100+ صف

28 апреля 2026 года NVIDIA представила Nemotron 3 Nano Omni — мультимодальную модель с длинным контекстом для документов, аудио, видео и агентных сценариев в интерфейсах. Компания делает ставку на практические задачи: от разбора сложных PDF и экранных записей до распознавания речи и рассуждений по нескольким типам данных сразу.
Какие задачи закрывает
Nemotron 3 Nano Omni позиционируется не как просто OCR-модель или ещё один VLM для картинок. NVIDIA описывает её как универсальную систему для пяти классов нагрузок: анализ реальных документов, автоматическое распознавание речи, понимание длинных видео с аудио, помощь в GUI-сценариях и общее мультимодальное рассуждение. Речь идёт не о коротких демо-примерах, а о документах с таблицами, формулами, ссылками между страницами, слайдах, скриншотах и записях экранов с голосовыми комментариями.
В документном сценарии модель, по данным компании, справляется с файлами объёмом более 100 страниц и должна удерживать одновременно и мелкие детали, и общую структуру. В аудио и видео акцент сделан на длинные материалы: обучающие ролики, встречи со слайдами, продуктовые демо и support-записи. Для агентных задач важна работа со скриншотами и состоянием интерфейса — модель может интерпретировать увиденное на экране и помогать с выбором следующего действия.
- Многостраничные контракты, отчёты и технические документы Экранные записи и туториалы с голосовым сопровождением Распознавание длинной речи с шумом, акцентами и разными спикерами * Анализ GUI и скриншотов для computer-use сценариев ## Что внутри модели Архитектура собрана вокруг языкового бэкбона Nemotron 3 Nano 30B-A3B и двух специализированных энкодеров: C-RADIOv4-H для визуальных данных и Parakeet-TDT-0.6B для аудио. Связь между модальностями и LLM реализована через лёгкие проекторы, чтобы свести всё в единую последовательность токенов. Внутри бэкбона NVIDIA использует гибридный подход: 23 слоя Mamba для длинного контекста, 23 MoE-слоя со 128 экспертами и top-6 routing, а также 6 attention-слоёв для глобальных связей и сложных рассуждений. Отдельный акцент сделан на эффективности работы с плотными визуальными данными. Вместо тайлинга, который использовался в предыдущей версии, модель получила dynamic resolution на нативном соотношении сторон: на изображение выделяется от 1024 до 13312 визуальных патчей. Для видео применяются два механизма сжатия. Conv3D объединяет пары соседних кадров ещё до подачи в ViT, а EVS на этапе инференса отбрасывает статические токены и оставляет только динамические изменения. Для аудио важен переход к native input: модель работает не только с транскриптом, но и с самой аудиодорожкой, причём обучалась на отрезках до 20 минут, а общий контекст LLM заявлен на уровне более пяти часов.
Результаты и доступность В опубликованных бенчмарках
Nemotron 3 Nano Omni заметно прибавила по сравнению с Nemotron Nano V2 VL и часто обходит Qwen3-Omni 30B-A3B. По данным NVIDIA, модель набирает 57,5 на MMLongBench-Doc против 38,0 у предыдущей версии, 65,8 на OCRBenchV2-En и 63,6 на CharXiv reasoning. В задачах GUI она показывает 47,4 на OSWorld против 11,0 у прошлой модели, а в мультимодальном видео — 72,2 на Video-MME, 55,4 на WorldSense и 74,1 на DailyOmni.
Для аудио заявлены 89,4 на VoiceBench и 5,95 WER на HF Open ASR, где меньше — лучше. Не менее важный тезис для разработчиков — стоимость и скорость. NVIDIA пишет о 7,4-кратном росте системной эффективности в multi-document сценариях и 9,2-кратном — в video use cases по сравнению с другими открытыми мультимодальными моделями при сопоставимой интерактивности.
Также компания заявляет до 2,9 раза более высокую скорость single-stream reasoning в мультимодальных задачах. Чекпойнты уже выложены на Hugging Face в форматах BF16, FP8 и NVFP4, так что модель можно пробовать не только как исследовательский релиз, но и как базу для прикладных пайплайнов.
Что это значит NVIDIA явно идёт не в сторону очередной витринной
демки, а в сторону рабочих enterprise-сценариев, где нужно одновременно читать длинные документы, понимать голос, видеть интерфейс и держать большой контекст без резкого роста стоимости. Если заявленные метрики подтвердятся в реальных интеграциях, Nemotron 3 Nano Omni станет сильным кандидатом с открытыми весами для document AI, video understanding и computer-use агентов.