NVIDIA presentó Nemotron 3 Nano Omni para documentos largos, audio, video y agentes de IA

Q: ¿Cuál es la fuente?

Publicado originalmente en Hugging Face Blog. Hamidun News procesa y adapta los materiales con IA.

Q: ¿Cuándo se publicó?

28 abr 2026. Tiempo de lectura: 3 min.

NVIDIA presentó Nemotron 3 Nano Omni — un modelo multimodal para documentos, audio, video y tareas de agentes en interfaces. Puede procesar documentos de…

Redacción de Hamidun News

Monitoreo de AI · Hugging Face Blog

28 abr 2026· 3 min

Procesado por IA desde Hugging Face Blog; editado por Hamidun News

NVIDIA presentó Nemotron 3 Nano Omni para documentos largos, audio, video y agentes de IA — Fuente: Hugging Face Blog. Collage: Hamidun News.

◐ Escuchar artículo

28 de abril de 2026, NVIDIA presentó Nemotron 3 Nano Omni — un modelo multimodal con contexto largo para documentos, audio, vídeo y escenarios de agentes en interfaces. La empresa apuesta por tareas prácticas: desde el análisis de PDFs complejos y grabaciones de pantalla hasta el reconocimiento de voz y el razonamiento entre múltiples tipos de datos simultáneamente.

¿Qué tarefas resuelve Nemotron 3 Nano Omni?

Nemotron 3 Nano Omni se posiciona no simplesmente como un modelo OCR u otro VLM más para imágenes. NVIDIA la describe como un sistema universal para cinco clases de cargas de trabajo: análisis de documentos reales, reconocimiento automático de voz, comprensión de vídeos largos con audio, asistencia en escenarios GUI y razonamiento multimodal general. Hablamos no de ejemplos de demostración cortos, sino de documentos con tablas, fórmulas, referencias cruzadas entre páginas, diapositivas, capturas de pantalla y grabaciones de pantalla con comentarios de voz.

En el escenario de documento, el modelo, según la compañía, maneja archivos de más de 100 páginas y debe mantener simultáneamente tanto detalles finos como la estructura general. Para audio y vídeo, el énfasis está en materiales largos: vídeos educativos, reuniones con diapositivas, demostraciones de productos y grabaciones de soporte. Para tareas de agentes, trabajar con capturas de pantalla y estado de interfaz es importante — el modelo puede interpretar lo que ve en la pantalla y ayudar con la elección de la siguiente acción.

Contratos multipágina, informes y documentos técnicos
Grabaciones de pantalla y tutoriales con acompañamiento de voz
Reconocimiento de voz larga con ruido, acentos y diferentes hablantes
Análisis de GUI y capturas de pantalla para escenarios de computer-use

Qué hay dentro del modelo

La arquitectura se construye alrededor del backbone de lenguaje Nemotron 3 Nano 30B-A3B y dos codificadores especializados: C-RADIOv4-H para datos visuales y Parakeet-TDT-0.6B para audio. La conexión entre modalidades y el LLM se implementa a través de proyectores ligeros para traer todo en una única secuencia de tokens.

Dentro del backbone, NVIDIA utiliza un enfoque híbrido: 23 capas Mamba para contexto largo, 23 capas MoE con 128 expertos y enrutamiento top-6, así como 6 capas de atención para conexiones globales y razonamiento complejo. Se hace énfasis especial en el trabajo eficiente con datos visuales densos. En lugar de tiling, que se usó en la versión anterior, el modelo recibió resolución dinámica en proporción de aspecto nativa: se asignan de 1024 a 13312 parches visuales por imagen.

Para vídeo, se aplican dos mecanismos de compresión. Conv3D combina pares de fotogramas adyacentes antes de alimentar al ViT, y EVS en la etapa de inferencia descarta tokens estáticos y mantiene solo cambios dinámicos. Para audio, la transición a entrada nativa es importante: el modelo funciona no solo con una transcripción, sino con la propia pista de audio, y fue entrenado en segmentos de hasta 20 minutos, con contexto LLM general declarado en más de cinco horas.

Resultados y disponibilidad

En benchmarks publicados, Nemotron 3 Nano Omni ha hecho mejoras significativas en comparación con Nemotron Nano V2 VL y a menudo supera a Qwen3-Omni 30B-A3B. Según NVIDIA, el modelo obtiene 57,5 en MMLongBench-Doc versus 38,0 en la versión anterior, 65,8 en OCRBenchV2-En y 63,6 en razonamiento CharXiv. En tareas GUI muestra 47,4 en OSWorld versus 11,0 en el modelo anterior, y en vídeo multimodal — 72,2 en Video-MME, 55,4 en WorldSense y 74,1 en DailyOmni.

Para audio se declaran 89,4 en VoiceBench y 5,95 WER en HF Open ASR, donde menos es mejor. No menos importante para los desarrolladores es el costo y la velocidad. NVIDIA escribe sobre un aumento de 7,4x en eficiencia de sistema en escenarios multi-documento y 9,2x en casos de uso de vídeo en comparación con otros modelos multimodales abiertos con interactividad comparable.

La compañía también afirma una velocidad hasta 2,9x mayor para razonamiento de single-stream en tareas multimodales. Los checkpoints ya están publicados en Hugging Face en formatos BF16, FP8 y NVFP4, por lo que el modelo puede probarse no solo como una versión de investigación, sino también como base para pipelines aplicados.

Qué significa esto

NVIDIA claramente no se mueve hacia otra demostración de escaparate, sino hacia escenarios empresariales prácticos donde necesita simultáneamente leer documentos largos, entender voz, ver la interfaz y mantener contexto grande sin un aumento pronunciado en costo. Si las métricas declaradas se confirman en integraciones reales, Nemotron 3 Nano Omni será un fuerte candidato con pesos abiertos para documento AI, comprensión de vídeo y agentes de computer-use.

Hamidun News

Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

Canal de Telegram RSS hamidun.com

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

🎓 Academy — 7 días gratis Consulta gratuita