NVIDIA presentó Nemotron 3 Nano Omni para documentos largos, audio, video y agentes de IA
NVIDIA presentó Nemotron 3 Nano Omni — un modelo multimodal para documentos, audio, video y tareas de agentes en interfaces. Puede procesar documentos de…
Procesado por IA desde Hugging Face Blog; editado por Hamidun News
28 de abril de 2026, NVIDIA presentó Nemotron 3 Nano Omni — un modelo multimodal con contexto largo para documentos, audio, vídeo y escenarios de agentes en interfaces. La empresa apuesta por tareas prácticas: desde el análisis de PDFs complejos y grabaciones de pantalla hasta el reconocimiento de voz y el razonamiento entre múltiples tipos de datos simultáneamente.
¿Qué tarefas resuelve Nemotron 3 Nano Omni?
Nemotron 3 Nano Omni se posiciona no simplesmente como un modelo OCR u otro VLM más para imágenes. NVIDIA la describe como un sistema universal para cinco clases de cargas de trabajo: análisis de documentos reales, reconocimiento automático de voz, comprensión de vídeos largos con audio, asistencia en escenarios GUI y razonamiento multimodal general. Hablamos no de ejemplos de demostración cortos, sino de documentos con tablas, fórmulas, referencias cruzadas entre páginas, diapositivas, capturas de pantalla y grabaciones de pantalla con comentarios de voz.
En el escenario de documento, el modelo, según la compañía, maneja archivos de más de 100 páginas y debe mantener simultáneamente tanto detalles finos como la estructura general. Para audio y vídeo, el énfasis está en materiales largos: vídeos educativos, reuniones con diapositivas, demostraciones de productos y grabaciones de soporte. Para tareas de agentes, trabajar con capturas de pantalla y estado de interfaz es importante — el modelo puede interpretar lo que ve en la pantalla y ayudar con la elección de la siguiente acción.
- Contratos multipágina, informes y documentos técnicos
- Grabaciones de pantalla y tutoriales con acompañamiento de voz
- Reconocimiento de voz larga con ruido, acentos y diferentes hablantes
- Análisis de GUI y capturas de pantalla para escenarios de computer-use
Qué hay dentro del modelo
La arquitectura se construye alrededor del backbone de lenguaje Nemotron 3 Nano 30B-A3B y dos codificadores especializados: C-RADIOv4-H para datos visuales y Parakeet-TDT-0.6B para audio. La conexión entre modalidades y el LLM se implementa a través de proyectores ligeros para traer todo en una única secuencia de tokens.
Dentro del backbone, NVIDIA utiliza un enfoque híbrido: 23 capas Mamba para contexto largo, 23 capas MoE con 128 expertos y enrutamiento top-6, así como 6 capas de atención para conexiones globales y razonamiento complejo. Se hace énfasis especial en el trabajo eficiente con datos visuales densos. En lugar de tiling, que se usó en la versión anterior, el modelo recibió resolución dinámica en proporción de aspecto nativa: se asignan de 1024 a 13312 parches visuales por imagen.
Para vídeo, se aplican dos mecanismos de compresión. Conv3D combina pares de fotogramas adyacentes antes de alimentar al ViT, y EVS en la etapa de inferencia descarta tokens estáticos y mantiene solo cambios dinámicos. Para audio, la transición a entrada nativa es importante: el modelo funciona no solo con una transcripción, sino con la propia pista de audio, y fue entrenado en segmentos de hasta 20 minutos, con contexto LLM general declarado en más de cinco horas.
Resultados y disponibilidad
En benchmarks publicados, Nemotron 3 Nano Omni ha hecho mejoras significativas en comparación con Nemotron Nano V2 VL y a menudo supera a Qwen3-Omni 30B-A3B. Según NVIDIA, el modelo obtiene 57,5 en MMLongBench-Doc versus 38,0 en la versión anterior, 65,8 en OCRBenchV2-En y 63,6 en razonamiento CharXiv. En tareas GUI muestra 47,4 en OSWorld versus 11,0 en el modelo anterior, y en vídeo multimodal — 72,2 en Video-MME, 55,4 en WorldSense y 74,1 en DailyOmni.
Para audio se declaran 89,4 en VoiceBench y 5,95 WER en HF Open ASR, donde menos es mejor. No menos importante para los desarrolladores es el costo y la velocidad. NVIDIA escribe sobre un aumento de 7,4x en eficiencia de sistema en escenarios multi-documento y 9,2x en casos de uso de vídeo en comparación con otros modelos multimodales abiertos con interactividad comparable.
La compañía también afirma una velocidad hasta 2,9x mayor para razonamiento de single-stream en tareas multimodales. Los checkpoints ya están publicados en Hugging Face en formatos BF16, FP8 y NVFP4, por lo que el modelo puede probarse no solo como una versión de investigación, sino también como base para pipelines aplicados.
Qué significa esto
NVIDIA claramente no se mueve hacia otra demostración de escaparate, sino hacia escenarios empresariales prácticos donde necesita simultáneamente leer documentos largos, entender voz, ver la interfaz y mantener contexto grande sin un aumento pronunciado en costo. Si las métricas declaradas se confirman en integraciones reales, Nemotron 3 Nano Omni será un fuerte candidato con pesos abiertos para documento AI, comprensión de vídeo y agentes de computer-use.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.