Nvidia lanzó Nemotron 3 Nano Omni — un modelo multimodal abierto para agentes de borde
Nvidia presentó Nemotron 3 Nano Omni — un modelo multimodal abierto para agentes de borde que combina texto, imágenes, audio, vídeo y documentos en una única…
Procesado por IA desde TNW; editado por Hamidun News
Nvidia el 28 de abril de 2026 presentó Nemotron 3 Nano Omni — un modelo multimodal abierto diseñado para agentes de IA autónomos en dispositivos periféricos. Esto no es simplemente otro lanzamiento para el ecosistema CUDA: la empresa demuestra que quiere ganar dinero no solo con hardware, sino también con los propios modelos.
Qué puede hacer el modelo
Nemotron 3 Nano Omni combina la comprensión de texto, imágenes, audio y video en una única arquitectura. El modelo también funciona con documentos, diagramas e interfaces gráficas, y produce respuestas de texto. Esencialmente, Nvidia ofrece no un paquete de varios modelos separados para visión, habla y documentos, sino un único motor unificado para tareas en las que un agente necesita simultáneamente ver la pantalla, leer un archivo, escuchar un comando de voz y responder sin retrasos innecesarios entre servicios.
La idea clave es que el modelo es grande en volumen total pero relativamente ligero en operación. Nemotron 3 Nano Omni tiene 30 mil millones de parámetros, pero solo 3 mil millones se activan en cada paso de inferencia gracias a la arquitectura mixture-of-experts. Nvidia afirma que este enfoque ofrece ganancias de hasta nueve veces en rendimiento comparado con modelos multimodales abiertos comparables, y el modelo lidera en seis puntos de referencia para trabajar con documentos, video y audio.
El componente de texto base se entrenó en 25 billones de tokens y soporta una ventana de contexto de hasta 256 mil tokens. Internamente, el modelo usa un esquema híbrido Mamba-Transformer. Según la descripción de Nvidia, combina 23 capas Mamba-2, 23 capas mixture-of-experts y seis capas grouped-query attention.
Cada token se enruta a solo seis de 128 expertos más un experto compartido, por lo que los cálculos no se expanden. Para video, se aplican convoluciones tridimensionales que tienen en cuenta el movimiento entre fotogramas, en lugar de simplemente analizar el video como un conjunto de imágenes estáticas. Este enfoque de ingeniería es lo que debería hacer que el modelo sea adecuado para agentes en tiempo real en una única GPU.
- 30 mil millones de parámetros en total, 3 mil millones activos en inferencia
- implementación posible en una única GPU, sin un clúster de servidores
- uso comercial permitido bajo Nvidia Open Model Agreement
- modelo disponible en Hugging Face y a través de Nvidia NIM
- las entradas incluyen texto, imágenes, audio, video, documentos e interfaces gráficas
Por qué esto para Nvidia
Durante los últimos dos años, Nvidia ha ganado principalmente como proveedor de infraestructura: GPUs, redes, CUDA y todo el software alrededor. Pero la familia Nemotron ya se ha convertido en una dirección separada, y ahora la empresa está haciendo un movimiento más audaz — posicionando su propio modelo como una base lista para agentes de IA industrial. La lógica es simple: si el modelo está optimizado para hardware Nvidia, y el hardware está optimizado para modelos Nvidia, la empresa obtiene control sobre casi toda la pila, como Google, Amazon o Microsoft en sus ecosistemas de nube.
Por eso el lanzamiento se presenta no como una demostración de capacidades de laboratorio, sino como un producto para despliegue. Entre los primeros usuarios y socios, Nvidia menciona Foxconn, Palantir, Aible, ASI, Eka Care y H Company; Dell, DocuSign, Infosys, Oracle y Zefr están evaluando el modelo para producción. Los escenarios tampoco son enfocados al consumidor: inspección visual en fábricas, procesamiento de documentos, agentes de voz y comprensión de pantalla para sistemas de computer-use.
El modelo se puede desplegar a través de Amazon SageMaker JumpStart, OpenRouter, vLLM, SGLang, Ollama, llama.cpp y TensorRT-LLM — así que Nvidia quiere hacerlo disponible en cualquier pila familiar. Contra competidores, la apuesta se ve bastante precisa.
Google tiene Gemini multimodal y Gemini Nano para dispositivos, Meta tiene una fuerte línea de Llama, OpenAI sigue siendo el punto de referencia comercial con modelos GPT. Pero Nvidia intenta ensamblar una rara combinación de cuatro propiedades a la vez: multimodalidad, pesos abiertos, licencia comercial y operación en hardware de borde sin requisitos de escala de nube. Si funciona, la empresa podrá capturar valor en tres niveles simultáneamente — hardware, herramientas de inferencia y el modelo en sí.
Lo que significa
Nemotron 3 Nano Omni es una apuesta de que la próxima ola de agentes de IA operará no solo en la nube sino también localmente, más cerca de datos, cámaras, micrófonos e interfaces corporativas. Si Nvidia confirma las cifras indicadas en despliegues reales, se convertirá no solo en un proveedor de "picos y palas" para el boom de IA, sino en uno de los jugadores más fuertes en el mercado de modelos en sí.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.