AWS Machine Learning Blog→ original

NVIDIA lanza Nemotron 3 Nano Omni en Amazon SageMaker JumpStart el día del lanzamiento

NVIDIA puso disponible Nemotron 3 Nano Omni en Amazon SageMaker JumpStart el día del lanzamiento. El modelo combina procesamiento de texto, imágenes, audio y…

Procesado por IA desde AWS Machine Learning Blog; editado por Hamidun News
NVIDIA lanza Nemotron 3 Nano Omni en Amazon SageMaker JumpStart el día del lanzamiento
Fuente: AWS Machine Learning Blog. Collage: Hamidun News.
◐ Escuchar artículo

El 28 de abril de 2026, NVIDIA agregó el modelo multimodal Nemotron 3 Nano Omni a Amazon SageMaker JumpStart el día de su lanzamiento. Para equipos en AWS, esto acorta el camino desde el anuncio del modelo hasta el piloto: el servicio ya está listo para desplegar y ejecutar inferencias.

Qué es este modelo

Nemotron 3 Nano Omni es una LLM multimodal abierta con 30 mil millones de parámetros totales y 3 mil millones activos. Se construye sobre una arquitectura híbrida Mamba2 Transformer Hybrid Mixture of Experts. NVIDIA ensambló el modelo a partir de tres componentes: el núcleo de lenguaje Nemotron 3 Nano, el codificador visual CRADIO v4-H para imágenes y vídeo, y el codificador de voz Parakeet para audio.

El modelo acepta vídeo, audio, imágenes y texto como entrada y devuelve respuestas de texto como salida. Según la documentación de AWS, el modelo está diseñado no solo para chat, sino también para escenarios agenticos. Soporta una ventana de contexto de hasta 131 mil tokens, razonamiento, llamada de herramientas, respuestas JSON y marcas de tiempo a nivel de palabra para transcripción.

En SageMaker JumpStart, el modelo está disponible en FP8, enfatizando el equilibrio entre calidad y eficiencia. En el aspecto de licenciamiento, que importa para uso comercial, Nemotron 3 Nano Omni se distribuye bajo el Acuerdo de Modelo Abierto de NVIDIA.

El modelo está destinado a "ver, oír y razonar" en múltiples

modalidades en una única pasada de inferencia.

Dónde el modelo es útil

La idea principal del anuncio es eliminar el zoológico de modelos separados para visión, voz y texto. En un sistema agentico empresarial típico, cada uno de estos módulos añade latencia, complica la orquestación y rompe el contexto general. AWS y NVIDIA proponen usar Nemotron 3 Nano Omni como una única capa de percepción: el modelo lee la pantalla, entiende documentos, transcribe voz y analiza vídeo, mientras que el resto de la lógica del agente funciona sobre una única imagen coherente.

  • Agentes de computadora que navegan en interfaces, dashboards y navegadores
  • Inteligencia de documentos para contratos, SOWs, documentos financieros, tablas y capturas de pantalla
  • Análisis de llamadas, reuniones y otro contenido de audio-vídeo en servicios de soporte
  • Verificación de eventos visuales, como entregas u órdenes, donde se necesitan OCR y contexto temporal

El modelo tiene límites de entrada bastante claros, y ya se ven prácticos para pilotos. Vídeo — MP4 de hasta 2 minutos y hasta 256 fotogramas, audio — WAV o MP3 con duración de hasta una hora, imágenes — JPEG y PNG, texto — hasta 131 mil tokens. Esto no es una máquina universal ilimitada, pero para asistentes internos, pipelines de revisión y automatización de tareas operativas, el rango es más que funcional. En conclusión, AWS declara por separado hasta 9 veces mayor throughput en comparación con modelos omni abiertos alternativos.

Cómo ejecutar el modelo

SageMaker JumpStart presenta este lanzamiento como un despliegue de un clic. El escenario básico es sencillo: abrir SageMaker Studio, ir a la sección JumpStart, encontrar Nemotron 3 Nano Omni, seleccionar la tarjeta del modelo y hacer clic en Deploy. Antes de eso, AWS te pide que verifiques tres cosas: disponibilidad de cuenta, permisos de acceso a JumpStart y cuotas de instancias GPU como ml.

p4d.24xlarge o ml.p5.

48xlarge. Entonces hay un inicio rápido, pero sigue dependiendo de la preparación de la infraestructura empresarial y del presupuesto para GPU. Para equipos que despliegan modelos por código, también hay un camino a través del SDK de Python de SageMaker con un model_id listo.

Después del despliegue, el endpoint acepta solicitudes multimodales: puedes describir una imagen, resumir una grabación de reunión o transcribir una llamada con elementos de acción destacados. AWS también recomienda dos modos de inferencia: thinking para razonamiento complejo con temperatura 0.6, top_p 0.

95 y max_tokens 20480, e instruct para tareas más directas donde la velocidad importa. Después de experimentos, es mejor eliminar el endpoint de inmediato para evitar acumular costos adicionales.

Lo que esto significa

La aparición de Nemotron 3 Nano Omni en JumpStart el día del lanzamiento muestra que AWS está acelerando la entrega de modelos abiertos frescos directamente en el flujo de trabajo de producción. Para negocios, esta es una señal positiva: los agentes multimodales están transitando gradualmente de un conjunto de componentes dispersos a una pila de productos más coherente que se puede probar con tus propios datos sin ensamblaje prolongado desde cero.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…