NVIDIA Explica la Diferencia Entre VLA y WAM — Dos Enfoques para el Control de Robots

Q: ¿Cuál es la fuente?

Publicado originalmente en NVIDIA Developer Blog. Hamidun News procesa y adapta los materiales con IA.

Q: ¿Cuándo se publicó?

15 jun 2026. Tiempo de lectura: 3 min.

NVIDIA publicó una descripción general de dos enfoques competidores para el control de robots. Los modelos VLA comienzan con una columna vertebral de…

Redacción de Hamidun News

Monitoreo de AI · NVIDIA Developer Blog

15 jun 2026· 3 min

Procesado por IA desde NVIDIA Developer Blog; editado por Hamidun News

NVIDIA Explica la Diferencia Entre VLA y WAM — Dos Enfoques para el Control de Robots — Fuente: NVIDIA Developer Blog. Collage: Hamidun News.

◐ Escuchar artículo

NVIDIA ha publicado una descripción general exhaustiva de dos arquitecturas competidoras para la IA robótica — VLA y WAM — y explica por qué el segundo enfoque podría convertirse en el próximo estándar de la industria.

Dos Clases de Modelos Robóticos

Hoy existen dos formas dominantes de crear un modelo que controle un robot. La primera es tomar un modelo Vision-Language preentrenado y ajustarlo para generar comandos para un manipulador. Estos sistemas se llaman modelos Vision-Language-Action, o VLA. Ejemplos ya en operación: Pi-0 de Physical Intelligence y GR00T N1 de NVIDIA. Ambos comienzan con una poderosa backbone VLM que ha absorbido conocimiento sobre el mundo a través de textos e imágenes — y luego se adaptan para tareas motoras reales. La ventaja clave: semántica rica y la capacidad de generalizar instrucciones desconocidas.

El segundo camino son los World-Action Models, o WAM. Aquí la base no es un modelo de lenguaje, sino un modelo "del mundo" — un sistema entrenado para predecir fotogramas de vídeo futuros dependiendo de la acción realizada. Tal backbone no ha leído internet, pero ha visto cómo los objetos se mueven, se deforman y responden al impacto físico.

Por Qué la Imaginación Es Más Importante Que el Lenguaje

La idea clave de WAM es que predecir "qué sucederá si empujo esta taza" es fundamentalmente más útil para un robot que la capacidad de analizar instrucciones complejas. Los modelos del mundo, surgidos de tareas de generación de vídeo, acumulan precisamente este tipo de conocimiento. En la práctica, esto se expresa en las siguientes diferencias:

La backbone VLM proporciona semántica rica y generalización de comandos de lenguaje
La backbone de modelo del mundo incorpora intuición física sin programación explícita de física
VLA se ajusta predominantemente en conjuntos de datos de teleoperación humana
WAM puede usar vídeo sintético como un simulador interno
Ambos enfoques no se excluyen mutuamente — los investigadores ya están experimentando con híbridos

NVIDIA en Ambos Campos

Notablemente, NVIDIA está presente en ambas direcciones simultáneamente. GR00T N1 es el modelo VLA insignia para robots humanoides. Cosmos es una plataforma de modelos del mundo que potencialmente sirve como backbone WAM para la próxima generación de sistemas.

"Estamos en el comienzo de una era de IA física" — este es precisamente el narrativo que NVIDIA está cimentando a través de esta publicación de glosario y descripción conceptual.

Al estandarizar la terminología antes de que el mercado se divida completamente en campos, la empresa se posiciona como una arquitecta del discurso. Esto no es simplemente un blog — es un intento de dictar cómo la industria pensará sobre la próxima generación de robots.

Qué Significa Esto

La elección entre VLA y WAM es una decisión estratégica para todos los que construyen robótica hoy. VLA se lanza más rápido con datos de teleoperación disponibles; WAM potencialmente escala mejor sin anotación manual costosa. A medida que los modelos de generación de vídeo se vuelven más baratos y mejoran, los Modelos de Acción del Mundo se volverán cada vez más atractivos — y NVIDIA tiene la intención de ocupar posiciones líderes en ambos campos simultáneamente.

Hamidun News

Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

Canal de Telegram RSS hamidun.com

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

🎓 Academy — 7 días gratis Consulta gratuita