Habr AI→ original

AMI Labs Apuesta por Modelos del Mundo Más Allá de LLM y Ve Camino a Productos a Través de VLA

AMI Labs, un proyecto de Yann LeCun, avanza modelos del mundo como el siguiente paso después de LLM: en lugar de predecir tokens—entender el entorno y las…

Procesado por IA desde Habr AI; editado por Hamidun News
AMI Labs Apuesta por Modelos del Mundo Más Allá de LLM y Ve Camino a Productos a Través de VLA
Fuente: Habr AI. Collage: Hamidun News.
◐ Escuchar artículo

Tras el auge de los LLM, AMI Labs propone desplazar el centro de gravedad de la IA del lenguaje a la comprensión del entorno físico: una máquina no puede simplemente continuar texto si debe actuar con seguridad en el mundo real, planificar pasos y evaluar las consecuencias de sus decisiones por anticipado. AMI Labs es una empresa de investigación fundada por Yann LeCun, uno de los principales pioneros del aprendizaje profundo. El proyecto atrajo 1.

030 millones de dólares en una valoración previa de 3.500 millones de dólares, demostrando que el interés en modelos del mundo ha trascendido la discusión académica. La empresa opera desde una premisa simple: los datos de cámaras, sensores e instrumentos están estructurados de manera diferente al texto.

Son continuos, ruidosos, multidimensionales y mal adaptados a la lógica de "predecir el siguiente token". En lugar de adaptar LLM a cualquier escenario, AMI se basa en una capa fundamental diferente: un modelo del mundo. Aquí, un modelo del mundo no es un generador de vídeo ni simplemente un sistema multimodal con imágenes, texto y acciones como entrada.

Se refiere a un modelo que construye una representación interna oculta del entorno, identifica relaciones estables y descarta detalles aleatorios. Lo importante no es cada píxel del fotograma futuro, sino la estructura de lo que está sucediendo: dónde se encuentran los objetos, cómo se mueven, qué restricciones tiene el entorno y qué cambiará después de que actúe el agente. Una arquitectura así debe responder no solo a "qué veo" sino también a "qué pasará si hago esto".

Es precisamente por esto que JEPA—Joint Embedding Predictive Architecture—se convierte en el centro del enfoque. En esta lógica, el modelo predice no datos crudos ni una secuencia de tokens, sino el estado en un espacio de representación. Esto permite al sistema evitar gastar computación en ruido y variaciones aleatorias, y en su lugar aprender de características verdaderamente significativas de la escena.

Un argumento práctico para este enfoque ya apareció en la investigación V-JEPA 2: el sistema se preentrenó primero en más de un millón de horas de vídeo de internet, y luego se afinó con una versión condicionada por acciones en menos de 62 horas de vídeo robótico sin etiquetar. Después de esto, el modelo en modo zero-shot pudo trabajar con manipuladores Franka en nuevos laboratorios, realizando agarre y desplazamiento de objetos sin recopilar datos específicamente para ese entorno y sin una función de recompensa. Pero el modelo del mundo en sí todavía no es un agente completo.

Puede predecir cómo se desarrollarán las situaciones, pero alguien debe traducir esta comprensión en acciones concretas. Aquí es donde aparece VLA, capa visual-lenguaje-acción, que conecta la percepción, la intención del usuario, el comando lingüístico y las acciones permitidas del sistema. Una tesis importante de AMI y trabajos relacionados es que VLA y los modelos del mundo no compiten.

Al contrario, sin predicción interna, VLA permanece demasiado reactivo: puede producir la acción correcta "en este momento", pero lucha con escenarios largos, frágiles y físicamente sensibles donde es necesario simular mentalmente las consecuencias del contacto, movimiento, colisión o error. Por eso los mercados más obvios para este enfoque no son interfaces de chat, sino industrias con alto costo de fallo: automatización industrial, robótica, dispositivos portátiles y medicina. Si un modelo de texto comete un error al resumir un artículo, el daño es limitado.

Si un sistema inteligente malinterpreta el estado del equipo, evalúa incorrectamente los riesgos en medicina o calcula mal la trayectoria de un robot, las consecuencias ya son físicas. Notablemente, el primer socio de AMI se llama Nabla de la medicina digital. Esto no significa que la empresa ya haya resuelto la tarea de IA confiable para entornos clínicos, pero muestra la dirección: menos enfoque en demostraciones espectaculares y más enfoque en controlabilidad, previsibilidad y simulación interna del entorno antes de actuar.

La conclusión principal es que después de la era de los LLM, la conversación sobre IA se está desplazando gradualmente de la descripción lingüística del mundo a su modelado interno. El enfoque de AMI sigue siendo un programa de investigación en lugar de un reemplazo listo para grandes modelos de lenguaje: el término "modelo del mundo" ya se está difuminando, y la transferencia a nuevos entornos aún está por demostrarse. Pero si esta línea funciona, el próximo avance práctico en IA podría no venir de otro chatbot, sino de sistemas que primero comprenden la realidad física y luego actúan dentro de ella.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…