MarkTechPost→ original

Yann LeCun presenta LeWorldModel — Modelo JEPA sin colapso de representaciones a partir de píxeles

Yann LeCun y colegas presentaron LeWorldModel — un nuevo JEPA world model que aprende directamente de datos de píxeles sin stop-gradient, EMA y codificadores…

Procesado por IA desde MarkTechPost; editado por Hamidun News
Yann LeCun presenta LeWorldModel — Modelo JEPA sin colapso de representaciones a partir de píxeles
Fuente: MarkTechPost. Collage: Hamidun News.
◐ Escuchar artículo

Un equipo de investigadores liderado por Yann LeCun presentó LeWorldModel, o LeWM—un nuevo world model para entrenar agentes directamente en datos de píxeles. Los autores afirman que el modelo resuelve uno de los principales problemas del enfoque JEPA—colapso de representación—mientras acelera significativamente la planificación.

Por Qué JEPA Falla

Los world models son necesarios para que los agentes construyan un mapa interno compacto del entorno y calculen acciones no en fotogramas crudos, sino en espacio latente. Sin embargo, al entrenar directamente en imágenes, estos sistemas a menudo caen en colapso de representación: escenas diferentes comienzan a codificarse de manera similar, y el modelo ejecuta formalmente la tarea de predicción pero pierde la estructura útil del mundo. Por eso, los desarrolladores tienen que asegurar el entrenamiento con técnicas auxiliares—stop-gradient, EMA, codificadores congelados y funciones de pérdida multicomponentes. El problema es particularmente doloroso para agentes que necesitan planificar largas cadenas de acciones: si el espacio latente degenera, el planificador deja de distinguir entre escenarios buenos y malos.

Cómo Funciona LeWM

LeWM intenta eliminar esta complejidad. La arquitectura consta de dos partes principales: un codificador que traduce un fotograma en una representación latente compacta y un predictor que estima el siguiente estado basado en el estado actual y la acción. La implementación utiliza ViT-Tiny con aproximadamente 5 millones de parámetros y un predictor transformer con aproximadamente 10 millones, por lo que todo el sistema se ajusta a 15 millones de parámetros y, según los autores, se entrena en una única GPU en pocas horas.

La idea clave es no crear objetivos auxiliares, sino mantener solo la predicción del siguiente embedding y el regularizador SIGReg. SIGReg fuerza que los vectores latentes permanezcan diversos y cercanos a una distribución Gaussiana isotrópica. Para esto, el modelo no observa todo el espacio en conjunto, sino un conjunto de proyecciones unidimensionales aleatorias y verifica sus estadísticas. Este enfoque debería reducir el riesgo de representaciones degeneradas sin una sobrecarga de ingeniería pesada.

En términos prácticos, LeWM retiene solo un hiperparámetro realmente importante—el peso de regularización λ—mientras que la alternativa end-to-end más cercana, PLDM, tiene significativamente más configuraciones. Los autores también notan por separado que para la estabilidad, el dropout de 0,1 en el predictor y una pequeña capa de proyección después del codificador ayudaron.

Lo Que Mostraron las Pruebas

Según los resultados del artículo, LeWM resultó ser no solo más estable durante el entrenamiento, sino también más rápido en la etapa de planificación. Los autores lo comparan con PLDM y DINO-WM en tareas de navegación, manipulación y control en entornos 2D y 3D. El modelo funciona directamente con píxeles, sin un codificador foundation congelado y sin dependencia de tareas que requieren recompensa, pero sigue siendo competitivo en varios benchmarks.

  • aproximadamente 200 veces menos tokens por fotograma en comparación con DINO-WM
  • hasta 48 veces más rápido la planificación: aproximadamente 0,98 segundos versus 47 segundos por ciclo
  • solo dos funciones de pérdida en lugar de siete en enfoques basados en PLDM usando VICReg
  • un hiperparámetro principal en lugar de un conjunto de ajustes manuales
  • el espacio latente captura cantidades físicas e identifica eventos "imposibles" como teleportación de objetos

Los autores probaron por separado si el modelo entiende la lógica física de la escena, en lugar de simplemente predecir los siguientes fotogramas. En pruebas de violación de expectativa, el sistema reaccionó más fuertemente a eventos físicamente implausibles, como la teleportación repentina de objetos, que a cambios puramente visuales. Otro efecto interesante es el enderezamiento de la trayectoria latente temporal: a medida que avanzaba el entrenamiento, las trayectorias en el espacio latente se volvían más suaves y lineales incluso sin una penalización separada que explícitamente impusiera tal comportamiento. Esto es importante porque las trayectorias latentes más suaves normalmente simplifican la búsqueda de acciones durante la planificación.

Lo Que Esto Significa

Para el mercado de agentes, esta es una señal importante: los world models vuelven a ser una dirección práctica, no solo una idea académica. Si LeWM y enfoques similares confirman resultados más allá de benchmarks de laboratorio, los desarrolladores podrán construir agentes más rápidos y económicos que planifiquen en un espacio de estado compacto sin codificadores foundation pesados. Esto es particularmente interesante para robótica, offline RL y sistemas donde el costo del error y la latencia es crítico. Esencialmente, LeWM muestra que combatir el colapso de representación puede hacerse no complicando el stack, sino enmarcando más cuidadosamente la tarea de aprendizaje en sí misma.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…