MIT Technology Review→ original

Modelos del mundo: cómo la IA aprende a entender la realidad en lugar del texto

MIT realizó una discusión sobre modelos del mundo — una nueva dirección en IA. Las empresas están desarrollando sistemas que ven y comprenden el mundo…

Procesado por IA desde MIT Technology Review; editado por Hamidun News
Modelos del mundo: cómo la IA aprende a entender la realidad en lugar del texto
Fuente: MIT Technology Review. Collage: Hamidun News.
◐ Escuchar artículo

En la conferencia de mayo de MIT Technology Review se discutieron los modelos del mundo (world models) — algo que podría convertirse en el próximo gran avance en el desarrollo de la inteligencia artificial. El editor en jefe Mat Honan y el editor senior de IA Will Douglas Heaven analizaban cómo las empresas están intentando enseñar a las redes neuronales no solo procesar texto, sino realmente comprender la realidad circundante.

Qué son los modelos del mundo

Un modelo del mundo no es simplemente otra versión de LLM. Es un sistema fundamentalmente diferente que puede ver vídeos, analizar imágenes, interactuar con el entorno y predecir las consecuencias de las acciones. Como una persona que ve un cubo en el borde de una mesa y entiende que caerá. La red neuronal debe adquirir esta comprensión sin instrucciones explícitas, aprendiéndola observando el mundo físico.

Tales modelos cambian el paradigma del aprendizaje. En lugar del esquema clásico «aquí está el texto, responde la pregunta», surge uno nuevo: «mira el vídeo, predice qué sucederá después». Esto requiere una arquitectura completamente diferente, un conjunto de datos diferente, una forma diferente de evaluar los errores del modelo.

Por qué el texto claramente no es suficiente

Los modelos de lenguaje grandes modernos son campeones en el procesamiento de información, pero son ciegos en el sentido literal. Conocen la gravedad solo porque las personas la han escrito millones de veces en internet. Pero nunca han visto caer un objeto, no han sentido la inercia, no han experimentado con la física.

Esto crea puntos ciegos concretos:

  • No pueden predecir interacciones físicas a partir de principios primarios
  • Se confunden con las relaciones espaciales entre objetos en vídeos
  • No pueden comprender las relaciones de causa y efecto en una secuencia de fotogramas
  • No pueden planificar acciones basadas en la física real
  • Se equivocan en la predicción de trayectorias y colisiones

Esta limitación es particularmente evidente cuando la IA intenta controlar un robot, planificar logística o predecir las consecuencias de las manipulaciones en la realidad.

Quién está trabajando en world models

OpenAI, DeepMind, Tesla y otras grandes empresas están invirtiendo activamente recursos en el desarrollo de modelos del mundo. Los enfoques varían. OpenAI y DeepMind trabajan con conjuntos de datos de vídeo de YouTube y simulaciones sintéticas. Tesla utiliza millones de horas de vídeo de las cámaras de sus automóviles para enseñar al sistema a ver el mundo de la misma manera que los humanos lo ven en la carretera.

Algunas empresas comienzan con aprendizaje supervisado en vídeos etiquetados. Otras utilizan aprendizaje reforzado en simulaciones controladas, donde el modelo puede cometer errores un millón de veces sin consecuencias reales, mejorando gradualmente su comprensión.

Qué significa esto

Si las empresas logran escalar los modelos del mundo tan exitosamente como escalaron los LLM, la IA pasa a un nuevo nivel. Desde el procesamiento simbólico de información a algo más cercano a la verdadera comprensión de la realidad física. La robótica saldrá de los laboratorios. Los sistemas autónomos serán más confiables. La planificación de procesos complejos se acelerará.

Pero esto aún está en las primeras etapas del camino. MIT Technology Review llama la atención sobre esto porque los modelos del mundo son probablemente la dirección más importante en IA en los próximos años. Las empresas que primero enseñen a las redes neuronales a ver y comprender el mundo obtendrán una enorme ventaja competitiva.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…