Jiqizhixin (机器之心)→ original

Emu2 en Nature: científicos chinos encontraron el código único de la realidad

Durante mucho tiempo, la inteligencia artificial moderna se parecía a un monstruo de Frankenstein de alta tecnología. Nos hemos acostumbrado a que las redes…

Procesado por IA desde Jiqizhixin (机器之心); editado por Hamidun News
Emu2 en Nature: científicos chinos encontraron el código único de la realidad
Fuente: Jiqizhixin (机器之心). Collage: Hamidun News.
◐ Escuchar artículo

Durante mucho tiempo, la inteligencia artificial moderna se parecía a un monstruo de Frankenstein de alta tecnología. Nos hemos acostumbrado a que las redes neuronales tengan diferentes "órganos" para diferentes sentidos: modelos de lenguaje como GPT se destacaban brillantemente con texto mediante autorregresión, prediciendo la siguiente palabra, mientras que generadores de imágenes como Midjourney o Stable Diffusion vivían en un mundo de difusión, extrayendo orden del caos de píxeles aleatorios. Esta división parecía fundamental e inmutable, como la diferencia entre lógica e imaginación.

Sin embargo, investigadores de la Academia Pekingesa de Inteligencia Artificial (BAAI) decidieron que este dualismo arquitectónico merecía quedarse en el pasado. Su nuevo trabajo sobre el modelo multimodal Emu2, recién publicado en la revista Nature, hace una afirmación audaz: para entender y crear este mundo basta con un único principio algorítmico. La esencia del avance reside en la unificación.

Los científicos lograron demostrar que cualquier información—ya sea un tratado filosófico, un vídeo de un gato corriendo o un esquema de microchip—puede reducirse a un único formato de token. En el sistema Emu2, una imagen ya no es un conjunto de píxeles en el sentido convencional. Se transforma en una secuencia de "palabras visuales" que la red neuronal aprende a predecir de la misma manera que predecimos el final de esta frase.

Este enfoque, llamado aprendizaje autorregresivo, durante mucho tiempo se consideró demasiado engorroso para gráficos. Pero los ingenieros chinos, usando un modelo con 37 mil millones de parámetros, demostraron que con el enfoque correcto, la autorregresión no solo iguala a la difusión en calidad, sino que la supera en flexibilidad. ¿Por qué romper algo que funcionaba lo suficientemente bien?

El problema de los sistemas actuales radica en sus "costuras". Cuando intentas amistad un cerebro textual con ojos visuales, debes construir puentes-adaptadores complejos, en los que inevitablemente se pierde significado y contexto. Emu2, sin embargo, posee multimodalidad inherente.

No traduce del lenguaje de las imágenes al lenguaje de las palabras—innately piensa en un lenguaje donde el píxel y la letra tienen igual valor. Esto permite que el modelo demuestre una eficiencia escalofriante en el aprendizaje en contexto. Puedes mostrarle un par de ejemplos de cómo editar una foto, e instantáneamente captará la lógica de la tarea sin ningún entrenamiento adicional.

Esta es precisamente la magia que alguna vez hizo de GPT-3 una sensación global, pero ahora se ha extendido por todo el espacio visual. El contexto de este evento no puede ser ignorado. La publicación en Nature es el signo de calidad más alto en el mundo científico, y que haya ido a BAAI habla por sí solo.

Mientras que gigantes occidentales como OpenAI o Google compiten en el sigilo de sus laboratorios, los investigadores chinos construyen metódicamente la base teórica para la próxima generación de IA. Emu2 efectivamente traza una línea bajo la era de las herramientas especializadas. Estamos entrando en una era de motores universales de predicción de la realidad.

Si todo a nuestro alrededor es una secuencia de datos, entonces ganará quien tenga el modelo que mejor prediga el siguiente elemento de esa secuencia, independientemente de su naturaleza. Por supuesto, la transición a la autorregresión pura requiere recursos computacionales colosales. Este es un juego para quienes tienen acceso ilimitado a GPUs y paciencia infinita en la sintonización de hiperparámetros.

Pero la historia de la tecnología nos enseña: la universalidad elegante siempre vence los parches especializados a largo plazo. Ya hemos visto cómo los transformadores "se comieron" las redes recurrentes en lingüística. Ahora estamos viendo cómo comienzan a absorber el mundo de la visión por computadora.

Esto no es solo otro modelo, es un manifiesto de una nueva pureza arquitectónica que obligará a muchos a reconsiderar sus mapas de ruta para los próximos años. Lo principal: Pekín ha asegurado oficialmente su posición como líder en la teoría fundamental de IA, demostrando que el futuro pertenece a los modelos autorregresivos unificados. ¿Significa esto que las redes neurales de difusión están destinadas a la pila de la historia, o encontrarán su nicho en tareas muy especializadas?

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…