36Kr (36氪)→ original

Unitree UnifoLM-VLA-0: los robots chinos aprenden a pensar con las manos

Durante mucho tiempo hemos visto los robots humanoides como impresionantes piezas de maquinaria que podían hacer acrobacias pero entraban en pánico ante un…

Procesado por IA desde 36Kr (36氪); editado por Hamidun News
Unitree UnifoLM-VLA-0: los robots chinos aprenden a pensar con las manos
Fuente: 36Kr (36氪). Collage: Hamidun News.
◐ Escuchar artículo

Durante mucho tiempo hemos visto los robots humanoides como impresionantes piezas de maquinaria que podían hacer acrobacias pero entraban en pánico ante un simple picaporte. El problema no estaba en los motores, sino en la "cabeza". Y ahora Unitree, una empresa que ya nos ha acostumbrado a robots accesibles, ha decidido tomarse la inteligencia artificial en serio.

Han liberado el código fuente de UnifoLM-VLA-0, y este evento podría cambiar las reglas del juego en la industria más rápido de lo que parece a primera vista. Finalmente estamos transitando de redes neuronales simples que solo hablan, a modelos como VLA (Vision-Language-Action), capaces de controlar un cuerpo físico en el espacio real. Para entender la magnitud, debemos recordar cómo aprendían los robots antes.

Generalmente era lógica de software rígida o aprendizaje por refuerzo para una tarea específica y estrecha. Si le enseñabas a un robot a abrir un refrigerador, eso era todo lo que podía hacer. UnifoLM-VLA-0 funciona de manera diferente.

Es un descendiente de grandes modelos de lenguaje que ha pasado por un fine-tuning en datos específicos de interacción física. El resultado es un "cerebro encarnado" que entiende el contexto. No solo ve una manzana en la mesa, entiende cómo agarrarla, con qué fuerza apretarla y dónde colocarla, basándose en el comando textual del usuario.

Lo más irónico aquí es que Unitree eligió el camino de la apertura. Mientras que los gigantes occidentales e incluso algunos competidores chinos construyen "jardines amurallados", ocultando la arquitectura de sus sistemas de control, Unitree pone sus cartas sobre la mesa. Este es un cálculo estratégico.

Al liberar el código fuente de UnifoLM-VLA-0, esencialmente están invitando a miles de desarrolladores en todo el mundo a probar, mejorar y adaptar su modelo a una amplia variedad de hardware. Este es un movimiento clásico del manual de historia del software: si no puedes vencer a todos solo, conviértete en el estándar para todos. Si mañana cada segundo proyecto de investigación en robótica utiliza los cerebros de Unitree, la cuestión del liderazgo industrial se resolverá por sí sola.

Técnicamente, el modelo UnifoLM-VLA-0 intenta cerrar la brecha entre la comprensión visual (VLM) y la acción real. Los modelos ordinarios a menudo alucinen o no entiendan las leyes de la física — pueden "decir" que levantaron una taza, pero su mano virtual la atravesará. La nueva arquitectura de Unitree tiene como objetivo que el robot posea lo que los ingenieros llaman "sentido común físico".

Este es el conocimiento de que los objetos tienen peso, fricción e inercia. Sin esto, los humanoides seguirían siendo juguetes caros de exposición, capaces solo de saludar a los transeúntes en un ciclo pregrabado. ¿Qué significa esto para nosotros?

Probablemente veremos un salto abrupto en las capacidades de los robots domésticos y de almacén en el próximo año o dos. Cuando el software se convierte en conocimiento común, el progreso se acelera exponencialmente. Ya lo vimos con modelos de lenguaje después del lanzamiento de LLaMA.

Ahora le toca al mundo físico. Por supuesto, un robot mayordomo completamente funcional aún está lejos, pero el fundamento en forma de un "cerebro" abierto ya ha sido establecido. Ahora depende de la comunidad, que debe enseñar a este cerebro no solo a entender comandos, sino también a no romper todo en el proceso de ejecutarlos.

El punto clave: Unitree está apostando por código abierto, intentando convertirse en el "Android" del mundo de la robótica. ¿Podrán los sistemas propietarios cerrados como Tesla Optimus resistir la competencia con la inteligencia colectiva de los desarrolladores?

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…