Xiaomi abre el código fuente de su primer modelo VLA para robots
Xiaomi dio un paso importante en el desarrollo de la robótica al abrir el código fuente de su primer modelo VLA (Vision-Language-Action), Xiaomi-Robotics-0…
Procesado por IA desde 36Kr (36氪); editado por Hamidun News
Xiaomi abre el código fuente de su primer modelo VLA para robots
Xiaomi abre el código fuente de su primer modelo VLA y cambia las reglas del juego en robótica
Xiaomi ha dado un paso decisivo en el desarrollo de sistemas autónomos al abrir el código fuente de Xiaomi-Robotics-0 — su primer modelo Vision-Language-Action para robots. El anuncio, realizado el 12 de febrero, significa que los desarrolladores de todo el mundo tendrán acceso a modelos con 4,7 mil millones de parámetros que combinan percepción visual, comprensión del lenguaje natural y control de robots en tiempo real. Esto no es simplemente otro proyecto de código abierto — es una señal de que el gigante tecnológico chino apuesta seriamente por el desarrollo de IA multimodal para automatización física y está dispuesto a compartir sus logros con la comunidad global de desarrolladores.
Hasta ahora, el campo de los modelos VLA ha permanecido como territorio de pocos elegidos. Las soluciones más poderosas en esta área fueron creadas por empresas como Tesla con su aparato de manipulación de objetos y Google DeepMind con sus experimentos de robótica. Estos modelos aprenden a conectar lo que ven los robots con comandos en lenguaje natural y acciones específicas en tiempo real.
El problema es que entrenar tales sistemas requiere un volumen masivo de datos de vídeo, recursos computacionales potentes y una comprensión profunda de la mecánica del robot. La apertura de Xiaomi cambia esta dinámica. Al lanzar el código fuente y los pesos de su modelo, la empresa democratiza el acceso a una tecnología que anteriormente era prerrogativa de grandes corporaciones con presupuestos enormes.
Xiaomi-Robotics-0 está diseñado para funcionar de manera eficiente y práctica. Un modelo con 4,7 mil millones de parámetros es el término medio entre velocidad y rendimiento. Es lo suficientemente compacto para funcionar en plataformas de robots con capacidades computacionales limitadas, pero tiene suficiente potencia para resolver tareas complejas de manipulación.
La arquitectura combina tres componentes clave: un codificador visual que analiza las imágenes de las cámaras del robot; un componente de lenguaje que procesa instrucciones del usuario en lenguaje natural; y un módulo de acción que genera comandos de control en tiempo real. Esta integración es crítica porque un robot no solo debe entender la tarea (por ejemplo, "toma el cubo rojo"), sino también traducirla inmediatamente en coordenadas de movimiento y fuerza de agarre.
La estrategia de Xiaomi de abrir el código tiene una lógica clara. En el ecosistema de la robótica, la competencia se desarrolla no tanto a nivel de modelos, sino a nivel de hardware, software y ecosistema de aplicaciones. Al abrir el modelo VLA, la empresa permite que miles de desarrolladores experimenten con nuevos casos de uso y adapten la tecnología a sus propios robots. Esto crea un efecto de valor de red: cuantas más personas mejoren el modelo y encuentren nuevas aplicaciones, mayor es la probabilidad de que las soluciones que surjan de esta comunidad funcionen con los desarrollos internos de Xiaomi.
Para la industria, esto significa desarrollo acelerado. Las startups, universidades y corporaciones podrán experimentar con control multimodal de robots sin empezar desde cero. El modelo ya está entrenado en datos reales y tiene una arquitectura razonable que se puede adaptar para diferentes plataformas. Esto es especialmente importante en un momento en que la robótica está en el umbral de la transición de los laboratorios a la producción y la vida cotidiana.
El movimiento de Xiaomi demuestra una tendencia más amplia: los líderes en IA entienden cada vez más que abrir parte de sus desarrollos crea un ecosistema más fuerte que el control estricto. Esto no significa que la empresa esté abandonando sus robots — al contrario, permanecerán cerrados y propietarios. Pero el modelo VLA se convierte en la base sobre la cual crecerá toda una industria, y Xiaomi ya está colocando los cimientos en su base hoy.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.