TechCrunch→ original

AI-лаборатории платят XDOF за сбор обучающих данных для роботов — это грязная рутинная работа

Чтобы роботы научились двигаться и работать с объектами, нужны миллионы часов реальных демонстраций — так же, как LLM учились на интернете. Собирать эти…

Procesado por IA desde TechCrunch; editado por Hamidun News
AI-лаборатории платят XDOF за сбор обучающих данных для роботов — это грязная рутинная работа
Fuente: TechCrunch. Collage: Hamidun News.
◐ Escuchar artículo

La IA física enfrenta el mismo problema que habría detenido los modelos de lenguaje sin el internet acumulado por la humanidad: la falta de datos de entrenamiento. Por ahora, los laboratorios lo están resolviendo manualmente — y pagando dinero real a empresas como XDOF por ello.

Por qué no hay suficientes datos

Los grandes modelos de lenguaje aprendieron a pensar en billones de palabras que la humanidad ha acumulado en línea. Los robots físicos no tienen ese recurso: movimientos, agarre, equilibrio, manejo de objetos frágiles — todo esto necesita ser demostrado en vivo, una y otra vez, en docenas de escenarios diferentes. Una hora de demostraciones de calidad requiere esfuerzo considerable: un operador se pone un exoesqueleto o controla un robot mediante un joystick, realizando el mismo movimiento cientos de veces bajo diferentes iluminaciones, con diferentes objetos, en diferentes posturas.

Los datos se vuelven caros, lentos y rígidamente vinculados al espacio físico. Internet no ayudará aquí. Es por eso que los equipos líderes en IA física — desde Physical Intelligence hasta laboratorios dentro de Google DeepMind y desarrolladores de robots humanoides — han chocado con una pared: los modelos pueden mejorarse infinitamente, pero sin volumen suficiente de demostraciones de calidad, no aprenderán.

Qué hace XDOF

XDOF es una de las empresas que los laboratorios de IA contratan para externalizar este trabajo. Organizan todo el proceso: contratan operadores, configuran equipos, supervisan la calidad de anotaciones y escalan la producción según las necesidades de clientes específicos. El modelo recuerda los primeros días de Scale AI, que contrató un ejército de anotadores para marcar texto e imágenes. Solo que ahora se trata de trabajo físico en espacio real.

Una sesión típica de recopilación de datos se ve así:

  • Un operador controla el robot manualmente — el sistema captura trayectorias de movimiento y datos de fuerza
  • Varias cámaras capturan simultáneamente la escena desde diferentes ángulos
  • Cada intento se marca: éxito, fracaso, caso límite
  • El escenario se repite con diferentes iluminaciones, con diferentes objetos y en diferentes posturas
  • Verificación final filtra demostraciones defectuosas

Este trabajo no requiere educación en ingeniería, pero sí requiere atención, paciencia y resistencia física — este es precisamente el "trabajo sucio e indeseable" del que advierte la industria.

Quién paga y por qué importa

Escalar la recopilación de datos choca contra la física: no se pueden descargar millones de movimientos robóticos de la red, no se pueden reemplazar con datos sintéticos sin riesgo de degradación del modelo. La externalización permite que los laboratorios se enfoquen en arquitectura y entrenamiento mientras los especialistas manejan la rutina. Junto con esto, surge un nuevo tipo de "trabajo oculto" en la industria de IA — invisible al público en general pero críticamente importante. Por analogía con la moderación de contenido para LLMs, el mercado de recopilación de demostraciones robóticas crecerá rápidamente — y rápidamente se convertirá en el centro de discusiones sobre condiciones de trabajo y estándares de calidad.

Qué significa esto

La era de la IA física requerirá la misma infraestructura de recopilación de datos que internet creó para modelos de lenguaje. Las empresas que primero construyan canales eficientes para recopilar y anotar demostraciones físicas obtendrán una ventaja estructural — independientemente de quién desarrolle los modelos mismos.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Necesitas IA funcionando dentro de tu empresa — no solo en tu feed de noticias?

Construyo IA en producción para empresas — CRM a medida, herramientas internas, agentes autónomos, automatización de procesos. Tuya, adaptada a tu proceso, sin coste por usuario. Creado por Zhemal Khamidun, CPO de AlpinaGPT (plataforma de IA, 6.000+ usuarios).

¿Qué te parece?
Cargando comentarios…