AI-лаборатории платят XDOF за сбор обучающих данных для роботов — это грязная рутинная работа
Чтобы роботы научились двигаться и работать с объектами, нужны миллионы часов реальных демонстраций — так же, как LLM учились на интернете. Собирать эти…
AI-обработка оригинала TechCrunch; редакция Hamidun News
Физическому AI грозит та же проблема, что остановила бы языковые модели без накопленного человечеством интернета: нехватка обучающих данных. Пока лаборатории решают её вручную — и платят за это реальные деньги компаниям вроде XDOF.
Почему данных не хватает
Большие языковые модели научились думать на триллионах слов, которые человечество накопило в сети. Физическим роботам такого задела нет: движения, захваты, балансировка, обращение с хрупкими предметами — всё это нужно демонстрировать живьём, снова и снова, в десятках разных сценариев. Один час качественных демонстраций стоит больших усилий: оператор надевает экзоскелет или управляет роботом через джойстик, выполняя одно и то же движение сотни раз при разном освещении, с разными объектами, в разных позах.
Данные получаются дорогими, медленными и жёстко привязанными к физическому пространству. Интернет тут не поможет. Именно поэтому ведущие команды в области физического AI — от Physical Intelligence до лабораторий внутри Google DeepMind и разработчиков гуманоидных роботов — столкнулись с одной стеной: модели можно улучшать сколько угодно, но без достаточного объёма качественных демонстраций они не обучатся.
Что делает XDOF XDOF — одна из компаний, которых AI-лаборатории
привлекают на аутсорсинг этой работы. Они организуют весь процесс: набирают операторов, настраивают оборудование, следят за качеством разметки и масштабируют производство под нужды конкретных заказчиков. Модель напоминает ранние дни Scale AI, которая наняла армию аннотаторов для разметки текста и изображений.
Только теперь речь идёт о физическом труде в реальном пространстве. Типичный сеанс сбора данных выглядит так: Оператор управляет роботом вручную — система захватывает траектории движений и данные о силе Несколько камер одновременно фиксируют сцену с разных ракурсов Каждая попытка размечается: успех, неудача, граничный случай Сценарий повторяется при разном освещении, с разными объектами и в разных позах * Финальная проверка отсеивает дефектные демонстрации Такая работа не требует инженерного образования, но требует внимания, терпения и физической выносливости — это и есть та самая «грязная, неприглядная работа», о которой предупреждают в индустрии.
Кто платит и почему это важно
Масштабирование сбора данных упирается в физику: нельзя скачать миллионы роботизированных движений из сети, нельзя заменить их синтетикой без риска деградации модели. Аутсорсинг позволяет лабораториям сосредоточиться на архитектуре и обучении, пока специалисты занимаются рутиной. Вместе с этим возникает новый вид «скрытого труда» в AI-индустрии — невидимого широкой публике, но критически важного. По аналогии с контент-модерацией для LLM, рынок сбора роботизированных демонстраций быстро вырастет — и так же быстро окажется в центре дискуссий об условиях труда и стандартах качества.
Что это значит
Эпоха физического AI потребует такой же инфраструктуры сбора данных, какую создал интернет для языковых моделей. Компании, первыми выстроившие эффективные конвейеры сбора и разметки физических демонстраций, получат структурное преимущество — независимо от того, кто разрабатывает сами модели.
Хотите не читать про ИИ, а внедрить его?
«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.
Главное из мира ИИ — раз в неделю
7 ключевых событий недели, отобранных вручную. Без шума, репостов и пресс-релизов.
Готово! Проверьте почту — мы отправили подтверждение.