TechCrunch→ оригинал

AI-лаборатории платят XDOF за сбор обучающих данных для роботов — это грязная рутинная работа

Чтобы роботы научились двигаться и работать с объектами, нужны миллионы часов реальных демонстраций — так же, как LLM учились на интернете. Собирать эти…

AI-обработка оригинала TechCrunch; редакция Hamidun News
AI-лаборатории платят XDOF за сбор обучающих данных для роботов — это грязная рутинная работа
Источник: TechCrunch. Коллаж: Hamidun News.
◐ Слушать статью

Физическому AI грозит та же проблема, что остановила бы языковые модели без накопленного человечеством интернета: нехватка обучающих данных. Пока лаборатории решают её вручную — и платят за это реальные деньги компаниям вроде XDOF.

Почему данных не хватает

Большие языковые модели научились думать на триллионах слов, которые человечество накопило в сети. Физическим роботам такого задела нет: движения, захваты, балансировка, обращение с хрупкими предметами — всё это нужно демонстрировать живьём, снова и снова, в десятках разных сценариев. Один час качественных демонстраций стоит больших усилий: оператор надевает экзоскелет или управляет роботом через джойстик, выполняя одно и то же движение сотни раз при разном освещении, с разными объектами, в разных позах.

Данные получаются дорогими, медленными и жёстко привязанными к физическому пространству. Интернет тут не поможет. Именно поэтому ведущие команды в области физического AI — от Physical Intelligence до лабораторий внутри Google DeepMind и разработчиков гуманоидных роботов — столкнулись с одной стеной: модели можно улучшать сколько угодно, но без достаточного объёма качественных демонстраций они не обучатся.

Что делает XDOF XDOF — одна из компаний, которых AI-лаборатории

привлекают на аутсорсинг этой работы. Они организуют весь процесс: набирают операторов, настраивают оборудование, следят за качеством разметки и масштабируют производство под нужды конкретных заказчиков. Модель напоминает ранние дни Scale AI, которая наняла армию аннотаторов для разметки текста и изображений.

Только теперь речь идёт о физическом труде в реальном пространстве. Типичный сеанс сбора данных выглядит так: Оператор управляет роботом вручную — система захватывает траектории движений и данные о силе Несколько камер одновременно фиксируют сцену с разных ракурсов Каждая попытка размечается: успех, неудача, граничный случай Сценарий повторяется при разном освещении, с разными объектами и в разных позах * Финальная проверка отсеивает дефектные демонстрации Такая работа не требует инженерного образования, но требует внимания, терпения и физической выносливости — это и есть та самая «грязная, неприглядная работа», о которой предупреждают в индустрии.

Кто платит и почему это важно

Масштабирование сбора данных упирается в физику: нельзя скачать миллионы роботизированных движений из сети, нельзя заменить их синтетикой без риска деградации модели. Аутсорсинг позволяет лабораториям сосредоточиться на архитектуре и обучении, пока специалисты занимаются рутиной. Вместе с этим возникает новый вид «скрытого труда» в AI-индустрии — невидимого широкой публике, но критически важного. По аналогии с контент-модерацией для LLM, рынок сбора роботизированных демонстраций быстро вырастет — и так же быстро окажется в центре дискуссий об условиях труда и стандартах качества.

Что это значит

Эпоха физического AI потребует такой же инфраструктуры сбора данных, какую создал интернет для языковых моделей. Компании, первыми выстроившие эффективные конвейеры сбора и разметки физических демонстраций, получат структурное преимущество — независимо от того, кто разрабатывает сами модели.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Хотите не читать про ИИ, а внедрить его?

«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.

Что вы думаете?
Загружаем комментарии…