MIT Technology Review→ оригинал

Micro1 توظف أشخاصاً في جميع أنحاء العالم لتدريب الإنسانيات بينما يحتاج سوق الذكاء الاصطناعي إلى اختبارات جديدة

مع تسارع سوق الإنسانيات، تدفع Micro1 و Scale AI و DoorDash بالفعل الأشخاص لتصوير المهام المنزلية العادية، من الكي إلى غسل الأطباق. هذه الفيديوهات ضرورية لتدريب

Micro1 توظف أشخاصاً في جميع أنحاء العالم لتدريب الإنسانيات بينما يحتاج سوق الذكاء الاصطناعي إلى اختبارات جديدة
Источник: MIT Technology Review. Коллаж: Hamidun News.

Рынок embodied AI упирается уже не только в железо, но и в человеческие данные: тысячи людей по всему миру снимают на видео, как они стирают, гладят и убирают дома, чтобы обучать гуманоидов. На этом фоне исследователи все громче говорят, что привычные тесты ИИ почти ничего не говорят о том, как такие системы поведут себя в реальной работе.

Как учат гуманоидов Одна из самых заметных компаний в этом новом слое рынка — Micro1.

Она нанимает контракторов более чем в 50 странах, включая Нигерию, Индию и Аргентину, чтобы те записывали бытовые действия от первого лица: складывали одежду, мыли посуду, протирали стол, наливали воду, открывали холодильник. Для этого люди крепят iPhone на голову и снимают короткие ролики с руками в кадре. Дальше видео проходят проверку, разметку и попадают в датасеты, которые покупают робототехнические компании.

Логика у этого простая: большим языковым моделям хватило интернета, а гуманоидным роботам нужен реальный физический мир. Симуляции помогают отрабатывать движения, но плохо передают хаос обычной квартиры: разный свет, тесные кухни, скользкие поверхности, десятки типов предметов и способов взаимодействия с ними. Поэтому на рынке появляются не только Micro1 и Scale AI, собравшая более 100 тысяч часов такого материала, но и новые каналы вроде DoorDash Tasks.

19 марта 2026 года DoorDash официально запустила пилот, где исполнителям платят за съемку бытовых действий и речевых записей для ИИ и робототехники. Даже сотни тысяч часов видео пока не выглядят пределом потребности рынка.

«Это займет больше времени, чем многие думают», — робототехник

Кен Голдберг.

Цена таких данных

Для многих исполнителей это неплохая подработка: ставка около 15 долларов в час в ряде стран выглядит конкурентной. Но работа быстро оказывается однообразной. Участникам нужно снова и снова снимать похожие действия, придумывать новые сценарии в пределах маленькой квартиры и следить, чтобы запись соответствовала инструкциям.

Один из работников в Дели рассказывал, что на пятнадцатиминутное полезное видео у него может уйти почти час — просто потому, что дома не так много разных задач для камеры. iPhone или другой совместимый смартфон крепят на уровне головы ролики записывают от первого лица, обычно по 1–2 минуты руки и объект должны оставаться в кадре почти все время нужны вариации света, комнат, поверхностей и предметов * лица, имена и другие личные данные стараются не показывать Главный вопрос здесь даже не рутина, а приватность. Даже если лицо не попадает в кадр, в видео остаются интерьер, лекарства на кухне, вещи детей, распорядок дня и соседи, случайно попавшие в фон.

При этом сами исполнители часто не знают, кому именно потом продаются их записи, как долго они хранятся и можно ли добиться удаления. Исследовательница Ясмин Коттури прямо говорит, что компании должны заранее объяснять людям, куда вообще может прийти такая технология и как это скажется на них в будущем.

Почему тесты ломаются

Параллельно с гонкой за данными усиливается и другой спор: как вообще измерять качество ИИ. Исследовательница Анджела Аристиду считает, что отрасль слишком долго жила в логике школьного экзамена, где модель сравнивают с человеком на изолированной задаче с правильным или неправильным ответом. В жизни так почти не бывает.

ИИ встраивают в команды, регламенты и длинные процессы, где важны не только точность и скорость, но и то, как система влияет на координацию людей, нагрузку, доверие и число ошибок на следующих шагах. Вместо этого Аристиду предлагает подход HAIC — Human–AI, Context-Specific Evaluation. Его идея в том, чтобы проверять не модель в вакууме, а работу системы внутри организации и на длинном горизонте.

В ее примерах медицинские ИИ могли хорошо выглядеть на тестах, но в больницах замедляли работу, потому что врачам приходилось подгонять их выводы под локальные стандарты отчетности и требования регуляторов. Такой подход сдвигает фокус сразу по нескольким линиям: от индивидуальной задачи к командной работе и рабочему процессу от разового теста к эффекту на длинной дистанции от голой точности к качеству координации и обнаружению ошибок от отдельного ответа к последствиям до и после его использования Для бизнеса это неудобная, но полезная мысль. Высокий балл в бенчмарке еще не означает, что инструмент ускорит больницу, склад, службу поддержки или гуманитарную организацию.

В одном из кейсов, который приводит Аристиду, систему оценивали 18 месяцев внутри реальных процессов и отдельно отслеживали, насколько легко люди замечают и исправляют ее ошибки. Только такая проверка показала, какие защитные механизмы вообще нужны до масштабного внедрения.

Что это значит В истории про домашних тренеров для роботов и в споре о

новых бенчмарках есть один общий вывод: ИИ-индустрия все меньше держится на красивых демо и все больше — на качестве скрытой инфраструктуры. Побеждать будут не только те, у кого эффектнее робот или выше тестовый балл, а те, кто сможет этично собирать реальные данные, внятно объяснять правила работы с ними и доказывать пользу системы внутри настоящих процессов, а не только на сцене.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…