Habr AI→ оригинал

نيانتك تكشف كيف تحول Pokémon Go تصرفات اللاعبين إلى مجموعات بيانات للذكاء الاصطناعي

تستخدم نيانتك Pokémon Go ليس فقط كلعبة، بل أيضاً كآلية لجمع البيانات المكانية. تعمل reCAPTCHA و Strava Metro و Waze وحتى إعادة تشغيل StarCraft II منذ فترة طويلة

نيانتك تكشف كيف تحول Pokémon Go تصرفات اللاعبين إلى مجموعات بيانات للذكاء الاصطناعي
Источник: Habr AI. Коллаж: Hamidun News.

Главный вывод прост: самый ценный датасет для ИИ часто собирается не в лаборатории, а в тот момент, когда человек просто играет, едет по городу, вводит капчу или строит маршрут в привычном приложении. Кейс Pokémon Go показывает это особенно наглядно. Niantic годами строила вокруг игры инфраструктуру дополненной реальности: визуальное позиционирование, 3D-карты локаций и сбор изображений реального мира через смартфоны пользователей.

Сначала это выглядело как удобный способ сканировать окружающую среду, но затем превратилось в полноценную систему создания пространственных датасетов. В результате Pokémon Go стала не просто мобильной игрой с геометками, а средой, где действия миллионов людей помогают моделям лучше понимать физическое пространство. Позже этот массив начали использовать для больших геопространственных моделей и систем spatial AI, которым нужно не просто распознавать картинку, а соотносить конкретную точку с глобальной картой местности.

Поэтому и партнерство Niantic с Coco Robotics выглядит логично: технологии, созданные для AR-сценариев, пригодились роботам-доставщикам, которым тоже нужно уверенно ориентироваться в городе. Механика здесь универсальна. Пользователь делает полезное для себя действие — сканирует объект, объезжает пробку, едет на велосипеде знакомым маршрутом или подтверждает, что он не бот, — а система параллельно получает структурированные наблюдения: изображения с привязкой к координатам, траектории движения, дорожные события или человеческие ответы там, где автоматика ошибается.

После очистки и агрегации все это превращается в датасеты для зрения, навигации, планирования и принятия решений. Классический пример такого подхода появился задолго до бума генеративного ИИ: reCAPTCHA. Для пользователя это была простая проверка, но на деле люди помогали системе распознавать слова, с которыми не справлялся OCR при оцифровке старых книг и газет.

Еще в 2008 году reCAPTCHA работала более чем на 40 тысячах сайтов и помогла корректно распознать свыше 440 миллионов слов. Это ранняя, но очень чистая демонстрация того, как рутинное действие становится частью производственного контура машинного обучения. В городских сервисах этот принцип становится еще важнее, потому что данные напрямую описывают физический мир.

Strava Metro агрегирует и обезличивает треки пользователей, чтобы городские планировщики лучше понимали, как люди реально перемещаются по улицам, а не только как нарисована дорожная сеть. Waze в живом режиме собирает информацию о пробках, авариях, ремонтах и перекрытиях, превращая карту из статичного слоя в почти непрерывный поток событий. Для навигационных ИИ, робототехники и доставки такие данные особенно ценны: они описывают не теоретический город, а город в движении.

При этом есть и ограничение: аудитория конкретного сервиса не всегда совпадает со структурой всего населения, поэтому даже полезный датасет может быть неполностью репрезентативным и требовать осторожной интерпретации. Игры тоже давно стали средой для обучения ИИ, даже если они никак не связаны с улицами и картами. В StarCraft II исследователи используют реплеи человеческих матчей как записи сложных решений в условиях неполной информации, где нужно распределять ресурсы, менять план и реагировать на поведение соперника.

В одном из массивов после фильтрации осталось около 1,4 миллиона игр, 2,8 миллиона эпизодов и 3,5 миллиарда обучающих наблюдений — масштаб, который сложно получить вручную в любой другой среде. А GTA V и похожие виртуальные миры дают уже синтетические сцены для компьютерного зрения и навигации: там можно быстро менять погоду, освещение, плотность трафика и положение камеры, собирая большие наборы данных без дорогих выездов и ручной разметки. Поэтому современный ИИ учится либо на следах человеческого поведения, либо на реалистичных цифровых мирах, специально приспособленных под сбор данных.

Что это значит на практике: конкуренция в ИИ все сильнее зависит не только от качества модели, но и от того, кто сумел встроить сбор данных в естественное поведение пользователя. Побеждает не обязательно тот, кто громче всех говорит о новой нейросети, а тот, кто создал сервис, где люди сами, почти незаметно для себя, производят данные для следующего поколения ИИ.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…