Habr AI→ оригинал

Niantic Montre Comment Pokémon Go Transforme les Actions des Joueurs en Datasets pour l'IA

Niantic utilise Pokémon Go non seulement comme un jeu, mais aussi comme un mécanisme de collecte de données spatiales. reCAPTCHA, Strava Metro, Waze et même les

Niantic Montre Comment Pokémon Go Transforme les Actions des Joueurs en Datasets pour l'IA
Источник: Habr AI. Коллаж: Hamidun News.

Главный вывод прост: самый ценный датасет для ИИ часто собирается не в лаборатории, а в тот момент, когда человек просто играет, едет по городу, вводит капчу или строит маршрут в привычном приложении. Кейс Pokémon Go показывает это особенно наглядно. Niantic годами строила вокруг игры инфраструктуру дополненной реальности: визуальное позиционирование, 3D-карты локаций и сбор изображений реального мира через смартфоны пользователей.

Сначала это выглядело как удобный способ сканировать окружающую среду, но затем превратилось в полноценную систему создания пространственных датасетов. В результате Pokémon Go стала не просто мобильной игрой с геометками, а средой, где действия миллионов людей помогают моделям лучше понимать физическое пространство. Позже этот массив начали использовать для больших геопространственных моделей и систем spatial AI, которым нужно не просто распознавать картинку, а соотносить конкретную точку с глобальной картой местности.

Поэтому и партнерство Niantic с Coco Robotics выглядит логично: технологии, созданные для AR-сценариев, пригодились роботам-доставщикам, которым тоже нужно уверенно ориентироваться в городе. Механика здесь универсальна. Пользователь делает полезное для себя действие — сканирует объект, объезжает пробку, едет на велосипеде знакомым маршрутом или подтверждает, что он не бот, — а система параллельно получает структурированные наблюдения: изображения с привязкой к координатам, траектории движения, дорожные события или человеческие ответы там, где автоматика ошибается.

После очистки и агрегации все это превращается в датасеты для зрения, навигации, планирования и принятия решений. Классический пример такого подхода появился задолго до бума генеративного ИИ: reCAPTCHA. Для пользователя это была простая проверка, но на деле люди помогали системе распознавать слова, с которыми не справлялся OCR при оцифровке старых книг и газет.

Еще в 2008 году reCAPTCHA работала более чем на 40 тысячах сайтов и помогла корректно распознать свыше 440 миллионов слов. Это ранняя, но очень чистая демонстрация того, как рутинное действие становится частью производственного контура машинного обучения. В городских сервисах этот принцип становится еще важнее, потому что данные напрямую описывают физический мир.

Strava Metro агрегирует и обезличивает треки пользователей, чтобы городские планировщики лучше понимали, как люди реально перемещаются по улицам, а не только как нарисована дорожная сеть. Waze в живом режиме собирает информацию о пробках, авариях, ремонтах и перекрытиях, превращая карту из статичного слоя в почти непрерывный поток событий. Для навигационных ИИ, робототехники и доставки такие данные особенно ценны: они описывают не теоретический город, а город в движении.

При этом есть и ограничение: аудитория конкретного сервиса не всегда совпадает со структурой всего населения, поэтому даже полезный датасет может быть неполностью репрезентативным и требовать осторожной интерпретации. Игры тоже давно стали средой для обучения ИИ, даже если они никак не связаны с улицами и картами. В StarCraft II исследователи используют реплеи человеческих матчей как записи сложных решений в условиях неполной информации, где нужно распределять ресурсы, менять план и реагировать на поведение соперника.

В одном из массивов после фильтрации осталось около 1,4 миллиона игр, 2,8 миллиона эпизодов и 3,5 миллиарда обучающих наблюдений — масштаб, который сложно получить вручную в любой другой среде. А GTA V и похожие виртуальные миры дают уже синтетические сцены для компьютерного зрения и навигации: там можно быстро менять погоду, освещение, плотность трафика и положение камеры, собирая большие наборы данных без дорогих выездов и ручной разметки. Поэтому современный ИИ учится либо на следах человеческого поведения, либо на реалистичных цифровых мирах, специально приспособленных под сбор данных.

Что это значит на практике: конкуренция в ИИ все сильнее зависит не только от качества модели, но и от того, кто сумел встроить сбор данных в естественное поведение пользователя. Побеждает не обязательно тот, кто громче всех говорит о новой нейросети, а тот, кто создал сервис, где люди сами, почти незаметно для себя, производят данные для следующего поколения ИИ.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…