Guardian→ оригинал

Kled AI и другие сервисы скупают личные данные людей для обучения моделей

Появился новый теневой рынок данных для AI: люди записывают шаги по улице, городской шум, голос и даже личные звонки, чтобы заработать в долларах. Для одних это

Kled AI и другие сервисы скупают личные данные людей для обучения моделей
Источник: Guardian. Коллаж: Hamidun News.

Вокруг обучения AI быстро растёт новый рынок: обычные люди продают компаниям куски своей повседневной жизни — голос, видео с улиц, переписки и телефонные разговоры. Для одних это способ купить продукты или закрыть счета, для платформ — источник данных, которых всё сильнее не хватает для новых моделей.

Как это выглядит

Участники таких платформ выполняют простые задания из реальной жизни. 27-летний житель Кейптауна Якобус Лоу записал прогулку по району и получил $14 — примерно половину недельного бюджета на продукты. В индийском Ранчи студент Сахил Тигга зарабатывает больше $100 в месяц, записывая городской шум и собственный голос для Silencio. А в Чикаго 18-летний Рамелио Хилл продал Neon Mobile около 11 часов личных разговоров и получил примерно $200.

  • Видео прогулок и навигации по городу Фоновый шум улиц, кафе и транспорта Записи голоса и многоязычные диалоги Личные звонки и текстовые переписки Лицо и голос для AI-клонов Для многих это не экзотический заработок, а прямой ответ на нехватку денег. В странах со слабой валютой и высоким уровнем безработицы оплата в долларах может быть выгоднее местной работы. Сам Лоу открыто говорил, что выплаты в USD ощущаются совсем иначе, чем кажется со стороны. Доход нестабилен и не покрывает все расходы, но даёт возможность оплачивать еду, обучение или бытовые счета без долгого поиска формальной занятости.

Почему AI платит У AI-компаний заканчиваются качественные открытые

данные, на которых можно безопасно обучать модели. Крупные наборы текстов всё чаще ограничивают использование для генеративного AI, а синтетические данные не всегда спасают: если модель учится на собственных ответах, качество может деградировать. Поэтому платформы вроде Kled AI, Silencio, Luel AI и ElevenLabs покупают то, что пока трудно заменить, — человеческий контекст: живую речь, уникальные звуки, поведение в городе, мимику и интонации.

«Человеческие данные пока остаются золотым стандартом».

Экономисты считают, что такой формат занятости будет расти. Компании платят людям не только потому, что им нужен реалистичный материал, но и потому, что это юридически чище, чем бесконечно спорить из-за скрейпинга интернета и авторских прав. Для исполнителей это прагматичный обмен приватности на быстрые деньги. Для платформ — способ закрыть дефицит данных, на котором строятся будущие продукты, от голосовых ассистентов до навигации, распознавания лиц и разговорных ботов.

Цена быстрых денег

Главная проблема в том, что многие соглашения дают платформам почти максимальные права на загруженные материалы: бессрочное или трудноотзываемое использование, передачу партнёрам, создание производных работ и отсутствие новых выплат, даже если данные будут приносить прибыль годами. Иначе говоря, 20 минут записи голоса сегодня могут потом стать голосом AI-оператора, а человек больше не увидит ни цента и не сможет эффективно отозвать согласие. Риски уже не теоретические.

Neon Mobile после запуска отключили из-за уязвимости, которая открывала доступ к телефонным номерам, записям звонков и расшифровкам пользователей. Ещё один пример — нью-йоркский актёр, который продал своё лицо и голос AI-видеосервису за $1 000, а потом увидел ролики с собственной цифровой копией, набирающие миллионы просмотров и рекламирующие сомнительные медицинские добавки. Объяснять знакомым, что на видео не он, оказалось отдельной проблемой.

Основатель Kled AI утверждает, что его компания ограничивает использование данных задачами обучения и исследований и проверяет покупателей, чтобы не работать с порноиндустрией и структурами с сомнительными целями. Но юристы и исследователи приватности всё равно предупреждают: пользователь почти никогда не понимает, где именно окажутся его лицо, голос или поведенческие паттерны. Даже если имя и геолокацию удалили, биометрические данные по своей природе анонимизировать по-настоящему сложно.

Что это значит

Рынок данных для обучения AI превращает личность в сырьё: не только тексты и картинки, но и голос, привычки, маршруты, разговоры. Для пользователей это быстрые деньги здесь и сейчас, для платформ — долгосрочный актив, который можно переиспользовать годами. Чем сильнее дефицит качественных данных, тем чаще AI-компании будут покупать не контент, а самих людей как источник этого контента.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…