Guardian→ оригинал

Kled AI and other services buy people's personal data to train models

A new shadow market for AI data has emerged: people record footsteps on the street, city noise, voices, and even private calls to earn dollars. For some, it mea

Kled AI and other services buy people's personal data to train models
Источник: Guardian. Коллаж: Hamidun News.

Вокруг обучения AI быстро растёт новый рынок: обычные люди продают компаниям куски своей повседневной жизни — голос, видео с улиц, переписки и телефонные разговоры. Для одних это способ купить продукты или закрыть счета, для платформ — источник данных, которых всё сильнее не хватает для новых моделей.

Как это выглядит

Участники таких платформ выполняют простые задания из реальной жизни. 27-летний житель Кейптауна Якобус Лоу записал прогулку по району и получил $14 — примерно половину недельного бюджета на продукты. В индийском Ранчи студент Сахил Тигга зарабатывает больше $100 в месяц, записывая городской шум и собственный голос для Silencio. А в Чикаго 18-летний Рамелио Хилл продал Neon Mobile около 11 часов личных разговоров и получил примерно $200.

  • Видео прогулок и навигации по городу Фоновый шум улиц, кафе и транспорта Записи голоса и многоязычные диалоги Личные звонки и текстовые переписки Лицо и голос для AI-клонов Для многих это не экзотический заработок, а прямой ответ на нехватку денег. В странах со слабой валютой и высоким уровнем безработицы оплата в долларах может быть выгоднее местной работы. Сам Лоу открыто говорил, что выплаты в USD ощущаются совсем иначе, чем кажется со стороны. Доход нестабилен и не покрывает все расходы, но даёт возможность оплачивать еду, обучение или бытовые счета без долгого поиска формальной занятости.

Почему AI платит У AI-компаний заканчиваются качественные открытые

данные, на которых можно безопасно обучать модели. Крупные наборы текстов всё чаще ограничивают использование для генеративного AI, а синтетические данные не всегда спасают: если модель учится на собственных ответах, качество может деградировать. Поэтому платформы вроде Kled AI, Silencio, Luel AI и ElevenLabs покупают то, что пока трудно заменить, — человеческий контекст: живую речь, уникальные звуки, поведение в городе, мимику и интонации.

«Человеческие данные пока остаются золотым стандартом».

Экономисты считают, что такой формат занятости будет расти. Компании платят людям не только потому, что им нужен реалистичный материал, но и потому, что это юридически чище, чем бесконечно спорить из-за скрейпинга интернета и авторских прав. Для исполнителей это прагматичный обмен приватности на быстрые деньги. Для платформ — способ закрыть дефицит данных, на котором строятся будущие продукты, от голосовых ассистентов до навигации, распознавания лиц и разговорных ботов.

Цена быстрых денег

Главная проблема в том, что многие соглашения дают платформам почти максимальные права на загруженные материалы: бессрочное или трудноотзываемое использование, передачу партнёрам, создание производных работ и отсутствие новых выплат, даже если данные будут приносить прибыль годами. Иначе говоря, 20 минут записи голоса сегодня могут потом стать голосом AI-оператора, а человек больше не увидит ни цента и не сможет эффективно отозвать согласие. Риски уже не теоретические.

Neon Mobile после запуска отключили из-за уязвимости, которая открывала доступ к телефонным номерам, записям звонков и расшифровкам пользователей. Ещё один пример — нью-йоркский актёр, который продал своё лицо и голос AI-видеосервису за $1 000, а потом увидел ролики с собственной цифровой копией, набирающие миллионы просмотров и рекламирующие сомнительные медицинские добавки. Объяснять знакомым, что на видео не он, оказалось отдельной проблемой.

Основатель Kled AI утверждает, что его компания ограничивает использование данных задачами обучения и исследований и проверяет покупателей, чтобы не работать с порноиндустрией и структурами с сомнительными целями. Но юристы и исследователи приватности всё равно предупреждают: пользователь почти никогда не понимает, где именно окажутся его лицо, голос или поведенческие паттерны. Даже если имя и геолокацию удалили, биометрические данные по своей природе анонимизировать по-настоящему сложно.

Что это значит

Рынок данных для обучения AI превращает личность в сырьё: не только тексты и картинки, но и голос, привычки, маршруты, разговоры. Для пользователей это быстрые деньги здесь и сейчас, для платформ — долгосрочный актив, который можно переиспользовать годами. Чем сильнее дефицит качественных данных, тем чаще AI-компании будут покупать не контент, а самих людей как источник этого контента.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…