The Verge→ оригинал

The Atlantic открыл поиск по 21 миллиону треков, использованных для обучения ИИ

Журналист The Atlantic обнаружил четыре датасета с музыкой для обучения ИИ-моделей — суммарно 21 миллион треков. Google и Stability AI подтвердили в научных…

AI-обработка оригинала The Verge; редакция Hamidun News
The Atlantic открыл поиск по 21 миллиону треков, использованных для обучения ИИ
Источник: The Verge. Коллаж: Hamidun News.
◐ Слушать статью

Журналист The Atlantic Алекс Рейснер опубликовал результаты расследования: он выявил четыре датасета с музыкой, которую технологические компании использовали для обучения генеративных ИИ-моделей. Более того — сделал все четыре базы доступными для публичного поиска. Теперь любой может проверить, попали ли его треки в тренировочные данные.

Что нашёл

Рейснер Два крупнейших датасета поражают масштабом: один содержит 12 миллионов треков, второй — 9 миллионов. Суммарно это 21 миллион музыкальных файлов только в двух базах. Ещё два датасета скромнее, но всё равно значительны: каждый включает более 100 000 записей. В совокупности речь о колоссальном объёме контента — большей части музыкального наследия, какое только можно собрать автоматически. Все четыре набора данных скачивались тысячи раз. Установить точных пользователей невозможно, но Google и Stability AI в своих научных публикациях официально подтвердили, что работали с этими данными. Это документальное свидетельство: компании с многомиллиардной капитализацией опирались на те же источники, которые теперь стали публичными.

Откуда берётся эта музыка

Источники датасетов различаются по правовому статусу — и здесь начинается самое важное: Free Music Archive — бесплатен для личного прослушивания, но коммерческое использование и создание производных произведений ограничено Часть треков опубликована под лицензиями Creative Commons, однако конкретные условия у каждого трека разные Некоторые материалы защищены стандартным авторским правом — без исключений и оговорок Все базы были технически доступны для загрузки без каких-либо ограничений * Ни одна ИИ-компания публично не раскрывала точный состав своих музыкальных тренировочных наборов Разрыв между «технически доступно для скачивания» и «юридически можно использовать для коммерческого обучения ИИ» — именно то правовое пространство, в котором сейчас разворачиваются судебные иски по всему миру.

Инструмент для правообладателей The Atlantic запустил публичный поисковик по всем четырём базам.

Любой музыкант, продюсер, лейбл или издательство может проверить своё имя или названия треков и получить ответ: был ли этот контент частью тренировочного массива. Это важно с практической точки зрения. Иски к ИИ-компаниям — Suno, Udio, OpenAI, Stability AI и другим — уже рассматриваются в судах, однако у истцов до сих пор не было надёжного способа доказать факт использования конкретных произведений. Публичная база The Atlantic может стать доказательным материалом в этих делах. Расследование Рейснера продолжает серию разоблачений последних лет. Сначала стало известно о массовом использовании книг без разрешений (датасет Books3), затем — о текстах из открытого веба (Common Crawl). Теперь настала очередь музыки. Логика одна: ИИ-компании собирали всё, что было доступно технически, не задаваясь вопросом о правовом статусе.

Что это значит

Публикация The Atlantic переводит спор об авторских правах в ИИ из абстрактного в конкретное: вот данные, вот компании, вот треки. Для музыкантов это первый публичный инструмент проверки. Для ИИ-компаний — сигнал, что непрозрачность в вопросах тренировочных данных становится всё сложнее сохранять.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Хотите не читать про ИИ, а внедрить его?

«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.

Что вы думаете?
Загружаем комментарии…