The Atlantic a ouvert un outil de recherche sur 21 millions de morceaux utilisés pour entraîner des modèles AI
Un journaliste de The Atlantic a découvert quatre jeux de données musicaux pour entraîner des modèles AI — 21 millions de morceaux au total. Google et…
Traité par IA depuis The Verge ; édité par Hamidun News
Le journaliste Alex Reisner du The Atlantic a publié les résultats d'une enquête : il a identifié quatre ensembles de données contenant de la musique que les entreprises technologiques ont utilisée pour entraîner des modèles d'IA générative. De plus, il a rendu les quatre bases de données disponibles pour la recherche publique. Maintenant, n'importe qui peut vérifier si ses pistes ont fini dans les données d'entraînement.
Ce Qu'a Trouvé Reisner
Deux des plus grands ensembles de données frappent par leur ampleur : l'un contient 12 millions de pistes, le second — 9 millions. Au total, c'est 21 millions de fichiers musicaux dans seulement deux bases de données. Deux autres ensembles de données sont plus modestes, mais néanmoins importants : chacun comprend plus de 100 000 enregistrements.
Au total, c'est un volume colossal de contenu — la majeure partie du patrimoine musical qui peut être collecté automatiquement. Les quatre ensembles de données ont été téléchargés des milliers de fois. Il est impossible d'établir les utilisateurs exacts, mais Google et Stability AI ont confirmé officiellement dans leurs publications scientifiques qu'ils avaient travaillé avec ces données.
C'est une preuve documentaire : les entreprises aux capitalisations de plusieurs milliards de dollars s'appuyaient sur les mêmes sources qui sont maintenant publiques.
D'Où Vient Cette Musique
Les sources des ensembles de données varient selon leur statut juridique — et c'est ici que commence la partie la plus importante :
- Free Music Archive — gratuit pour l'écoute personnelle, mais l'utilisation commerciale et la création d'œuvres dérivées sont limitées
- Certaines pistes sont publiées sous des licences Creative Commons, mais les conditions spécifiques varient pour chaque piste
- Certains matériaux sont protégés par les droits d'auteur standards — sans exception ni réserve
- Toutes les bases de données étaient techniquement accessibles au téléchargement sans aucune restriction
- Aucune entreprise d'IA n'a publiquement divulgué la composition exacte de ses ensembles de données d'entraînement musicaux
L'écart entre « techniquement disponible pour téléchargement » et « légalement autorisé à être utilisé pour la formation commerciale d'IA » — c'est précisément l'espace juridique dans lequel les procès se déroulent maintenant dans le monde entier.
Outil pour les Titulaires de Droits
The Atlantic a lancé un moteur de recherche public dans les quatre bases de données. Tout musicien, producteur, label ou maison d'édition peut vérifier son nom ou les titres de ses pistes et obtenir une réponse : ce contenu faisait-il partie de l'ensemble d'entraînement ? C'est important d'un point de vue pratique.
Les poursuites contre les entreprises d'IA — Suno, Udio, OpenAI, Stability AI et d'autres — sont déjà en cours dans les tribunaux, mais les plaignants n'ont toujours pas eu de moyen fiable de prouver que des œuvres spécifiques ont été utilisées. La base de données publique du The Atlantic peut devenir un matériel de preuve dans ces cas. L'enquête de Reisner poursuit une série de révélations des dernières années.
D'abord, on a su l'utilisation massive de livres sans permission (l'ensemble de données Books3), puis — de textes du web ouvert (Common Crawl). Maintenant, c'est le tour de la musique. La logique est la même : les entreprises d'IA collectaient tout ce qui était techniquement disponible sans se demander le statut juridique.
Ce Que Cela Signifie
La publication du The Atlantic traduit le différend sur les droits d'auteur dans l'IA du domaine abstrait au concret : voici les données, voici les entreprises, voici les pistes. Pour les musiciens, c'est le premier outil de vérification publique. Pour les entreprises d'IA — un signal que l'opacité concernant les données d'entraînement devient de plus en plus difficile à maintenir.
Besoin d'une IA qui travaille dans votre entreprise — pas seulement dans votre fil d'actualité?
Je construis de l'IA en production pour les entreprises — CRM sur mesure, outils internes, agents autonomes, automatisation des processus. Vous en êtes propriétaire, adaptée à votre processus, sans coût par utilisateur. Réalisé par Zhemal Khamidun, CPO d'AlpinaGPT (plateforme IA, 6 000+ utilisateurs).