The Atlantic abrió una herramienta de búsqueda para 21 millones de pistas utilizadas para entrenar AI
Un periodista de The Atlantic descubrió cuatro conjuntos de datos musicales para entrenar modelos de AI — 21 millones de pistas en total. Google y Stability…
Procesado por IA desde The Verge; editado por Hamidun News
El periodista Alex Reisner de The Atlantic publicó los resultados de una investigación: identificó cuatro conjuntos de datos con música que las empresas tecnológicas utilizaron para entrenar modelos generativos de IA. Además, puso los cuatro bancos de datos disponibles para búsqueda pública. Ahora cualquiera puede comprobar si sus canciones terminaron en los datos de entrenamiento.
Lo Que Encontró Reisner
Dos de los mayores conjuntos de datos son impactantes por su escala: uno contiene 12 millones de pistas, el segundo — 9 millones. En total, son 21 millones de archivos de música en solo dos bases de datos. Otros dos conjuntos de datos son más modestos, pero aún significativos: cada uno incluye más de 100 000 grabaciones.
En conjunto, se trata de un volumen colosal de contenido — gran parte del patrimonio musical que se puede recopilar automáticamente. Los cuatro conjuntos de datos fueron descargados miles de veces. Es imposible establecer usuarios exactos, pero Google y Stability AI confirmaron oficialmente en sus publicaciones científicas que trabajaron con estos datos.
Esta es una evidencia documental: empresas con capitalizaciones de miles de millones de dólares se basaban en las mismas fuentes que ahora son públicas.
De Dónde Viene Esta Música
Las fuentes de los conjuntos de datos varían en estado legal — y aquí es donde comienza la parte más importante:
- Free Music Archive — gratuito para escucha personal, pero el uso comercial y la creación de obras derivadas están restringidos
- Algunas pistas se publican bajo licencias Creative Commons, pero las condiciones específicas varían para cada pista
- Algunos materiales están protegidos por derechos de autor estándar — sin excepciones ni advertencias
- Todas las bases de datos eran técnicamente accesibles para descargar sin restricciones
- Ninguna empresa de IA ha revelado públicamente la composición exacta de sus conjuntos de datos de entrenamiento de música
La brecha entre "técnicamente disponible para descargar" y "legalmente permitido usar para entrenamiento comercial de IA" — ese es precisamente el espacio legal en el que ahora se desarrollan demandas en todo el mundo.
Herramienta para Titulares de Derechos
The Atlantic lanzó una herramienta de búsqueda pública en los cuatro bancos de datos. Cualquier músico, productor, sello discográfico o editorial puede verificar su nombre o títulos de canciones y obtener una respuesta: ¿era este contenido parte del conjunto de entrenamiento? Esto es importante desde una perspectiva práctica.
Los litigios contra empresas de IA — Suno, Udio, OpenAI, Stability AI y otras — ya se están viendo en los tribunales, pero los demandantes aún no han tenido una forma confiable de probar que se utilizaron obras específicas. La base de datos pública de The Atlantic puede convertirse en material probatorio en estos casos. La investigación de Reisner continúa una serie de revelaciones de los últimos años.
Primero se supo del uso masivo de libros sin permiso (el conjunto de datos Books3), luego — de textos de la web abierta (Common Crawl). Ahora le toca el turno a la música. La lógica es la misma: las empresas de IA recopilaban todo lo que estaba técnicamente disponible sin cuestionarse el estado legal.
Lo Que Esto Significa
La publicación de The Atlantic traduce la disputa de derechos de autor en IA de lo abstracto a lo concreto: aquí están los datos, aquí están las empresas, aquí están las canciones. Para los músicos, esta es la primera herramienta de verificación pública. Para las empresas de IA — una señal de que la opacidad sobre los datos de entrenamiento está siendo cada vez más difícil de mantener.
¿Necesitas IA funcionando dentro de tu empresa — no solo en tu feed de noticias?
Construyo IA en producción para empresas — CRM a medida, herramientas internas, agentes autónomos, automatización de procesos. Tuya, adaptada a tu proceso, sin coste por usuario. Creado por Zhemal Khamidun, CPO de AlpinaGPT (plataforma de IA, 6.000+ usuarios).