The Verge→ original

The Atlantic abriu uma ferramenta de busca para 21 milhões de faixas usadas para treinar AI

Um jornalista do The Atlantic descobriu quatro conjuntos de dados musicais para treinar modelos de AI — 21 milhões de faixas no total. Google e Stability AI…

Processado por IA de The Verge; editado por Hamidun News
The Atlantic abriu uma ferramenta de busca para 21 milhões de faixas usadas para treinar AI
Fonte: The Verge. Colagem: Hamidun News.
◐ Ouvir artigo

O jornalista Alex Reisner, do The Atlantic, publicou os resultados de uma investigação: ele identificou quatro conjuntos de dados com músicas que empresas de tecnologia usaram para treinar modelos generativos de IA. Além disso, disponibilizou as quatro bases de dados para busca pública. Agora qualquer pessoa pode verificar se suas faixas acabaram nos dados de treinamento.

O Que Reisner Encontrou

Dois dos maiores conjuntos de dados impressionam pela escala: um contém 12 milhões de faixas, o segundo — 9 milhões. Combinados, são 21 milhões de arquivos de música em apenas dois bancos de dados. Dois outros conjuntos de dados são mais modestos, mas ainda significativos: cada um inclui mais de 100 mil gravações.

No total, trata-se de um volume colossal de conteúdo — grande parte do patrimônio musical que pode ser coletado automaticamente. Todos os quatro conjuntos de dados foram baixados milhares de vezes. É impossível estabelecer usuários exatos, mas Google e Stability AI confirmaram oficialmente em suas publicações científicas que trabalharam com esses dados.

Esta é uma evidência documental: empresas com capitalizações na casa dos bilhões de dólares dependiam das mesmas fontes que agora são públicas.

De Onde Vem Essa Música

As fontes dos conjuntos de dados variam em status legal — e é aqui que começa a parte mais importante:

  • Free Music Archive — gratuito para ouvir pessoalmente, mas o uso comercial e a criação de obras derivadas são restritos
  • Algumas faixas são publicadas sob licenças Creative Commons, mas as condições específicas variam para cada faixa
  • Alguns materiais são protegidos por direito autoral padrão — sem exceções ou ressalvas
  • Todos os bancos de dados eram tecnicamente acessíveis para download sem restrições
  • Nenhuma empresa de IA divulgou publicamente a composição exata de seus conjuntos de treinamento de música

A lacuna entre "tecnicamente disponível para download" e "legalmente permitido usar para treinamento comercial de IA" — esse é precisamente o espaço legal em que processos judiciais agora se desenrolam em todo o mundo.

Ferramenta para Detentores de Direitos

O The Atlantic lançou uma ferramenta de busca pública em todos os quatro bancos de dados. Qualquer músico, produtor, gravadora ou editora pode verificar seu nome ou títulos de faixas e obter uma resposta: esse conteúdo fazia parte do conjunto de treinamento? Isso é importante de uma perspectiva prática.

Processos contra empresas de IA — Suno, Udio, OpenAI, Stability AI e outras — já estão sendo julgados nos tribunais, mas os demandantes ainda não tiveram uma forma confiável de provar que obras específicas foram usadas. A base de dados pública do The Atlantic pode se tornar material de prova nesses casos. A investigação de Reisner continua uma série de denúncias dos últimos anos.

Primeiro, tornou-se conhecida a utilização em massa de livros sem permissão (conjunto de dados Books3), depois — sobre textos da web aberta (Common Crawl). Agora é a vez da música. A lógica é a mesma: empresas de IA coletavam tudo o que estava tecnicamente disponível sem questionar o status legal.

O Que Isso Significa

A publicação do The Atlantic traduz a disputa sobre direitos autorais em IA do abstrato para o concreto: aqui estão os dados, aqui estão as empresas, aqui estão as faixas. Para os músicos, esta é a primeira ferramenta de verificação pública. Para empresas de IA — um sinal de que a opacidade em relação aos dados de treinamento está se tornando cada vez mais difícil de manter.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Precisa de IA funcionando dentro da sua empresa — não só no feed de notícias?

Eu construo IA em produção para empresas — CRM sob medida, ferramentas internas, agentes autônomos, automação de processos. Pertence a você, moldada ao seu processo, sem taxa por usuário. Feito por Zhemal Khamidun, CPO da AlpinaGPT (plataforma de IA, 6.000+ usuários).

O que você acha?
Carregando comentários…