Claude e um milhão de livros mortos: como a IA devorou nosso legado
Você se lembra daquele novembro silencioso de 2022, quando o mundo ainda não sabia o que eram alucinações de redes neurais? A OpenAI não apenas lançou um…
Processado por IA de The Verge; editado por Hamidun News
Você se lembra daquele novembro silencioso de 2022, quando o mundo ainda não sabia o que eram alucinações de redes neurais? A OpenAI não apenas lançou um produto então, disparou o tiro de largada, um som que fez todos os gigantes do Vale do Silício abandonarem seus aconchegantes metaversos e correr. Nessa corrida, Claude da Anthropic se tornou um dos principais contendores pela coroa. Mas por trás da fachada brilhante de uma IA polida e segura existe um cemitério de milhões de livros que ninguém autorizou usar. Sejamos honestos: Claude existe em sua forma atual apenas porque a indústria decidiu ignorar as regras da decência em nome da velocidade.
A indústria de IA hoje se assemelha a uma era de capitalismo selvagem, onde em vez de minas de ouro existem maciços conjuntos de dados. Quando ficou claro que ChatGPT não era apenas um brinquedo, mas a base de uma nova economia, a questão da ética ficou em segundo plano. Para ensinar um modelo a raciocinar, ele precisa de mais do que textos do Reddit ou Wikipédia.
Precisa de estruturas complexas, vocabulário rico e contextos profundos que só podem ser encontrados em literatura de qualidade. Assim, milhões de livros protegidos por direitos autorais se tornaram "dados de treinamento" sem o consentimento de seus criadores. Você não pensava que redes neurais aprendem com contos de fadas infantis do domínio público, não é?
A Anthropic frequentemente se posiciona como os "bons rapazes" do mundo da IA, focando em segurança e ética. Mas a ironia é que até os modelos mais "seguros" são construídos sobre uma base de conteúdo questionável. Conjuntos de dados como Books3, contendo centenas de milhares de títulos de bibliotecas clandestinas, se tornaram o ingrediente secreto que permitiu ao Claude alcançar e em alguns aspectos superar os desenvolvimentos de Sam Altman. Para as corporações, isso era matemática simples: ou você usa tudo o que está aí para pegar, ou seu concorrente fará primeiro e capturará o mercado. Nessa lógica, livros são apenas carvão para alimentar a fornalha do progresso.
Por que isso importa agora? Estamos nos aproximando de um momento em que dados "humanos" estão simplesmente acabando. Redes neurais já leram quase tudo o que escrevemos nos últimos séculos. E agora autores — de romancistas a escritores técnicos — estão descobrindo que seus anos de trabalho se tornaram combustível gratuito para sistemas que no futuro podem substituí-los. Isso não é apenas roubo de conteúdo, é uma mudança fundamental na compreensão de propriedade intelectual. Se antes você comprava um livro para lê-lo, agora corporações o pegam para ensinar uma máquina a imitar seu estilo e lógica de pensamento.
Processos judiciais de autores como Sarah Silverman ou George Martin são apenas a ponta do iceberg. O problema é que o sistema legal é lento, enquanto a indústria de IA se move à velocidade da luz. Enquanto tribunais passam anos decidindo se treinar uma rede neural é "uso justo," os modelos já foram treinados, pesos foram salvos, e bilhões de dólares em investimento foram comprometidos. A Anthropic e outros jogadores apostaram que vencedores não são julgados. Ou, pelo menos, as multas por violação de direitos autorais serão uma gota no oceano comparadas à capitalização futura de mercado.
No final, temos uma simbiose estranha. Claude pode analisar um documento legal complexo para você ou escrever um ensaio no estilo de Proust precisamente porque "engoliu" milhares de textos similares sem perguntar. Conseguimos uma ferramenta incrível, mas o preço de sua criação é a desvalorização do trabalho humano como tal. Livros não apenas serviram como base, foram processados em pasta digital, da qual foram moldadas novas interfaces convenientes para consumo. E agora temos que viver com isso, usando os frutos dessa expropriação intelectual.
O ponto-chave: Anthropic e OpenAI construíram seus impérios em dados que não possuíam, e agora não há volta. A indústria conseguirá sobreviver se tiver que realmente pagar por cada livro "lido"?
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.