Habr AI→ original

Project Panama: Anthropic usa milhões de livros para treinar Claude

Imagine um enorme galpão repleto de paletes com livros. Mas isto não é uma biblioteca nem um arquivo silencioso. Aqui eles não lêem — aqui eles dissecam…

Processado por IA de Habr AI; editado por Hamidun News
Project Panama: Anthropic usa milhões de livros para treinar Claude
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

Imagine um enorme galpão repleto de paletes com livros. Mas isto não é uma biblioteca nem um arquivo silencioso. Aqui eles não lêem — aqui eles dissecam. Pessoas em trajes de proteção cortam cuidadosamente as lombadas dos livros novos, transformando as capas em pilhas de folhas soltas que depois desaparecem nas profundezas de scanners de alta velocidade. Esta não é uma cena da distopia de Ray Bradbury, mas o dia a dia de uma divisão secreta da Anthropic. O projeto recebeu o nome em código Project Panama, e seus detalhes acabaram de vir à tona em arquivos judiciais, fazendo a indústria arrepiar diante da escala do que está acontecendo.

A Anthropic há muito tempo construiu uma imagem de sendo a alternativa "ética" ao OpenAI. Enquanto Sam Altman sugava agressivamente a internet, os criadores do Claude falavam sobre segurança e responsabilidade. No entanto, descobriu-se que quando se trata de escassez de dados de qualidade, a ética cede lugar a uma moenda industrial. Documentos judiciais revelaram que no início de 2024, a liderança da startup lançou um plano ambicioso para "escaneamento destrutivo de todos os livros do mundo". A formulação soa ominosa, mas de um ponto de vista técnico é justificada: para escanear rápido e sem distorções, o livro literalmente precisa ser destruído, transformado em um conjunto de páginas planas.

Por que tais complicações quando existem versões digitais? A resposta está na qualidade e direitos. Bibliotecas digitais legais são caras e protegidas por licenças rigorosas, enquanto arquivos piratas como Shadow Libraries frequentemente contêm erros de OCR. Para treinar modelos no nível do Claude 3.5 ou do futuro Claude 4, você precisa de conhecimento limpo e estruturado. A Anthropic decidiu que é mais simples e barato comprar milhões de cópias físicas, transformá-las em pó, e obter cópias digitais perfeitas, do que negociar com cada detentor de direitos individualmente. O orçamento da operação foi de dezenas de milhões de dólares — uma soma comparável ao custo de compra de chips H100.

Esta situação destaca o principal problema da indústria de IA moderna: a "parede de dados" não é um mito, mas uma realidade. A humanidade já alimentou redes neurais com quase todo o Reddit, Wikipédia e arquivos de jornais digitalizados. Mas os apetites dos modelos estão crescendo exponencialmente. Se antes falávamos sobre como a IA substituiria os escritores, agora vemos como a IA literalmente devora seu legado físico. A ironia da situação é que uma startup avaliada em bilhões de dólares é forçada a se envolver na logística de papel de resíduo para ganhar uma vantagem de alguns pontos percentuais na precisão do chatbot.

O sigilo do Project Panama é explicado simplesmente: parece terrível do ponto de vista de relações públicas. É difícil vender ao público a ideia de "IA segura" construída sobre as ruínas de livros destruídos. Os advogados da Anthropic provavelmente esperavam que a posse física de um livro lhes desse alguma brecha na lei de "uso justo". Como, compramos o livro, temos o direito de lê-lo, mesmo que o "leitor" seja um algoritmo e o processo de leitura exija destruir o meio. No entanto, os tribunais dificilmente serão tão favoráveis à cópia industrial em massa.

O que isso significa para nós? Entramos em uma era onde a informação no mundo físico está se tornando mais valiosa que pó digital. Se antes digitalizávamos livros para preservá-los para a posteridade, agora fazemos isso para alimentar um "caixa preta" que nos dará um resumo em um chat. Esta é uma mudança radical na cultura de consumo de conhecimento. Em breve podemos enfrentar uma escassez de edições raras simplesmente porque mais outro unicórnio de IA decidiu comprar toda a tiragem para treinar sua nova "máquina de linguagem".

Conclusão: A Anthropic demonstrou que na batalha pelos dados, não se fazem prisioneiros. Estamos prontos para o fato de que a inteligência do futuro será construída sobre as cinzas de livros queimados?

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…