Habr AI→ original

Project Panama: Anthropic sacrifie des millions de livres pour entraîner Claude

Imaginez un immense entrepôt rempli de palettes de livres. Mais ce n'est pas une bibliothèque ni une archive silencieuse. Ici, on ne lit pas — on disséque…

Traité par IA depuis Habr AI ; édité par Hamidun News
Project Panama: Anthropic sacrifie des millions de livres pour entraîner Claude
Source : Habr AI. Collage: Hamidun News.
◐ Écouter l'article

Imaginez un immense entrepôt rempli de palettes de livres. Mais ce n'est pas une bibliothèque ni une archive silencieuse. Ici, on ne lit pas — on disséque. Des personnes en combinaisons de protection découpent soigneusement les dos de tout nouveaux tomes, transformant les reliures en piles de feuilles détachées qui disparaissent ensuite dans les profondeurs de scanners haute vitesse. Ce n'est pas une scène de la dystopie de Ray Bradbury, mais le quotidien d'une division secrète d'Anthropic. Le projet a reçu le nom de code Project Panama, et ses détails viennent de faire surface dans les archives judiciaires, faisant frémir l'industrie devant l'ampleur de ce qui se passe.

Anthropic a longtemps construit l'image d'une alternative « éthique » à OpenAI. Tandis que Sam Altman aspirait agressivement Internet, les créateurs de Claude parlaient de sécurité et de responsabilité. Cependant, il s'avère que face à la pénurie de données de qualité, l'éthique cède la place à un broyeur industriel. Les documents judiciaires ont révélé qu'au début 2024, la direction de la startup a lancé un plan ambitieux de « numérisation destructrice de tous les livres du monde ». La formulation sonne de façon sinistre, mais d'un point de vue technique, elle est justifiée : pour scanner rapidement et sans distorsion, le livre doit littéralement être détruit, transformé en ensemble de pages plates.

Pourquoi de telles complications quand il existe des versions numériques ? La réponse réside dans la qualité et les droits. Les bibliothèques numériques légales sont coûteuses et protégées par des licences strictes, tandis que les archives pirates comme Shadow Libraries contiennent souvent des erreurs de reconnaissance optique de caractères.

Pour entraîner des modèles au niveau de Claude 3.5 ou du futur Claude 4, vous avez besoin de connaissances propres et structurées. Anthropic a décidé qu'il était plus simple et moins coûteux d'acheter des millions de copies physiques, de les transformer en poussière et d'obtenir des copies numériques parfaites, plutôt que de négocier avec chaque titulaire de droits individuellement.

Le budget de l'opération s'élevait à des dizaines de millions de dollars — une somme comparable au coût d'achat de puces H100.

Cette situation met en évidence le principal problème de l'industrie de l'IA moderne : le « mur de données » n'est pas un mythe, mais une réalité. L'humanité a déjà nourri les réseaux de neurones de presque tout Reddit, Wikipedia et des archives de journaux numérisées. Mais les appétits des modèles croissent exponentiellement. Si auparavant nous parlions de la façon dont l'IA remplacerait les écrivains, maintenant nous voyons comment l'IA dévore littéralement leur héritage physique. L'ironie de la situation est qu'une startup valorisée à plusieurs milliards de dollars est forcée de s'engager dans la logistique des déchets de papier pour gagner un avantage de quelques points de pourcentage en précision du chatbot.

Le secret du Project Panama s'explique simplement : cela semble terrible du point de vue des relations publiques. Il est difficile de vendre au public l'idée d'une « IA sûre » construite sur les ruines de livres détruits. Les avocats d'Anthropic espéraient probablement que la possession physique d'un livre leur donnerait une échappatoire à la loi sur l'« usage loyal ». Comme si, nous avons acheté le livre, nous avons le droit de le lire, même si le « lecteur » est un algorithme et que le processus de lecture nécessite la destruction du support. Cependant, il est peu probable que les tribunaux soient aussi favorables à la reproduction industrielle de masse.

Que cela signifie-t-il pour nous ? Nous sommes entrés dans une ère où l'information dans le monde physique devient plus précieuse que de la poussière numérique. Si auparavant nous numérisions les livres pour les préserver pour les générations futures, nous le faisons maintenant pour les alimenter à une « boîte noire » qui nous donnera un résumé dans un chat. C'est un changement radical dans la culture de la consommation des connaissances. Nous pourrions bientôt faire face à une pénurie d'éditions rares simplement parce qu'une autre licorne de l'IA a décidé d'acheter tout le tirage pour entraîner sa nouvelle « machine linguistique ».

L'essentiel : Anthropic a montré que dans la bataille pour les données, on ne fait pas de prisonniers. Sommes-nous prêts pour le fait que l'intelligence de l'avenir sera construite sur les cendres de livres brûlés ?

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…