The Verge→ original

Claude et un million de livres morts: comment l'IA a dévoré notre patrimoine

Vous vous souvenez de ce novembre silencieux 2022 quand le monde ne savait pas encore ce que c'était que les hallucinations des réseaux de neurones ? OpenAI…

Traité par IA depuis The Verge ; édité par Hamidun News
Claude et un million de livres morts: comment l'IA a dévoré notre patrimoine
Source : The Verge. Collage: Hamidun News.
◐ Écouter l'article

Vous vous souvenez de ce novembre silencieux 2022 quand le monde ne savait pas encore ce que c'était que les hallucinations des réseaux de neurones ? OpenAI n'a pas seulement lancé un produit à l'époque, elle a tiré le pistolet de départ, un son qui a fait que tous les géants de la Silicon Valley abandonnent leurs univers virtuels douilllets et se mettent à courir. Dans cette course, Claude d'Anthropic est devenu l'un des principaux prétendants à la couronne.

Mais derrière la façade brillante d'une IA polie et sûre se cache un cimetière de millions de livres que personne n'a autorisé à utiliser. Soyons honnêtes : Claude n'existe dans sa forme actuelle que parce que l'industrie a décidé d'ignorer les règles de la décence au nom de la vitesse.

L'industrie de l'IA d'aujourd'hui ressemble à une ère de capitalisme sauvage, où au lieu de mines d'or il y a des ensembles massifs de données. Quand il est devenu clair que ChatGPT n'était pas simplement un jouet, mais la fondation d'une nouvelle économie, la question de l'éthique est passée au second plan. Pour enseigner à un modèle à raisonner, il ne suffit pas de textes de Reddit ou Wikipédia.

Il a besoin de structures complexes, d'un vocabulaire riche et de contextes profonds qui ne peuvent être trouvés que dans la littérature de qualité. Ainsi, des millions de livres protégés par le droit d'auteur sont devenus des "données d'entraînement" sans le consentement de leurs créateurs. Vous ne pensiez pas que les réseaux de neurones apprennent à partir de contes de fées pour enfants du domaine public, n'est-ce pas ?

Anthropic se positionne souvent comme les "bons gars" du monde de l'IA, en mettant l'accent sur la sécurité et l'éthique. Mais l'ironie est que même les modèles les plus "sûrs" sont construits sur une base de contenu douteux. Des ensembles de données comme Books3, contenant des centaines de milliers de titres provenant de bibliothèques clandestines, sont devenus l'ingrédient secret qui a permis à Claude de rattraper et en quelque sorte de surpasser les développements de Sam Altman.

Pour les entreprises, c'était une simple question de mathématiques : soit vous utilisez tout ce qui est à portée de main, soit votre concurrent le fera en premier et s'emparera du marché. Dans cette logique, les livres ne sont que du charbon pour alimenter la fournaise du progrès.

Pourquoi cela importe-t-il maintenant ? Nous approchons d'un moment où les données « humaines » manquent simplement. Les réseaux de neurones ont déjà lu presque tout ce que nous avons écrit au cours des derniers siècles. Et maintenant, les auteurs — de romanciers à rédacteurs techniques — découvrent que leurs années de travail sont devenues un carburant gratuit pour des systèmes qui pourraient à l'avenir les remplacer. Ce n'est pas simplement du vol de contenu, c'est un changement fondamental dans la compréhension de la propriété intellectuelle. Si auparavant vous achetiez un livre pour le lire, maintenant les entreprises le prennent pour enseigner à une machine à imiter votre style et votre logique de pensée.

Les procès des auteurs comme Sarah Silverman ou George Martin ne sont que la pointe de l'iceberg. Le problème est que le système judiciaire est lourd, tandis que l'industrie de l'IA se déplace à la vitesse de la lumière. Pendant que les tribunaux mettront des années à décider si l'entraînement d'un réseau de neurones est une « utilisation équitable », les modèles sont déjà entraînés, les poids sont enregistrés et des milliards de dollars d'investissement sont dépensés. Anthropic et autres acteurs ont parié que les vainqueurs ne sont pas jugés. Ou du moins que les pénalités pour violation du droit d'auteur seront une goutte dans l'océan par rapport à la capitalisation boursière future.

En fin de compte, nous avons une symbiose étrange. Claude peut analyser un document juridique complexe pour vous ou écrire un essai dans le style de Proust précisément parce qu'il a « avalé » des milliers de textes similaires sans demander. Nous avons obtenu un outil incroyable, mais le prix de sa création est la dévaluation du travail humain en tant que tel. Les livres n'ont pas simplement servi de base, ils ont été transformés en pâte numérique, à partir de laquelle de nouvelles interfaces commodes ont été façonnées. Et maintenant nous devons vivre avec cela, en utilisant les fruits de cette expropriation intellectuelle.

L'essentiel : Anthropic et OpenAI ont construit leurs empires sur des données qu'ils ne possédaient pas, et maintenant il n'y a pas de retour en arrière. L'industrie pourra-t-elle survivre si elle doit réellement payer pour chaque livre « lu » ?

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…