Merriam-Webster et Encyclopedia Britannica poursuivent OpenAI pour 100 000 articles
Merriam-Webster et Encyclopedia Britannica ont poursuivi OpenAI en justice. Selon elles, l’entreprise a utilisé sans autorisation près de 100 000 articles…
Traité par IA depuis TechCrunch ; édité par Hamidun News
Merriam-Webster et Encyclopedia Britannica ont intenté une action en justice contre OpenAI, accusant l'entreprise de violation massive du droit d'auteur. Selon les demandeurs, OpenAI a utilisé près de 100.000 articles protégés par le droit d'auteur pour entraîner ses grands modèles de langage sans autorisation ni compensation.
Merriam-Webster est l'un des plus anciens et des plus autoritaires dictionnaires de la langue anglaise, fondé en 1831. Encyclopedia Britannica est apparue encore plus tôt : elle est publiée depuis 1768 et a été pendant deux siècles et demi la principale encyclopédie en langue anglaise du monde. Pendant tout ce temps, les éditeurs des deux organisations ont créé l'un des corpus les plus complets et les plus rigoureusement vérifiés de textes de référence.
Précisément ce type de données—précises, vérifiées à plusieurs reprises, liées à des définitions et des dates spécifiques—est particulièrement précieux lors de l'entraînement de modèles de langage qui doivent fournir des réponses factuellement fiables. L'essence des réclamations est la suivante : OpenAI a systématiquement inclus des matériaux de ces publications dans ses ensembles de données d'entraînement pour les systèmes LLM sans conclure d'accords de licence. Selon l'action en justice, il s'agit de près de 100.
000 articles—non pas un échantillon aléatoire de réseaux publiquement disponibles, mais un emprunt délibéré à grande échelle de contenu créé professionnellement. La création de ces matériaux a nécessité des années de travail de milliers de lexicographes, de chercheurs, d'éditeurs scientifiques et d'experts sectoriels. Tout ce travail est maintenant, essentiellement, utilisé comme carburant pour un produit commercial—sans paiement et sans consentement.
L'action s'inscrit dans une vague plus large de réclamations judiciaires contre OpenAI. Auparavant, des demandes similaires ont été présentées par le New York Times, de grandes agences littéraires, l'Association des Auteurs américains, des associations de journalistes indépendants et plusieurs écrivains renommés. La logique générale de tous ces procès reste cohérente : les entreprises d'IA ont construit un empire commercial de plusieurs milliards de dollars sur le travail intellectuel d'autrui—sans payer un centime ni demander permission.
L'ampleur des réclamations augmente : si auparavant c'étaient des auteurs individuels qui intentaient des actions, ce sont maintenant des organisations dont les marques sont directement associées à la fiabilité et à l'autorité académique. Ce n'est plus simplement une histoire de droit d'auteur—c'est une histoire sur qui possède la réputation de fiabilité à l'ère de l'IA. OpenAI répond traditionnellement par le même argument : l'entraînement sur des données publiquement disponibles relève de la doctrine de l'utilisation équitable (fair use) selon la loi américaine sur le droit d'auteur.
Un argument supplémentaire de l'entreprise : elle ne reproduit pas les textes originaux littéralement, mais entraîne seulement des modèles statistiques dessus. Aucun de ces arguments n'a encore reçu de confirmation judiciaire définitive. La plupart des cas en sont aux stades préliminaires, et les tribunaux n'ont pas encore développé une position consolidée sur la ligne frontière du fair use par rapport aux LLMs.
C'est la participation des éditeurs de dictionnaires et d'encyclopédies qui rend ce procès particulièrement significatif. Leur produit n'est pas des nouvelles écrites sous la pression d'un délai, ni des blogs publiés pour la portée. C'est un savoir de référence créé lentement et coûteusement : vérifié, structuré, selon des normes éditoriales rigoureuses.
Ces données constituent la base des réponses que l'IA présente comme des faits. Ce n'est pas un hasard si ces éléments ont été inclus dans le corpus d'entraînement. Et ce n'est pas un hasard s'ils se trouvent maintenant au centre des procédures judiciaires les plus principielles de l'histoire de l'IA générative.
L'issue de ces procès déterminera les règles du jeu pour l'ensemble de l'industrie. Une victoire des titulaires de droits obligera les entreprises d'IA à concéder rétroactivement des licences sur les données d'entraînement—avec des conséquences financières imprévisibles. Une victoire du concept de fair use créera un précédent qui prive effectivement les auteurs de levier à l'ère de l'IA générative.
Bien que l'issue reste incertaine, une chose est évidente : l'industrie ne peut pas indéfiniment construire l'avenir sur le passé d'autrui—sans s'entendre sur les conditions.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.