Merriam-Webster y Encyclopedia Britannica demandan a OpenAI por 100.000 artículos
Merriam-Webster y Encyclopedia Britannica demandaron a OpenAI. Según afirman, la empresa utilizó sin permiso casi 100.000 artículos protegidos por derechos…
Procesado por IA desde TechCrunch; editado por Hamidun News
Merriam-Webster y Encyclopedia Britannica han presentado una demanda contra OpenAI, acusando a la empresa de violación masiva de derechos de autor. Según los demandantes, OpenAI utilizó casi 100.000 artículos protegidos por derechos de autor para entrenar sus grandes modelos de lenguaje sin permiso ni compensación.
Merriam-Webster es uno de los diccionarios de la lengua inglesa más antiguos y autorizados, fundado en 1831. Encyclopedia Britannica apareció incluso antes: se publica desde 1768 y durante dos siglos y medio fue la principal enciclopedia en lengua inglesa del mundo. Durante este tiempo, editores de ambas organizaciones crearon uno de los corpus más extensos y meticulosamente verificados de textos de referencia.
Precisamente este tipo de datos—precisos, verificados múltiples veces, vinculados a definiciones y fechas específicas—es especialmente valioso al entrenar modelos de lenguaje que deben proporcionar respuestas fácticamente confiables. La esencia de las reclamaciones es la siguiente: OpenAI incluyó sistemáticamente materiales de estas publicaciones en sus conjuntos de datos de entrenamiento para sistemas LLM sin celebrar acuerdos de licencia. Según la demanda, se trata de casi 100.
000 artículos—no una muestra aleatoria de redes públicamente disponibles, sino un préstamo deliberado a gran escala de contenido creado profesionalmente. La creación de estos materiales requirió años de trabajo de miles de lexicógrafos, investigadores, editores científicos y expertos de la industria. Todo este trabajo ahora se está utilizando, esencialmente, como combustible para un producto comercial—sin pago y sin consentimiento.
La demanda forma parte de una ola más amplia de reclamaciones legales contra OpenAI. Anteriormente, demandas similares fueron presentadas por el New York Times, grandes agencias literarias, la Asociación de Autores de EE.UU.
, asociaciones de periodistas independientes y varios escritores renombrados. La lógica general de todos estos procedimientos es consistente: las empresas de IA han construido un negocio multimillonario sobre el trabajo intelectual ajeno—sin pagar un centavo ni pedir permiso. La escala de las reclamaciones está creciendo: si antes eran autores individuales quienes presentaban demandas, ahora son organizaciones cuyas marcas están directamente asociadas con la confiabilidad y la autoridad académica.
Esto ya no es solo una historia sobre derechos de autor—es una historia sobre quién posee la reputación de confiabilidad en la era de la IA. OpenAI responde tradicionalmente con el mismo argumento: el entrenamiento en datos públicamente disponibles se ajusta a la doctrina de fair use (uso justo) en la ley de derechos de autor estadounidense. Un argumento adicional de la empresa: no reproduce los textos originales textualmente, sino que solo entrena patrones estadísticos con ellos.
Ninguno de estos argumentos ha recibido aún confirmación judicial definitiva. La mayoría de los casos se encuentran en etapas iniciales, y los tribunales aún no han desarrollado una posición consolidada sobre dónde se encuentra el límite de fair use respecto a los LLMs. Es la participación de editoriales de diccionarios y enciclopedias lo que hace que esta demanda sea particularmente significativa.
Su producto no son noticias escritas bajo presión de tiempo, ni blogs publicados para alcance. Es conocimiento de referencia creado lenta y costosamente: verificado, estructurado, con rigurosos estándares editoriales. Tales datos son la base para las respuestas que la IA presenta como hechos.
No es casualidad que estos fueron incluidos en el corpus de entrenamiento. Y no es casualidad que ahora se encuentren en el centro de los procedimientos legales más principiados en la historia de la IA generativa. El resultado de estos casos determinará las reglas del juego para toda la industria.
Una victoria para los titulares de derechos obligará a las empresas de IA a licenciar retroactivamente datos de entrenamiento—con consecuencias financieras impredecibles. Una victoria para el concepto de fair use creará un precedente que efectivamente priva a los autores de apalancamiento en la era de la IA generativa. Mientras el resultado permanece incierto, una cosa es evidente: la industria no puede construir indefinidamente el futuro sobre el pasado ajeno—sin acordar sobre los términos.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.