Merriam-Webster e Encyclopedia Britannica processam OpenAI por 100 mil artigos
Merriam-Webster e Encyclopedia Britannica processaram a OpenAI. Segundo elas, a empresa usou quase 100 mil artigos protegidos por direitos autorais sem…
Processado por IA de TechCrunch; editado por Hamidun News
Merriam-Webster e Encyclopedia Britannica entraram com uma ação judicial contra a OpenAI, acusando a empresa de violação massiva de direitos autorais. Segundo os autores da ação, a OpenAI utilizou nearly 100 mil artigos protegidos por direitos autorais para treinar seus grandes modelos de linguagem sem autorização ou compensação. Merriam-Webster é um dos dicionários da língua inglesa mais antigos e autoritários, fundado em 1831.
Encyclopedia Britannica surgiu ainda mais cedo: é publicada desde 1768 e permaneceu por dois séculos e meio como a principal enciclopédia de língua inglesa do mundo. Durante este tempo, editores de ambas as organizações criaram um dos mais extensos e rigorosamente verificados corpora de textos de referência. Justamente este tipo de dado—preciso, múltiplas vezes verificado, vinculado a definições e datas específicas—é especialmente valioso ao treinar modelos de linguagem que devem fornecer respostas factualmente confiáveis.
A essência das reclamações é a seguinte: a OpenAI sistematicamente incluiu materiais destas publicações em seus conjuntos de dados de treinamento para sistemas LLM sem celebrar contratos de licença. De acordo com a ação judicial, cerca de 100 mil artigos estão em questão—não uma amostra aleatória de redes publicamente disponíveis, mas um empréstimo em larga escala, direcionado, de conteúdo profissionalmente criado. A criação desses materiais exigiu anos de trabalho de milhares de lexicógrafos, pesquisadores, editores científicos e especialistas setoriais.
Todo este trabalho agora está, essencialmente, sendo usado como combustível para um produto comercial—sem pagamento e sem consentimento. A ação se insere em uma onda ampla de reclamações judiciais contra a OpenAI. Anteriormente, demandas semelhantes foram feitas pelo New York Times, grandes agências literárias, a Associação de Autores dos EUA, associações de jornalistas independentes e vários escritores renomados.
A lógica geral de todas estas ações judiciais permanece consistente: as empresas de IA construíram um negócio multibilionário sobre o trabalho intelectual de outros—sem pagar um centavo ou pedir permissão. A escala das reclamações está crescendo: se anteriormente eram autores individuais que entravam com ações, agora organizações cujas marcas estão diretamente associadas à confiabilidade e autoridade acadêmica estão entrando em ação. Isto já não é apenas uma história sobre direitos autorais—é uma história sobre quem é proprietário da reputação de confiabilidade na era da IA.
A OpenAI responde tradicionalmente com o mesmo argumento: o treinamento em dados disponíveis publicamente se enquadra na doutrina de fair use na lei de direitos autorais americana. Um argumento adicional da empresa: ela não reproduz textos originais de forma literal, mas apenas treina padrões estatísticos neles. Nenhum desses argumentos recebeu ainda confirmação judicial definitiva.
A maioria dos casos está em estágios iniciais, e os tribunais ainda não desenvolveram uma posição consolidada sobre onde passa o limite de fair use em relação aos LLMs. É a participação de editoras de dicionários e enciclopédias que torna esta ação particularmente significativa. Seu produto não é notícia escrita sob prazo, nem blogs publicados para alcance.
É conhecimento de referência criado lenta e custosamente: verificado, estruturado, com rigorosos padrões editoriais. Tais dados são a base para respostas que a IA apresenta como fatos. Não é acidental que estes foram incluídos no corpus de treinamento.
E não é acidental que agora se encontrem no centro dos processos judiciais mais principiados da história da IA generativa. O resultado destes casos determinará as regras do jogo para toda a indústria. Uma vitória para os detentores de direitos obrigará as empresas de IA a licenciar retroativamente dados de treinamento—com consequências financeiras imprevisíveis.
Uma vitória para o conceito de fair use criará um precedente que efetivamente priva os autores de alavancagem na era da IA generativa. Enquanto o resultado permanece incerto, uma coisa é evidente: a indústria não pode indefinidamente construir o futuro sobre o passado de outros—sem concordar sobre os termos.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.