TechCrunch→ original

Merriam-Webster e Encyclopedia Britannica processam OpenAI por 100 mil artigos

Merriam-Webster e Encyclopedia Britannica processaram a OpenAI. Segundo elas, a empresa usou quase 100 mil artigos protegidos por direitos autorais sem…

Processado por IA de TechCrunch; editado por Hamidun News
Merriam-Webster e Encyclopedia Britannica processam OpenAI por 100 mil artigos
Fonte: TechCrunch. Colagem: Hamidun News.
◐ Ouvir artigo

Merriam-Webster e Encyclopedia Britannica entraram com uma ação judicial contra a OpenAI, acusando a empresa de violação massiva de direitos autorais. Segundo os autores da ação, a OpenAI utilizou nearly 100 mil artigos protegidos por direitos autorais para treinar seus grandes modelos de linguagem sem autorização ou compensação. Merriam-Webster é um dos dicionários da língua inglesa mais antigos e autoritários, fundado em 1831.

Encyclopedia Britannica surgiu ainda mais cedo: é publicada desde 1768 e permaneceu por dois séculos e meio como a principal enciclopédia de língua inglesa do mundo. Durante este tempo, editores de ambas as organizações criaram um dos mais extensos e rigorosamente verificados corpora de textos de referência. Justamente este tipo de dado—preciso, múltiplas vezes verificado, vinculado a definições e datas específicas—é especialmente valioso ao treinar modelos de linguagem que devem fornecer respostas factualmente confiáveis.

A essência das reclamações é a seguinte: a OpenAI sistematicamente incluiu materiais destas publicações em seus conjuntos de dados de treinamento para sistemas LLM sem celebrar contratos de licença. De acordo com a ação judicial, cerca de 100 mil artigos estão em questão—não uma amostra aleatória de redes publicamente disponíveis, mas um empréstimo em larga escala, direcionado, de conteúdo profissionalmente criado. A criação desses materiais exigiu anos de trabalho de milhares de lexicógrafos, pesquisadores, editores científicos e especialistas setoriais.

Todo este trabalho agora está, essencialmente, sendo usado como combustível para um produto comercial—sem pagamento e sem consentimento. A ação se insere em uma onda ampla de reclamações judiciais contra a OpenAI. Anteriormente, demandas semelhantes foram feitas pelo New York Times, grandes agências literárias, a Associação de Autores dos EUA, associações de jornalistas independentes e vários escritores renomados.

A lógica geral de todas estas ações judiciais permanece consistente: as empresas de IA construíram um negócio multibilionário sobre o trabalho intelectual de outros—sem pagar um centavo ou pedir permissão. A escala das reclamações está crescendo: se anteriormente eram autores individuais que entravam com ações, agora organizações cujas marcas estão diretamente associadas à confiabilidade e autoridade acadêmica estão entrando em ação. Isto já não é apenas uma história sobre direitos autorais—é uma história sobre quem é proprietário da reputação de confiabilidade na era da IA.

A OpenAI responde tradicionalmente com o mesmo argumento: o treinamento em dados disponíveis publicamente se enquadra na doutrina de fair use na lei de direitos autorais americana. Um argumento adicional da empresa: ela não reproduz textos originais de forma literal, mas apenas treina padrões estatísticos neles. Nenhum desses argumentos recebeu ainda confirmação judicial definitiva.

A maioria dos casos está em estágios iniciais, e os tribunais ainda não desenvolveram uma posição consolidada sobre onde passa o limite de fair use em relação aos LLMs. É a participação de editoras de dicionários e enciclopédias que torna esta ação particularmente significativa. Seu produto não é notícia escrita sob prazo, nem blogs publicados para alcance.

É conhecimento de referência criado lenta e custosamente: verificado, estruturado, com rigorosos padrões editoriais. Tais dados são a base para respostas que a IA apresenta como fatos. Não é acidental que estes foram incluídos no corpus de treinamento.

E não é acidental que agora se encontrem no centro dos processos judiciais mais principiados da história da IA generativa. O resultado destes casos determinará as regras do jogo para toda a indústria. Uma vitória para os detentores de direitos obrigará as empresas de IA a licenciar retroativamente dados de treinamento—com consequências financeiras imprevisíveis.

Uma vitória para o conceito de fair use criará um precedente que efetivamente priva os autores de alavancagem na era da IA generativa. Enquanto o resultado permanece incerto, uma coisa é evidente: a indústria não pode indefinidamente construir o futuro sobre o passado de outros—sem concordar sobre os termos.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…