TechCrunch→ оригинал

Merriam-Webster وEncyclopedia Britannica تقاضيان OpenAI بسبب 100 ألف مقال

رفعت Merriam-Webster وEncyclopedia Britannica دعوى قضائية ضد OpenAI. وتقولان إن الشركة استخدمت من دون إذن نحو 100 ألف مقال محمي بحقوق الطبع والنشر لتدريب نماذج

Merriam-Webster وEncyclopedia Britannica تقاضيان OpenAI بسبب 100 ألف مقال
Источник: TechCrunch. Коллаж: Hamidun News.

Merriam-Webster и Encyclopedia Britannica обратились в суд с иском против OpenAI, обвинив компанию в массовом нарушении авторских прав. По версии истцов, OpenAI без какого-либо разрешения и без выплаты компенсации использовала почти 100 000 защищённых авторским правом статей для обучения своих больших языковых моделей. Merriam-Webster — один из старейших и наиболее авторитетных словарей английского языка, основанный ещё в 1831 году.

Encyclopedia Britannica появилась ещё раньше: она выходит с 1768 года и на протяжении двух с половиной столетий оставалась главной англоязычной энциклопедией мира. За это время редакторы обеих организаций создали один из самых обширных и строго выверенных корпусов справочных текстов. Именно такой тип данных — точный, многократно проверенный, привязанный к конкретным определениям и датам — особенно ценен при обучении языковых моделей, которые должны давать фактически достоверные ответы.

Суть претензий состоит в следующем: OpenAI при формировании обучающих датасетов для своих LLM систематически включала в них материалы этих изданий без заключения лицензионных договоров. Согласно иску, речь идёт почти о 100 000 статей — это не случайная выборка из общедоступной сети, а целенаправленное масштабное заимствование профессионально созданного контента. Создание этих материалов потребовало многолетнего труда тысяч лексикографов, исследователей, научных редакторов и отраслевых экспертов.

Весь этот труд теперь, по сути, используется как топливо для коммерческого продукта — без оплаты и без согласия. Иск вписывается в широкую волну судебных претензий к OpenAI. Ранее аналогичные требования предъявляли New York Times, крупные литературные агентства, Ассоциация авторов США, объединения независимых журналистов и ряд известных писателей.

Общая логика всех этих исков неизменна: ИИ-компании построили многомиллиардный бизнес на чужом интеллектуальном труде — не заплатив ни цента и не спросив разрешения. Масштаб претензий нарастает: если раньше иски подавали отдельные авторы, теперь в бой вступают организации, чей бренд напрямую ассоциируется с достоверностью и академическим авторитетом. Это уже не только история про авторские права — это история про то, кому принадлежит репутация достоверности в эпоху ИИ.

OpenAI традиционно отвечает одним и тем же: обучение на публично доступных данных подпадает под доктрину fair use — добросовестного использования по американскому авторскому праву. Дополнительный аргумент компании: она не воспроизводит оригинальные тексты дословно, а лишь обучает на них статистические паттерны. Ни один из этих аргументов пока не получил окончательного судебного подтверждения.

Большинство дел находятся на ранних стадиях, и суды ещё не выработали консолидированной позиции о том, где проходит граница fair use применительно к LLM. Именно участие словарных и энциклопедических издателей делает этот иск особенным. Их продукт — не новости, написанные под дедлайн, и не блоги, публикуемые ради охвата.

Это медленно и дорого создаваемые справочные знания: верифицированные, структурированные, с жёсткими редакционными стандартами. Такие данные — основа для ответов, которые ИИ преподносит как факты. Не случайно именно их включили в обучающий корпус.

И не случайно именно они теперь оказались в центре самых принципиальных судебных разбирательств в истории генеративного ИИ. Исход этих дел определит правила игры для всей индустрии. Победа правообладателей обяжет ИИ-компании ретроспективно лицензировать обучающие данные — с непредсказуемыми финансовыми последствиями.

Победа концепции fair use создаст прецедент, де-факто лишающий авторов рычагов влияния в эпоху генеративного ИИ. Пока исход не ясен, но очевидно одно: индустрия не сможет бесконечно строить будущее на чужом прошлом — не договорившись об условиях.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…