Claude и миллион мертвых книг: как ИИ сожрал наше наследие
Когда OpenAI выпустила ChatGPT, индустрия сошла с ума. Чтобы догнать лидера, Anthropic и другие игроки начали пылесосить интернет, поглощая миллионы защищенных

Помните тот тихий ноябрь 2022 года, когда мир еще не знал, что такое галлюцинации нейросетей? OpenAI тогда не просто выпустила продукт, она выстрелила из стартового пистолета, звук которого заставил всех гигантов Кремниевой долины бросить свои уютные метавселенные и побежать. В этой гонке Claude от компании Anthropic стал одним из главных претендентов на корону. Но за блестящим фасадом вежливого и безопасного ИИ скрывается кладбище из миллионов книг, которые никто не разрешал использовать. Будем честны: Claude существует в его нынешнем виде только потому, что индустрия решила игнорировать правила приличия ради скорости.
Индустрия ИИ сегодня напоминает эпоху дикого капитализма, где вместо золотых приисков — массивы данных. Когда стало понятно, что ChatGPT — это не просто игрушка, а фундамент новой экономики, вопрос этики отошел на десятый план. Чтобы научить модель рассуждать, ей недостаточно текстов из Reddit или Википедии. Ей нужны сложные структуры, богатый словарный запас и глубокие контексты, которые можно найти только в качественной литературе. Так миллионы книг, защищенных авторским правом, превратились в «обучающую выборку» без согласия их создателей. Вы ведь не думали, что нейросети учатся на детских сказках из общественного достояния?
Anthropic часто позиционирует себя как «хороших парней» от мира ИИ, фокусируясь на безопасности и этичности. Но ирония в том, что даже самые «безопасные» модели строятся на фундаменте из сомнительного контента. Наборы данных вроде Books3, содержащие сотни тысяч наименований из теневых библиотек, стали тем секретным ингредиентом, который позволил Claude догнать и в чем-то перегнать разработки Сэма Альтмана. Для корпораций это была простая математика: либо ты используешь всё, что плохо лежит, либо твой конкурент сделает это первым и захватит рынок. В этой логике книги — это просто уголь для топки прогресса.
Почему это важно именно сейчас? Мы подходим к моменту, когда «человеческие» данные просто заканчиваются. Нейросети уже прочитали почти всё, что мы написали за последние столетия. И теперь авторы — от романистов до технических писателей — обнаруживают, что их многолетний труд стал бесплатным топливом для систем, которые в будущем могут их же и заменить. Это не просто кража контента, это фундаментальный сдвиг в понимании интеллектуальной собственности. Если раньше вы покупали книгу, чтобы прочитать её, то теперь корпорации забирают её, чтобы научить машину имитировать ваш стиль и логику мышления.
Судебные иски от авторов вроде Сары Сильверман или Джорджа Мартина — это лишь верхушка айсберга. Проблема в том, что юридическая система неповоротлива, а ИИ-индустрия движется со скоростью света. Пока суды годами будут решать, является ли обучение нейросети «добросовестным использованием», модели уже обучены, веса сохранены, а миллиарды долларов инвестиций освоены. Anthropic и другие игроки сделали ставку на то, что победителей не судят. Или, по крайней мере, штрафы за нарушение авторских прав будут каплей в море по сравнению с будущей капитализацией.
В конечном итоге мы имеем странный симбиоз. Claude может проанализировать для вас сложный юридический документ или написать эссе в стиле Пруста именно потому, что он «проглотил» тысячи подобных текстов без спроса. Мы получили невероятный инструмент, но цена его создания — девальвация человеческого труда как такового. Книги не просто послужили базой, они были переработаны в цифровой фарш, из которого слепили новые, удобные для потребления интерфейсы. И теперь нам с этим жить, пользуясь плодами этой интеллектуальной экспроприации.
Главное: Anthropic и OpenAI построили свои империи на данных, которые им не принадлежали, и теперь пути назад нет. Сможет ли индустрия выжить, если за каждую «прочитанную» книгу всё-таки придется платить по счетам?