Project Panama: Anthropic пускает миллионы книг под нож ради обучения Claude
Пока OpenAI судится с издательствами, Anthropic пошла по более радикальному пути. В сеть утекли детали «Project Panama» — секретной программы по оцифровке милли

Представьте себе огромный склад, забитый паллетами с книгами. Но это не библиотека и не тихий архив. Здесь не читают — здесь препарируют. Люди в спецовках аккуратно срезают корешки у новеньких томиков, превращая переплеты в стопки разрозненных листов, которые затем исчезают в недрах высокоскоростных сканеров. Это не сцена из антиутопии Рэя Брэдбери, а рабочие будни секретного подразделения компании Anthropic. Проект получил кодовое название Project Panama, и его детали только что всплыли в судебных архивах, заставив индустрию слегка поежиться от масштабов происходящего.
Anthropic долгое время строила имидж «этичной» альтернативы OpenAI. Пока Сэм Альтман агрессивно пылесосил интернет, создатели Claude говорили о безопасности и ответственности. Однако выяснилось, что когда дело доходит до нехватки качественных данных, этика уступает место промышленной мясорубке. Судебные материалы раскрыли, что в начале 2024 года руководство стартапа запустило амбициозный план по «деструктивному сканированию всех книг мира». Формулировка звучит зловеще, но с технической точки зрения она оправдана: чтобы сканировать быстро и без искажений, книгу нужно буквально уничтожить, превратив ее в набор плоских страниц.
Зачем такие сложности, когда есть электронные версии? Ответ кроется в качестве и правах. Легальные цифровые библиотеки стоят дорого и защищены жесткими лицензиями, а пиратские архивы вроде Shadow Libraries часто содержат ошибки распознавания текста. Для обучения моделей уровня Claude 3.5 или будущей Claude 4 нужны чистые, структурированные знания. Anthropic решила, что проще и дешевле скупить миллионы физических экземпляров, превратить их в труху и получить идеальные цифровые копии, чем договариваться с каждым правообладателем в отдельности. Бюджет операции составил десятки миллионов долларов — сумма, сопоставимая с затратами на закупку чипов H100.
Эта ситуация подсвечивает главную проблему современной ИИ-индустрии: «стена данных» — это не миф, а реальность. Человечество уже скормило нейросетям почти весь Reddit, Википедию и оцифрованные архивы газет. Но аппетиты моделей растут экспоненциально. Если раньше мы говорили о том, что ИИ заменит писателей, то теперь мы видим, как ИИ буквально пожирает их физическое наследие. Ирония ситуации в том, что стартап, оцениваемый в миллиарды долларов, вынужден заниматься логистикой макулатуры, чтобы получить преимущество в несколько процентов точности ответов чат-бота.
Секретность Project Panama объясняется просто: это выглядит ужасно с точки зрения пиара. Публике сложно продать идею «безопасного ИИ», который строится на руинах уничтоженных книг. Юристы Anthropic, вероятно, надеялись, что физическое владение книгой даст им некую лазейку в законе о «добросовестном использовании» (fair use). Мол, мы купили книгу, мы имеем право ее прочитать, даже если «читатель» — это алгоритм, а процесс чтения требует уничтожения носителя. Однако суды вряд ли будут столь благосклонны к массовому промышленному копированию.
Что это значит для нас? Мы вступили в эпоху, когда информация в физическом мире становится ценнее цифровой пыли. Если раньше мы оцифровывали книги, чтобы сохранить их для потомков, то теперь мы делаем это, чтобы скормить их «черному ящику», который выдаст нам краткое содержание в чате. Это радикальный сдвиг в культуре потребления знаний. Скоро мы можем столкнуться с дефицитом редких изданий просто потому, что какой-нибудь очередной ИИ-единорог решил выкупить весь тираж для обучения своей новой «языковой махины».
Главное: Anthropic показала, что в битве за данные пленных не берут. Готовы ли мы к тому, что интеллект будущего будет построен на пепле сожженных книг?