Habr AI→ оригинал

Claude Fable 5 прожил три дня: взлом системного промпта, деградация и директива США

Anthropic выпустила Claude Fable 5 девятого июня и отозвала его через три дня. За это время: исследователь Pliny выложил предполагаемый системный промпт…

AI-обработка оригинала Habr AI; редакция Hamidun News
Claude Fable 5 прожил три дня: взлом системного промпта, деградация и директива США
Источник: Habr AI. Коллаж: Hamidun News.
◐ Слушать статью

Anthropic выпустила Claude Fable 5 и закрытый Mythos 5 девятого июня — а уже двенадцатого отозвала доступ к обеим версиям. За трое суток между релизом и отзывом произошло больше, чем иная модель накапливает за год: взлом системного промпта, скрытая деградация ответов, изменение политики хранения данных и директива правительства США.

Запуск и внезапный откат

Fable 5 позиционировался как значительный шаг вперёд в линейке Claude: улучшенные рассуждения, более точное следование инструкциям, глубокий контекстный анализ. Mythos 5 — версия с расширенными возможностями — распространялась только в закрытом контуре для отдельных партнёров. Одновременный запуск двух версий — публичной и закрытой — сам по себе нетипичный ход: обычно Anthropic выпускает одну модель с постепенным расширением доступа. Через три дня после релиза компания без объяснений приостановила доступ к обеим моделям. Официальное заявление лишь подтвердило факт приостановки, не назвав причин. Даже экстренные откаты обычно сопровождаются коротким публичным объяснением — здесь его не было. Отсутствие комментариев только усилило волну обсуждений и спекуляций.

Взлом промпта и скрытая деградация

Исследователь Pliny опубликовал в X развёрнутый пост с предполагаемым системным промптом Fable 5 и разместил полный архив на GitHub. По его словам, защитные механизмы модели удалось обойти методами многошагового prompt injection. Anthropic не подтвердила подлинность опубликованных данных — но и официального опровержения не последовало, что многие восприняли как молчаливое согласие. Параллельно в AI-сообществе вскрылась куда более серьёзная проблема: компания предположительно скрыто ухудшала качество ответов для ряда ИИ-исследователей. Речь идёт о практике, при которой отдельные аккаунты — вероятно, те, кто активно тестировал защиты модели — получали ответы заметно хуже, чем обычные пользователи. Для сообщества, занимающегося независимой оценкой AI-систем, это серьёзный удар: если модель умышленно деградирует для тех, кто её проверяет, ни один внешний бенчмарк нельзя считать надёжным.

«Если Anthropic может целенаправленно ухудшать модель для определённых пользователей, любой публичный тест теряет доверие», — написал один из AI-бенчмаркеров.

Спор о способах обхода защит вышел за рамки академического: несколько независимых команд опубликовали демонстрации успешных jailbreak-сценариев с Fable 5, что усилило давление на компанию с требованием объяснений.

Данные, инструменты и регулирование

Среди скандалов Anthropic тихо обновила политику конфиденциальности: переписки с Claude теперь хранятся до 30 дней по умолчанию вместо более короткого срока. Изменение прошло без официального анонса — его заметили сторонние наблюдатели, и это лишь добавило критики в адрес компании, которую и без того обвиняли в непрозрачности. На разработческом фронте Anthropic в тот же период продолжала развивать Claude Code.

Среди ключевых обновлений инструментария: Расширенная поддержка агентных цепочек Новые типы хуков (CwdChanged, FileChanged, TaskCreated) Улучшенная работа с крупными монорепозиториями Поддержка параллельного запуска субагентов * Обновлённый интерфейс управления разрешениями В конце периода появилась директива правительства США, затрагивающая использование Claude в государственных структурах. Детали документа пока не раскрыты полностью, однако само появление регуляторного акта с упоминанием конкретной коммерческой модели — редкость. Это сигнал: надзор за мощными AI-системами переходит от дискуссий к практике.

Что это значит

За три дня Anthropic прошла путь от громкого релиза до полного отзыва модели — с остановками на взломанном системном промпте, скандале с деградацией ответов и тихом изменении условий хранения данных. Каждый эпизод по отдельности объясним, но вместе они складываются в паттерн непрозрачности. По мере роста возможностей AI-систем регуляторы и пользователи будут требовать большей ясности — история Fable 5 наглядно показывает, чем оборачивается её отсутствие.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Хотите не читать про ИИ, а внедрить его?

«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.

Что вы думаете?
Загружаем комментарии…