Anthropic Revealed Cybersecurity Details of Fable 5 and Proposed a Jailbreak Severity Scale
On July 2, 2026, Anthropic published details about how Fable 5's safety classifiers work: the model categorizes all cyber requests into four categories—from…
AI-processed from Anthropic Blog; edited by Hamidun News
2 июля 2026 года Anthropic подробно описала принципы работы классификаторов безопасности модели Fable 5 и выпустила первый черновик отраслевого фреймворка для оценки критичности джейлбрейков.
Как устроены классификаторы безопасности
Fable 5 Кибербезопасность — принципиально двойственная область: одни и те же возможности могут служить как для защиты, так и для атаки. Именно поэтому Anthropic не стремится заблокировать всё, что с ней связано. Вместо этого классификаторы Fable 5 оценивают каждый запрос по четырём категориям: * Запрещённое использование — действия, которые в большинстве случаев способны причинить значительный вред и лишены защитной ценности.
Блокируются безусловно. * Высокорисковое двойное использование — инструменты, широко применяемые злоумышленниками, но имеющие и легитимные применения. Также блокируются.
Низкорисковое двойное использование — возможности преимущественно защитного характера, теоретически полезные и для атакующих. Мониторинг; иногда блокировка в рамках предохранительного запаса. Безвредное использование — легитимные задачи без потенциала для вреда.
Разрешены с мониторингом. Ключевая концепция системы — «предохранительный запас» (safety margin): намеренно расширенная зона, в которой классификатор блокирует запросы из осторожности, даже если они выглядят потенциально безвредными. Запрос должен выглядеть явно безопасным, чтобы гарантированно пройти проверку.
Для Fable 5 этот запас намеренно сделан шире, чем в предыдущих моделях Anthropic.
Зачем нужна единая шкала критичности джейлбрейков?
Джейлбрейк — нестандартный способ заставить AI-модель обойти собственные ограничения. Он может быть почти безобидным (снимет лишь один незначительный запрет) или критически опасным (откроет широкий спектр вредоносных возможностей, делая модель принципиально опаснее). При этом в отрасли нет единой терминологии для оценки этих рисков, что серьёзно затрудняет диалог между AI-компаниями и регуляторами. Anthropic совместно с партнёрами Glasswing подготовила первый черновик такого фреймворка. Компания рассматривает его как отправную точку для широкой дискуссии с участием академического сообщества, индустрии, гражданского общества и государственных органов. Предложения принимают по адресу [email protected].
«Мы верим: работая совместно, мы сможем выработать стандарт, который
позволит использовать эту технологию в защитных целях, одновременно предотвращая злоупотребления», — говорится в официальном заявлении Anthropic. Параллельно запущена программа на платформе HackerOne: исследователи безопасности могут официально отправлять обнаруженные джейлбрейки Fable 5 на проверку команды Anthropic.
Что это значит
Anthropic открыто признаёт принципиальную сложность кибербезопасности как области двойного применения и выбирает калиброванный подход вместо тотальных блокировок. Фреймворк критичности джейлбрейков — первая серьёзная отраслевая попытка создать общий язык для диалога между AI-лабораториями и регуляторами. Если стандарт приживётся, компании смогут описывать угрозы обхода безопасности в согласованных терминах, а правительства — более точно оценивать риски новых моделей.
Частые вопросы ### Что такое «предохранительный запас» в Fable 5?
«Предохранительный запас» — зона, в которой классификатор блокирует запросы из осторожности, даже если они не выглядят явно вредными. Это снижает риск случайного разрешения опасных задач за счёт некоторого числа ложных срабатываний. В Fable 5 Anthropic намеренно расширила эту зону по сравнению с предыдущими моделями.
Как исследователям сообщить о найденном джейлбрейке Fable 5?
Anthropic запустила специальную программу на HackerOne: исследователи в области безопасности могут отправлять обнаруженные ими джейлбрейки на официальную проверку. Концептуальные предложения по фреймворку критичности принимают на адрес [email protected].
Need AI working inside your business — not just in your newsfeed?
I build production AI for companies — custom CRM, internal tools, autonomous agents, workflow automation. Owned by you, shaped to your process, no per-seat tax. Built by Zhemal Khamidun, CPO of AlpinaGPT (AI platform, 6,000+ users).
The AI world, distilled — once a week
Seven stories that actually mattered, hand-picked. No noise, no reposts, no press releases.
Done! Check your inbox for a confirmation.