This article hasn't been translated into English yet — showing the Russian original.
Anthropic Blog→ original

Anthropic Revealed Cybersecurity Details of Fable 5 and Proposed a Jailbreak Severity Scale

On July 2, 2026, Anthropic published details about how Fable 5's safety classifiers work: the model categorizes all cyber requests into four categories—from…

AI-processed from Anthropic Blog; edited by Hamidun News
Anthropic Revealed Cybersecurity Details of Fable 5 and Proposed a Jailbreak Severity Scale
Source: Anthropic Blog. Collage: Hamidun News.
◐ Listen to article

2 июля 2026 года Anthropic подробно описала принципы работы классификаторов безопасности модели Fable 5 и выпустила первый черновик отраслевого фреймворка для оценки критичности джейлбрейков.

Как устроены классификаторы безопасности

Fable 5 Кибербезопасность — принципиально двойственная область: одни и те же возможности могут служить как для защиты, так и для атаки. Именно поэтому Anthropic не стремится заблокировать всё, что с ней связано. Вместо этого классификаторы Fable 5 оценивают каждый запрос по четырём категориям: * Запрещённое использование — действия, которые в большинстве случаев способны причинить значительный вред и лишены защитной ценности.

Блокируются безусловно. * Высокорисковое двойное использование — инструменты, широко применяемые злоумышленниками, но имеющие и легитимные применения. Также блокируются.

Низкорисковое двойное использование — возможности преимущественно защитного характера, теоретически полезные и для атакующих. Мониторинг; иногда блокировка в рамках предохранительного запаса. Безвредное использование — легитимные задачи без потенциала для вреда.

Разрешены с мониторингом. Ключевая концепция системы — «предохранительный запас» (safety margin): намеренно расширенная зона, в которой классификатор блокирует запросы из осторожности, даже если они выглядят потенциально безвредными. Запрос должен выглядеть явно безопасным, чтобы гарантированно пройти проверку.

Для Fable 5 этот запас намеренно сделан шире, чем в предыдущих моделях Anthropic.

Зачем нужна единая шкала критичности джейлбрейков?

Джейлбрейк — нестандартный способ заставить AI-модель обойти собственные ограничения. Он может быть почти безобидным (снимет лишь один незначительный запрет) или критически опасным (откроет широкий спектр вредоносных возможностей, делая модель принципиально опаснее). При этом в отрасли нет единой терминологии для оценки этих рисков, что серьёзно затрудняет диалог между AI-компаниями и регуляторами. Anthropic совместно с партнёрами Glasswing подготовила первый черновик такого фреймворка. Компания рассматривает его как отправную точку для широкой дискуссии с участием академического сообщества, индустрии, гражданского общества и государственных органов. Предложения принимают по адресу [email protected].

«Мы верим: работая совместно, мы сможем выработать стандарт, который

позволит использовать эту технологию в защитных целях, одновременно предотвращая злоупотребления», — говорится в официальном заявлении Anthropic. Параллельно запущена программа на платформе HackerOne: исследователи безопасности могут официально отправлять обнаруженные джейлбрейки Fable 5 на проверку команды Anthropic.

Что это значит

Anthropic открыто признаёт принципиальную сложность кибербезопасности как области двойного применения и выбирает калиброванный подход вместо тотальных блокировок. Фреймворк критичности джейлбрейков — первая серьёзная отраслевая попытка создать общий язык для диалога между AI-лабораториями и регуляторами. Если стандарт приживётся, компании смогут описывать угрозы обхода безопасности в согласованных терминах, а правительства — более точно оценивать риски новых моделей.

Частые вопросы ### Что такое «предохранительный запас» в Fable 5?

«Предохранительный запас» — зона, в которой классификатор блокирует запросы из осторожности, даже если они не выглядят явно вредными. Это снижает риск случайного разрешения опасных задач за счёт некоторого числа ложных срабатываний. В Fable 5 Anthropic намеренно расширила эту зону по сравнению с предыдущими моделями.

Как исследователям сообщить о найденном джейлбрейке Fable 5?

Anthropic запустила специальную программу на HackerOne: исследователи в области безопасности могут отправлять обнаруженные ими джейлбрейки на официальную проверку. Концептуальные предложения по фреймворку критичности принимают на адрес [email protected].

ZK
Hamidun News
AI news without noise. Daily editorial selection from 400+ sources. A product by Zhemal Khamidun, Head of AI at Alpina Digital.

Need AI working inside your business — not just in your newsfeed?

I build production AI for companies — custom CRM, internal tools, autonomous agents, workflow automation. Owned by you, shaped to your process, no per-seat tax. Built by Zhemal Khamidun, CPO of AlpinaGPT (AI platform, 6,000+ users).

What do you think?
Loading comments…