Anthropic раскрыла детали киберзащиты Fable 5 и предложила шкалу опасности джейлбрейков
Anthropic 2 июля 2026 года опубликовала подробности о работе классификаторов безопасности Fable 5: модель делит все киберзапросы на четыре категории — от…
AI-обработка оригинала Anthropic Blog; редакция Hamidun News
2 июля 2026 года Anthropic подробно описала принципы работы классификаторов безопасности модели Fable 5 и выпустила первый черновик отраслевого фреймворка для оценки критичности джейлбрейков.
Как устроены классификаторы безопасности
Fable 5 Кибербезопасность — принципиально двойственная область: одни и те же возможности могут служить как для защиты, так и для атаки. Именно поэтому Anthropic не стремится заблокировать всё, что с ней связано. Вместо этого классификаторы Fable 5 оценивают каждый запрос по четырём категориям: * Запрещённое использование — действия, которые в большинстве случаев способны причинить значительный вред и лишены защитной ценности.
Блокируются безусловно. * Высокорисковое двойное использование — инструменты, широко применяемые злоумышленниками, но имеющие и легитимные применения. Также блокируются.
Низкорисковое двойное использование — возможности преимущественно защитного характера, теоретически полезные и для атакующих. Мониторинг; иногда блокировка в рамках предохранительного запаса. Безвредное использование — легитимные задачи без потенциала для вреда.
Разрешены с мониторингом. Ключевая концепция системы — «предохранительный запас» (safety margin): намеренно расширенная зона, в которой классификатор блокирует запросы из осторожности, даже если они выглядят потенциально безвредными. Запрос должен выглядеть явно безопасным, чтобы гарантированно пройти проверку.
Для Fable 5 этот запас намеренно сделан шире, чем в предыдущих моделях Anthropic.
Зачем нужна единая шкала критичности джейлбрейков?
Джейлбрейк — нестандартный способ заставить AI-модель обойти собственные ограничения. Он может быть почти безобидным (снимет лишь один незначительный запрет) или критически опасным (откроет широкий спектр вредоносных возможностей, делая модель принципиально опаснее). При этом в отрасли нет единой терминологии для оценки этих рисков, что серьёзно затрудняет диалог между AI-компаниями и регуляторами. Anthropic совместно с партнёрами Glasswing подготовила первый черновик такого фреймворка. Компания рассматривает его как отправную точку для широкой дискуссии с участием академического сообщества, индустрии, гражданского общества и государственных органов. Предложения принимают по адресу [email protected].
«Мы верим: работая совместно, мы сможем выработать стандарт, который
позволит использовать эту технологию в защитных целях, одновременно предотвращая злоупотребления», — говорится в официальном заявлении Anthropic. Параллельно запущена программа на платформе HackerOne: исследователи безопасности могут официально отправлять обнаруженные джейлбрейки Fable 5 на проверку команды Anthropic.
Что это значит
Anthropic открыто признаёт принципиальную сложность кибербезопасности как области двойного применения и выбирает калиброванный подход вместо тотальных блокировок. Фреймворк критичности джейлбрейков — первая серьёзная отраслевая попытка создать общий язык для диалога между AI-лабораториями и регуляторами. Если стандарт приживётся, компании смогут описывать угрозы обхода безопасности в согласованных терминах, а правительства — более точно оценивать риски новых моделей.
Частые вопросы ### Что такое «предохранительный запас» в Fable 5?
«Предохранительный запас» — зона, в которой классификатор блокирует запросы из осторожности, даже если они не выглядят явно вредными. Это снижает риск случайного разрешения опасных задач за счёт некоторого числа ложных срабатываний. В Fable 5 Anthropic намеренно расширила эту зону по сравнению с предыдущими моделями.
Как исследователям сообщить о найденном джейлбрейке Fable 5?
Anthropic запустила специальную программу на HackerOne: исследователи в области безопасности могут отправлять обнаруженные ими джейлбрейки на официальную проверку. Концептуальные предложения по фреймворку критичности принимают на адрес [email protected].
Хотите не читать про ИИ, а внедрить его?
«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.
Главное из мира ИИ — раз в неделю
7 ключевых событий недели, отобранных вручную. Без шума, репостов и пресс-релизов.
Готово! Проверьте почту — мы отправили подтверждение.