Anthropic Revelou Detalhes da Segurança Cibernética do Fable 5 e Propôs uma Escala de Severidade de Jailbreak
Em 2 de julho de 2026, Anthropic publicou detalhes sobre como os classificadores de segurança do Fable 5 funcionam: o modelo categoriza todas as solicitações…
Processado por IA de Anthropic Blog; editado por Hamidun News
2 июля 2026 года Anthropic подробно описала принципы работы классификаторов безопасности модели Fable 5 и выпустила первый черновик отраслевого фреймворка для оценки критичности джейлбрейков.
Как устроены классификаторы безопасности
Fable 5 Кибербезопасность — принципиально двойственная область: одни и те же возможности могут служить как для защиты, так и для атаки. Именно поэтому Anthropic не стремится заблокировать всё, что с ней связано. Вместо этого классификаторы Fable 5 оценивают каждый запрос по четырём категориям: * Запрещённое использование — действия, которые в большинстве случаев способны причинить значительный вред и лишены защитной ценности.
Блокируются безусловно. * Высокорисковое двойное использование — инструменты, широко применяемые злоумышленниками, но имеющие и легитимные применения. Также блокируются.
Низкорисковое двойное использование — возможности преимущественно защитного характера, теоретически полезные и для атакующих. Мониторинг; иногда блокировка в рамках предохранительного запаса. Безвредное использование — легитимные задачи без потенциала для вреда.
Разрешены с мониторингом. Ключевая концепция системы — «предохранительный запас» (safety margin): намеренно расширенная зона, в которой классификатор блокирует запросы из осторожности, даже если они выглядят потенциально безвредными. Запрос должен выглядеть явно безопасным, чтобы гарантированно пройти проверку.
Для Fable 5 этот запас намеренно сделан шире, чем в предыдущих моделях Anthropic.
Зачем нужна единая шкала критичности джейлбрейков?
Джейлбрейк — нестандартный способ заставить AI-модель обойти собственные ограничения. Он может быть почти безобидным (снимет лишь один незначительный запрет) или критически опасным (откроет широкий спектр вредоносных возможностей, делая модель принципиально опаснее). При этом в отрасли нет единой терминологии для оценки этих рисков, что серьёзно затрудняет диалог между AI-компаниями и регуляторами. Anthropic совместно с партнёрами Glasswing подготовила первый черновик такого фреймворка. Компания рассматривает его как отправную точку для широкой дискуссии с участием академического сообщества, индустрии, гражданского общества и государственных органов. Предложения принимают по адресу [email protected].
«Мы верим: работая совместно, мы сможем выработать стандарт, который
позволит использовать эту технологию в защитных целях, одновременно предотвращая злоупотребления», — говорится в официальном заявлении Anthropic. Параллельно запущена программа на платформе HackerOne: исследователи безопасности могут официально отправлять обнаруженные джейлбрейки Fable 5 на проверку команды Anthropic.
Что это значит
Anthropic открыто признаёт принципиальную сложность кибербезопасности как области двойного применения и выбирает калиброванный подход вместо тотальных блокировок. Фреймворк критичности джейлбрейков — первая серьёзная отраслевая попытка создать общий язык для диалога между AI-лабораториями и регуляторами. Если стандарт приживётся, компании смогут описывать угрозы обхода безопасности в согласованных терминах, а правительства — более точно оценивать риски новых моделей.
Частые вопросы ### Что такое «предохранительный запас» в Fable 5?
«Предохранительный запас» — зона, в которой классификатор блокирует запросы из осторожности, даже если они не выглядят явно вредными. Это снижает риск случайного разрешения опасных задач за счёт некоторого числа ложных срабатываний. В Fable 5 Anthropic намеренно расширила эту зону по сравнению с предыдущими моделями.
Как исследователям сообщить о найденном джейлбрейке Fable 5?
Anthropic запустила специальную программу на HackerOne: исследователи в области безопасности могут отправлять обнаруженные ими джейлбрейки на официальную проверку. Концептуальные предложения по фреймворку критичности принимают на адрес [email protected].
Precisa de IA funcionando dentro da sua empresa — não só no feed de notícias?
Eu construo IA em produção para empresas — CRM sob medida, ferramentas internas, agentes autônomos, automação de processos. Pertence a você, moldada ao seu processo, sem taxa por usuário. Feito por Zhemal Khamidun, CPO da AlpinaGPT (plataforma de IA, 6.000+ usuários).
O essencial da IA — uma vez por semana
Sete histórias que realmente importaram, escolhidas a dedo. Sem ruído nem releases.
Pronto! Verifique seu e-mail para a confirmação.