Anthropic Reveló Detalles de la Seguridad Cibernética de Fable 5 y Propuso una Escala de Severidad de Jailbreak
El 2 de julio de 2026, Anthropic publicó detalles sobre cómo funcionan los clasificadores de seguridad de Fable 5: el modelo categoriza todas las solicitudes…
Procesado por IA desde Anthropic Blog; editado por Hamidun News
2 июля 2026 года Anthropic подробно описала принципы работы классификаторов безопасности модели Fable 5 и выпустила первый черновик отраслевого фреймворка для оценки критичности джейлбрейков.
Как устроены классификаторы безопасности
Fable 5 Кибербезопасность — принципиально двойственная область: одни и те же возможности могут служить как для защиты, так и для атаки. Именно поэтому Anthropic не стремится заблокировать всё, что с ней связано. Вместо этого классификаторы Fable 5 оценивают каждый запрос по четырём категориям: * Запрещённое использование — действия, которые в большинстве случаев способны причинить значительный вред и лишены защитной ценности.
Блокируются безусловно. * Высокорисковое двойное использование — инструменты, широко применяемые злоумышленниками, но имеющие и легитимные применения. Также блокируются.
Низкорисковое двойное использование — возможности преимущественно защитного характера, теоретически полезные и для атакующих. Мониторинг; иногда блокировка в рамках предохранительного запаса. Безвредное использование — легитимные задачи без потенциала для вреда.
Разрешены с мониторингом. Ключевая концепция системы — «предохранительный запас» (safety margin): намеренно расширенная зона, в которой классификатор блокирует запросы из осторожности, даже если они выглядят потенциально безвредными. Запрос должен выглядеть явно безопасным, чтобы гарантированно пройти проверку.
Для Fable 5 этот запас намеренно сделан шире, чем в предыдущих моделях Anthropic.
Зачем нужна единая шкала критичности джейлбрейков?
Джейлбрейк — нестандартный способ заставить AI-модель обойти собственные ограничения. Он может быть почти безобидным (снимет лишь один незначительный запрет) или критически опасным (откроет широкий спектр вредоносных возможностей, делая модель принципиально опаснее). При этом в отрасли нет единой терминологии для оценки этих рисков, что серьёзно затрудняет диалог между AI-компаниями и регуляторами. Anthropic совместно с партнёрами Glasswing подготовила первый черновик такого фреймворка. Компания рассматривает его как отправную точку для широкой дискуссии с участием академического сообщества, индустрии, гражданского общества и государственных органов. Предложения принимают по адресу [email protected].
«Мы верим: работая совместно, мы сможем выработать стандарт, который
позволит использовать эту технологию в защитных целях, одновременно предотвращая злоупотребления», — говорится в официальном заявлении Anthropic. Параллельно запущена программа на платформе HackerOne: исследователи безопасности могут официально отправлять обнаруженные джейлбрейки Fable 5 на проверку команды Anthropic.
Что это значит
Anthropic открыто признаёт принципиальную сложность кибербезопасности как области двойного применения и выбирает калиброванный подход вместо тотальных блокировок. Фреймворк критичности джейлбрейков — первая серьёзная отраслевая попытка создать общий язык для диалога между AI-лабораториями и регуляторами. Если стандарт приживётся, компании смогут описывать угрозы обхода безопасности в согласованных терминах, а правительства — более точно оценивать риски новых моделей.
Частые вопросы ### Что такое «предохранительный запас» в Fable 5?
«Предохранительный запас» — зона, в которой классификатор блокирует запросы из осторожности, даже если они не выглядят явно вредными. Это снижает риск случайного разрешения опасных задач за счёт некоторого числа ложных срабатываний. В Fable 5 Anthropic намеренно расширила эту зону по сравнению с предыдущими моделями.
Как исследователям сообщить о найденном джейлбрейке Fable 5?
Anthropic запустила специальную программу на HackerOne: исследователи в области безопасности могут отправлять обнаруженные ими джейлбрейки на официальную проверку. Концептуальные предложения по фреймворку критичности принимают на адрес [email protected].
¿Necesitas IA funcionando dentro de tu empresa — no solo en tu feed de noticias?
Construyo IA en producción para empresas — CRM a medida, herramientas internas, agentes autónomos, automatización de procesos. Tuya, adaptada a tu proceso, sin coste por usuario. Creado por Zhemal Khamidun, CPO de AlpinaGPT (plataforma de IA, 6.000+ usuarios).
Lo esencial de la IA — una vez por semana
Siete historias que de verdad importaron, elegidas a mano. Sin ruido ni notas de prensa.
¡Listo! Revisa tu correo para la confirmación.