Anthropic обновила Responsible Scaling Policy — гибкая система защиты для растущих AI-моделей
Anthropic опубликовала значительное обновление своей политики управления рисками AI (Responsible Scaling Policy). Вместо универсального подхода компания вводит

Anthropic опубликовала обновление своей Responsible Scaling Policy — политики управления рисками при разработке мощных AI-систем. Это значительное обновление вносит более гибкий и нюансированный подход, сохраняя главный принцип: компания не будет обучать или развёртывать модели, пока не убедится, что риски находятся на приемлемом уровне.
Почему обновили политику
Год назад Anthropic выпустила первую версию RSP, разработанную для управления рисками растущих AI-систем. Но год практической реализации показал необходимость более гибкого подхода. Компания следит не только за техническими способностями моделей, но и за их потенциальными рисками и последствиями. Anthropic мониторит несколько категорий угроз одновременно. Это классические проблемы вроде распространения дезинформации, подстрекательства к насилию и мошенничества — все они покрыты Usage Policy компании. Но RSP сфокусирована на более амбициозных катастрофических сценариях, которые могут возникнуть при достижении моделями определённого уровня независимости и способности к сложным манипуляциям. Обновленная политика учитывает практический опыт и подходы, применяемые в других высокорисковых отраслях — авиации, ядерной энергетике, фармацевтике. Это позволяет лучше готовиться к ускоряющемуся темпу AI-развития и строить системы защиты, которые масштабируются вместе с технологией.
Как устроены уровни ASL
Основу новой системы составляет принцип пропорциональной защиты: меры безопасности должны расти вместе с рисками. Anthropic ввела AI Safety Level Standards (ASL Standards) — градуированные наборы технических и процедурных требований, вдохновленные международными Biosafety Levels, которые используются в лаборатории для работы с опасными материалами. Система начинается с ASL-1 для моделей с базовыми способностями (например, специализированные боты для шахмат или быстрого поиска информации) и поднимается до ASL-2, ASL-3 и далее по мере роста возможностей и потенциальных рисков.
Каждый уровень выше предполагает более строгие требования: Усиленный мониторинг и логирование всех операций, проводимых моделью Более строгие предварительные тесты на безопасность перед развёртыванием Дополнительные слои контроля доступа, изоляции и сегментации Обязательные независимые аудиты и проверки со стороны внешних экспертов по безопасности * Более частые переоценки потенциальных рисков по мере появления новых данных На текущий момент все модели Anthropic работают под стандартом ASL-2, который компания считает отражающим лучшие практики в индустрии на сегодняшний день.
Пороги возможностей — когда нужна боевая готовность
Вместо размытых и субъективных критериев Anthropic определила конкретные пороги, или Capability Thresholds — специфические способности модели, при достижении которых требуются более мощные меры безопасности и новый уровень ASL. Пока что определены два ключевых порога. Первый — Autonomous AI R&D: если модель сможет самостоятельно проводить сложные исследовательские задачи в области AI, которые обычно требуют человеческого опыта и интуиции, это потенциально может значительно ускорить AI-развитие в непредсказуемом направлении. Второй порог упомянут в исходном документе, но его полное описание пока не раскрыто. Компания оставляет возможность расширения этого списка по мере того, как лучше понимает реальное влияние новых способностей на практике.
Что это значит
Anthropic демонстрирует, что безопасность AI не должна быть ни иррациональной блокадой, ни полным отсутствием контроля. Вместо этого компания строит масштабируемую систему, которая растет вместе с технологией и адаптируется к реальным рискам. Такой подход важен и для других разработчиков. Если идеи Anthropic получат широкое признание в сообществе, они могут стать де-факто отраслевым стандартом. Это особенно актуально для регуляторов, которые сейчас ищут практические рамки для надзора за AI-системами.