Безопасность

Конституционный ИИ

Конституционный ИИ — метод обучения языковых моделей, разработанный Anthropic, при котором поведение модели направляется набором явных принципов («конституцией») через механизм самокритики и итерационного исправления ответов.

Конституционный ИИ (Constitutional AI, CAI) — методология безопасного обучения больших языковых моделей, предложенная компанией Anthropic в декабре 2022 года. Вместо того чтобы полностью полагаться на ручную разметку вредоносного контента, система получает набор явно сформулированных принципов — «конституцию» — и самостоятельно использует их для оценки и переработки собственных ответов.

Обучение проходит в два этапа. На первом — дистилляция под наблюдением — модель генерирует ответ на потенциально опасный запрос, затем критикует его с позиции каждого принципа конституции и переписывает. На втором применяется RLAIF (Reinforcement Learning from AI Feedback): отдельная копия модели ранжирует пары ответов по соответствию принципам, и эти оценки заменяют часть дорогостоящей разметки людьми.

Подход снижает зависимость от разметчиков-людей и делает политику модели прозрачной и аудируемой: принципы можно прочитать, обсудить и изменить. Это особенно важно с точки зрения масштабируемого надзора — по мере роста возможностей моделей оценивать каждый их ответ вручную становится практически невозможным.

Конституционный ИИ лежит в основе всей линейки моделей Claude: начиная с Claude 2 (2023) через Claude 3 (2024) до Claude 4 (2025–2026). К 2026 году аналогичные подходы — явные принципы с петлями самопроверки — вошли в стандартную практику и у других крупных разработчиков ИИ.

Пример

При запросе о синтезе опасных химических веществ Claude применяет принципы конституции, критикует черновой вариант ответа, переформулирует его, отказываясь от вредоносной информации, и указывает, какой именно принцип запрещает её раскрывать.

Связанные термины

Выравнивание ИИ (алайнмент)RLAIF (обучение с подкреплением на обратной связи от ИИ)RLHF (обучение с подкреплением на человеческой обратной связи)Безопасность ИИ

← Глоссарий