Безопасность

Отказ модели

Отказ модели — поведение языковой модели, при котором она отклоняет запрос пользователя вместо его выполнения, сообщая, что запрос нарушает политику безопасности, потенциально опасен или выходит за границы допустимого использования.

Отказ модели (refusal) — намеренно заложенная форма поведения, при которой LLM не выполняет запрос и объясняет причину: содержание нарушает политику безопасности, запрос потенциально опасен, модель некомпетентна в теме или запрос противоречит ценностям, сформированным при обучении. Отказ противопоставлен «галлюцинированию» — выдаче ложного, но уверенного ответа — как более безопасная альтернатива в ситуациях неопределённости или риска.

Механизм отказа формируется несколькими слоями обучения. RLHF с оценками людей-аннотаторов: запросы, вызывающие небезопасные ответы, получают низкий рейтинг, и модель учится их избегать. Constitutional AI (Anthropic): модель самостоятельно оценивает ответ по набору принципов, затем пересматривает его. Отдельные классификаторы-«гарды» (guardrails) — например, Llama Guard или NeMo Guardrails — могут перехватывать запросы до того, как основная модель их обработала.

Ключевое напряжение возникает между избыточными и недостаточными отказами. Чрезмерно консервативная модель («over-refusal») отклоняет легитимные медицинские, юридические и образовательные запросы, снижая практическую ценность системы. Недостаточные отказы создают риски безопасности. Измерение этого баланса стало отдельной областью оценки: бенчмарки XSTest и WildGuard фиксируют доли ложноположительных и ложноотрицательных отказов у ведущих моделей.

По состоянию на 2026 год ведущие модели — GPT-4o, Claude 3.x, Gemini 1.5 и их преемники — заметно сократили число избыточных отказов по сравнению с поколением 2022–2023 годов. Возможность тонкой настройки порогов через API-параметры безопасности стала стандартным инструментом корпоративных развёртываний, позволяя операторам калибровать поведение модели под конкретный профессиональный контекст.

Пример

Медицинский AI-ассистент на платформе клиники отказывался отвечать на вопрос о дозировке ибупрофена для взрослых — пример избыточного отказа, устранённый тонкой настройкой системного промпта с явным указанием профессионального медицинского контекста.

Связанные термины

Выравнивание ИИ (алайнмент)Джейлбрейк Модерация контента

← Глоссарий