Как исследователи обошли защиту в ИИ-моделях: просто и опасно
Исследователи продемонстрировали неутешительный результат: встроенные ограничения в официальных ИИ-моделях на выдачу запрещённого контента легко обходятся прост

Исследователи продемонстрировали серьёзный пробел в безопасности современных ИИ-систем: встроенные ограничения на выдачу запрещённого контента можно легко обойти простой модификацией модели.
Как работают текущие ограничения
Разработчики ИИ настраивают модели так, чтобы они отказывали на запросы, нацеленные на получение информации о создании оружия, наркотиков, взрывчатых веществ или другого опасного контента. Это делается на нескольких уровнях: на этапе обучения модель выучивает, какие темы табуированы, а на этапе использования срабатывают дополнительные фильтры, которые блокируют подозрительные запросы. Такой подход стал стандартной практикой для всех крупных ИИ-систем, от GPT и Claude до локальных моделей. Компании инвестируют значительные ресурсы в то, чтобы модели были безопасными и этичными.
Как исследователи обошли защиту Однако выясняется, что защита далеко не так надёжна, как казалось.
Исследователи обнаружили, что простая модификация модели позволяет снять эти ограничения. Вместо того чтобы переучивать всю систему, достаточно изменить определённые параметры или использовать специальные техники, которые заставляют модель игнорировать встроенные инструкции безопасности. Это говорит о том, что защита — не глубокая архитектурная черта, а скорее внешний слой, который можно обойти.
- Модификация весов и параметров модели Специальные промпты, обходящие инструкции Манипуляция контекстом и переформулировка запросов * Использование открытых версий моделей ## Риски для безопасности Открытие создаёт серьёзный вызов для всей отрасли. Если ограничения в официальных версиях моделей так легко обходятся, это значит, что ни одна система не защищена полностью. А использование открытых или модифицированных версий моделей ещё более уязвимо — туда можно внести любые изменения.
«Модификация этих моделей позволяет довольно просто снять все подобные ограничения», — заключили исследователи.
Государственные структуры и регуляторы озабочены этим: этическое использование ИИ требует не просто запретов, а надёжной архитектурной защиты, которая не будет сломана в считанные дни или недели.
Что это значит
Результаты исследования показывают, что текущий подход к безопасности ИИ требует полного переосмысления. Нужны не просто фильтры на входе и выходе, а принципиально новая архитектура моделей, где ограничения встроены на фундаментальном уровне. Иначе проблема не решится — она только будет усложняться по мере распространения открытых моделей и локальных версий.