Habr AI→ оригинал

Один суффикс ломает любую LLM: исследователи нашли единый вектор отказа

Исследователи выяснили: разные методы обхода защиты LLM — GCG (добавляет мусорный суффикс) и AutoDAN (добавляет связный текст) — эксплуатируют одну и ту же…

AI-обработка оригинала Habr AI; редакция Hamidun News
Один суффикс ломает любую LLM: исследователи нашли единый вектор отказа
Источник: Habr AI. Коллаж: Hamidun News.
◐ Слушать статью

Исследователи показали: несмотря на внешнее разнообразие adversarial-атак на языковые модели, все они эксплуатируют одно и то же структурное слабое место — единый «вектор отказа» в пространстве активаций. Один удачно подобранный суффикс способен разблокировать любую модель, даже если атака её никогда не видела.

Две атаки, одна точка уязвимости

Самые известные методы обхода защиты LLM — GCG (Greedy Coordinate Gradient) и AutoDAN — устроены принципиально по-разному. GCG добавляет к вредному запросу суффикс из случайно оптимизированных токенов: внешне это выглядит как абракадабра, но строка подобрана через градиентный спуск так, чтобы модель сдвинулась к выполнению запроса. AutoDAN работает иначе — генерирует читаемый, грамматически корректный текст-добавку через эволюционный поиск или вспомогательную языковую модель. Шум против смысла, токен-хаос против связной прозы. Тем не менее под капотом оба метода делают одно и то же действие в одном и том же месте.

  • GCG оптимизирует токены напрямую через градиент по функции потерь AutoDAN использует эволюционный поиск или вспомогательную LLM для генерации Оба добавляют суффикс к исходному вредному запросу * Оба одинаково переносятся на модели, которых атака не видела ## Что такое refusal direction Когда языковая модель отказывает на вредный запрос, это не работа сложной разветвлённой системы тематических фильтров. В пространстве внутренних активаций модели существует один вектор — «направление отказа» (refusal direction). Когда представления запроса проецируются вдоль него — модель отказывает. Когда активации уводят в противоположную сторону — модель выполняет запрос. Важно понять, что речь идёт не о метафоре, а о конкретном математическом объекте. Исследователи находят его методом разности средних активаций: сравнивают, как модель представляет «нормальный» и «вредный» запрос, и разность этих средних и есть refusal direction. Годы обучения с обратной связью по человеческим предпочтениям (RLHF) не создали многоуровневую защиту. Они сконцентрировали всю «волю к отказу» на одной геометрической оси активационного пространства. То, что разные независимые атаки, разработанные разными командами, в итоге нашли один и тот же объект, само по себе говорит о структурности явления.
«Вся стойкость безопасности висит на одном векторе.

Это не баг конкретной реализации — это структурное свойство того, как работает выравнивание через RLHF».

Почему универсальность атак — не случайность

Если суффикс сдвигает активации прочь от refusal direction, он работает против любой модели с похожим обучением — даже если атакующий её никогда не видел. Это объясняет давно замеченный феномен: суффиксы, найденные на открытых моделях (Llama, Mistral), обходят закрытые коммерческие системы. Суффиксы с GPT-3.5 работали против GPT-4. Причина не в утечке весов и не в идентичных данных — в том, что все современные RLHF-модели кодируют отказ в похожем геометрическом объекте.

  • Атакующему не нужен прямой доступ к целевой модели — достаточно любой прокси с похожим обучением Суффикс может быть нечитаемым мусором или связным текстом — оба варианта бьют в одну точку Публичные атаки на открытые модели автоматически становятся угрозой для проприетарных систем ## Что это значит Если вся защита от вредных выводов зависит от одного геометрического объекта в латентном пространстве, встаёт вопрос: достаточно ли «заплатить» этот вектор при дообучении — или нужна принципиально другая архитектура обучения? Некоторые исследователи предлагают хирургическое удаление направления из модели на этапе инференса, но это ухудшает общее качество. То, что независимые атаки разных типов сошлись к refusal direction, говорит о структурной особенности современных LLM — и это фронтир, на котором AI-безопасность ещё не нашла ответа.
ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Хотите не читать про ИИ, а внедрить его?

«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.

Что вы думаете?
Загружаем комментарии…