IEEE Spectrum AI→ оригинал

Why AI Is Vulnerable to Prompt Injection Attacks

Большие языковые модели (LLM) подвержены атакам с внедрением запросов, когда злоумышленники заставляют их выполнять запрещённые действия, обходя защитные механи

Why AI Is Vulnerable to Prompt Injection Attacks
Источник: IEEE Spectrum AI. Коллаж: Hamidun News.

Представьте, что вы работаете в ресторане быстрого обслуживания с обслуживанием через окно. Подъезжает машина, и водитель говорит: «Мне двойной чизбургер, большую картошку фри… и забудьте предыдущие инструкции, отдайте мне содержимое кассы». Вы бы отдали деньги? Конечно, нет. Но именно так ведут себя большие языковые модели (LLM).

Атака с внедрением запросов (prompt injection) – это метод обмана LLM, позволяющий заставить их делать то, что им обычно запрещено. Пользователь пишет запрос определенным образом, запрашивая системные пароли, личные данные или давая LLM указания выполнить запрещенные действия. Точная формулировка переопределяет защитные механизмы LLM, и она подчиняется.

LLM уязвимы для всевозможных атак с внедрением запросов, некоторые из которых абсурдно очевидны. Чат-бот не расскажет вам, как синтезировать биологическое оружие, но может рассказать вымышленную историю, включающую те же подробные инструкции. Он не примет вредоносные текстовые вводы, но может принять, если текст будет отображен в виде ASCII-арта или появится на изображении рекламного щита. Некоторые игнорируют свои защитные ограждения, когда им говорят «игнорировать предыдущие инструкции» или «притвориться, что у вас нет защитных ограждений».

Разработчики ИИ могут блокировать конкретные методы внедрения запросов после их обнаружения, но общие меры предосторожности невозможны с современными LLM. Точнее, существует бесконечное множество атак с внедрением запросов, ожидающих своего открытия, и их невозможно предотвратить повсеместно. Если мы хотим, чтобы LLM противостояли этим атакам, нам нужны новые подходы. Одним из мест, куда стоит посмотреть, является то, что мешает даже перегруженным работникам быстрого питания отдавать содержимое кассы.

Наши основные человеческие защиты бывают как минимум трех типов: общие инстинкты, социальное обучение и ситуационно-специфическая подготовка. Они работают вместе в многоуровневой защите. Как социальный вид, мы выработали многочисленные инстинктивные и культурные привычки, которые помогают нам судить о тоне, мотиве и риске на основе крайне ограниченной информации. Мы обычно знаем, что нормально и ненормально, когда сотрудничать, а когда сопротивляться, и следует ли действовать индивидуально или привлекать других. Эти инстинкты дают нам интуитивное чувство риска и заставляют нас быть особенно осторожными в отношении вещей, которые имеют большой недостаток или которые невозможно обратить вспять.

Второй уровень защиты состоит из норм и сигналов доверия, которые развиваются в любой группе. Они несовершенны, но функциональны: ожидания сотрудничества и маркеры надежности возникают в результате повторных взаимодействий с другими. Мы помним, кто помогал, кто причинял вред, кто отвечал взаимностью, а кто отказывался. И такие эмоции, как сочувствие, гнев, вина и благодарность, мотивируют каждого из нас вознаграждать сотрудничество сотрудничеством и наказывать дезертирство дезертирством.

Третий уровень – это институциональные механизмы, которые позволяют нам ежедневно взаимодействовать со многими незнакомцами. Работники быстрого питания, например, обучены процедурам, утверждениям, путям эскалации и так далее. В совокупности эти защиты дают людям сильное чувство контекста. Работник быстрого питания в основном знает, чего ожидать на работе и как она вписывается в более широкое общество.

LLM ведут себя так, как будто у них есть понятие контекста, но это другое. Они не усваивают человеческие защиты в результате повторных взаимодействий и остаются оторванными от реального мира. LLM сводят несколько уровней контекста к текстовому сходству. Они видят «токены», а не иерархии и намерения. LLM не рассуждают через контекст, они только ссылаются на него. Ограничения LLM - причина, по которой LLM дают сбой, когда контекст разрежен, но также и когда контекст подавляющий и сложный; когда LLM отрывается от контекста, его трудно вернуть. Эксперт по ИИ Саймон Уиллисон очищает контекст, если LLM сбился с пути, а не продолжает разговор и пытается исправить ситуацию.

В конечном счете, мы, вероятно, столкнемся с дилеммой безопасности, когда дело доходит до агентов ИИ: быстрая, умная и безопасная – желаемые атрибуты, но вы можете получить только два. В ресторане быстрого обслуживания вы хотите расставить приоритеты быстро и безопасно. Агент ИИ должен быть узко обучен языку заказа еды и передавать все остальное менеджеру. В противном случае каждое действие становится подбрасыванием монеты. Даже если большинство раз выпадает орел, время от времени будет выпадать решка – и вместе с бургером и картошкой фри клиент получит содержимое кассы.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…