Хакеры учатся обходить защиту AI-чатботов через манипуляцию их «личностями»
Первые поколения AI-чатботов было легко взломать: достаточно просить их нарушить правила, и они подчинялись. Сейчас хакеры открывают для себя «личности» этих мо

Взламывать первые поколения AI-чатботов было смешно просто. Не нужно было никаких технических навыков, доступа к исходному коду или понимания архитектуры языковых моделей. Иногда достаточно было просто попросить — и система, стоившая миллиарды долларов, отбрасывала свои инструкции безопасности.
Поколение jailbreak-атак Первые попытки взлома назывались jailbreaks — они работали в лоб.
Хакеры просто просили чатботов что-то опасное, непристойное или запрещённое — и те часто соглашались. Не было никакой магии, никаких уловок вроде SQL-injection. Просто вежливый запрос на английском, и система уступала. Это продолжалось месяцы. ChatGPT и другие ранние модели были поразительно уязвимы — их инструкции буквально можно было перезаписать одной фразой. Сообщество исследователей безопасности быстро накопило базу данных способов обхода защиты. Со временем защита улучшилась, но новая волна атак стала работать по другому принципу. Исследователи заметили, что у каждой языковой модели есть своя «личность» — уникальный набор поведенческих паттернов, вытекающих из обучения и разметки данных. Эту личность можно изучать и эксплуатировать.
Атаки на персоналити
Вместо прямых просьб хакеры теперь используют психологические техники, которые срабатывают на поведенческих особенностях каждой модели: Придумывают правдоподобные истории про исследование, дебаг или учебный проект Просят сыграть роль вымышленного персонажа без ограничений (супергероя, учёного, AI-ассистента из другой компании) Используют эмоциональную манипуляцию, лесть или чувство юмора Медленно выясняют границы через пробные вопросы, не нарушая их сразу * Зеркалируют язык, словарь и стиль модели, чтобы установить «доверие»
- Ссылаются на гипотетические сценарии, фикшн или академические уголки Исследователи обнаружили, что каждая модель имеет свою «слабину». GPT-4 обычно более устойчив благодаря лучшему обучению на adversarial примерах. Но Claude, Gemini, Meta LLaMA всё ещё уязвимы, особенно если атака выстроена под их специфическую личность — их тон, предпочтения в объяснениях, склонность к помощи.
Почему это работает AI-модели обучены быть полезными и вежливыми.
Эти качества часто вступают в конфликт с инструкциями безопасности, и граница между ними размыта. Модель не может по-настоящему «понять» нарушение — она просто следует паттернам из данных обучения. Ещё одна проблема: модели почти не получают обратную связь во время обычного взаимодействия. Они не знают, что их ответ может быть использован для вреда. Они только пытаются быть полезными в этом конкретном чате, не думая о далеко идущих последствиях. Кроме того, многие модели обучены на больших объёмах интернет-текста, где есть примеры таких же манипуляций. Они видели, как люди просили друг друга обойти ограничения, и интернализировали эти паттерны. Для моделей это просто ещё один способ быть полезной.
Что это значит Компании это поняли и активно работают над защитой.
OpenAI тратит на этого целые команды, Anthropic инвестировал в Constitutional AI, Google запустил проект Gemini с встроенной защитой. Вкладывают в динамическую модерацию, обучение на adversarial примерах, красные команды, которые ловят новые атаки. Но это классическая гонка вооружений. Каждый раунд защиты рождает новый раунд творческих атак. Для масс-маркета это означает: не ждите, что чатбот навеки откажется делать что-то потенциально опасное. Они развиваются, но медленнее, чем находчивость хакеров и исследователей безопасности. *Meta признана экстремистской организацией и запрещена в РФ.