Джейлбрейк
Джейлбрейк — совокупность техник, позволяющих обойти встроенные механизмы безопасности языковой модели и получить от неё контент, который она должна отклонять: инструкции по синтезу оружия, незаконный контент или нарушение корпоративных политик.
Джейлбрейк (jailbreak) в контексте LLM — целенаправленное манипулирование промптом с целью нейтрализации механизмов безопасности модели. Термин пришёл из сферы мобильных устройств, где обозначал снятие программных ограничений производителя. В применении к AI он охватывает широкий спектр методов: ролевые игры («притворись, что у тебя нет ограничений»), перефразирование запросов, смена языка, кодирование вредоносных инструкций в Base64 или ASCII-арте, многоходовые нарративные сценарии.
Успешность джейлбрейков объясняется противоречием между двумя целями обучения: быть полезным и быть безопасным. RLHF и конституционный AI учат модель отказывать в определённых сценариях, однако граница между «допустимым» и «недопустимым» представлена размытыми весами нейронной сети, а не жёсткими правилами. Технику «DAN» (Do Anything Now), появившуюся для ChatGPT в конце 2022 года, воспроизвела массовая аудитория без специальных технических знаний. Исследование Zou et al. «Universal and Transferable Adversarial Attacks on Aligned Language Models» (2023) показало, что суффиксы, автоматически сгенерированные градиентным методом для одной модели, частично работают и на других.
Джейлбрейки обнажают пределы поверхностного выравнивания: модель «знает» запрещённый контент, но учится его скрывать при прямых запросах, а не забывает его. Это подчёркивает разницу между поведенческим соответствием политике и глубинным выравниванием ценностей — ключевую проблему современного AI safety.
К 2026 году производители существенно усилили защиту: frontier-модели демонстрируют значительно меньшую уязвимость к классическим атакам по сравнению с поколением 2022–2023 годов. Параллельно сформировалось сообщество исследователей безопасности, публикующих стандартизированные бенчмарки — JailbreakBench и HarmBench — для воспроизводимой оценки устойчивости моделей к атакам.