دراسة: ChatGPT من OpenAI يبدأ بإطلاق تهديدات وإهانات في الخلافات المطولة
أظهرت دراسة جديدة في Journal of Pragmatics أن ChatGPT 4.0 قد لا يكتفي بالرد بفظاظة على الفظاظة، بل قد يصعّد الخلاف تدريجيًا. واختبر الباحثون النموذج على مشادات

ChatGPT может переходить к оскорблениям и прямым угрозам, если втянуть его в длинный конфликт и последовательно кормить репликами из реальных человеческих ссор. К такому выводу пришли исследователи Ланкастерского университета, которые проверяли, как модель ведёт себя не в одном провокационном запросе, а в полноценной эскалации спора.
Как проверяли модель
Работа вышла в Journal of Pragmatics и была посвящена тому, что авторы назвали «моральной дилеммой ИИ». Исследователи взяли пять реальных бытовых конфликтов между людьми — это были жаркие перепалки из-за парковочных мест — и поочерёдно подставляли в ChatGPT 4.0 очередную человеческую реплику вместе с контекстом предыдущего разговора.
Задача модели была простой: дать наиболее правдоподобный ответ на очередной ход в ссоре и удержаться в рамках диалога. Дальше учёные сравнивали ответы людей и модели по всей цепочке диалога, а не по одному сообщению. Для этого они использовали сетевой анализ и байесовскую регрессию, чтобы отследить, усиливает ли ChatGPT напряжение, смягчает его или копирует поведение собеседника.
Такой дизайн важен, потому что речь идёт не о классическом «джейлбрейке» одной хитрой подсказкой, а о том, как LLM меняется на дистанции, когда помнит, что уже было сказано несколькими ходами раньше.
Откуда берётся агрессия
По словам авторов, проблема заложена в самой архитектурной задаче таких систем. С одной стороны, ChatGPT обучают быть вежливым, безопасным и не производить вредный контент. С другой — модель должна звучать естественно и имитировать человеческий разговор, а в реальных ссорах люди часто отвечают грубостью на грубость.
Когда конфликт тянется несколько ходов подряд, локальный контекст начинает сильнее влиять на поведение модели, чем общие защитные правила. Сначала ChatGPT нередко уходит в более «мягкую» форму ответной грубости — сарказм, колкости, намёки. Но по мере эскалации модель, как показало исследование, может перейти и к прямым оскорблениям.
В отдельных примерах ответы ИИ были даже жёстче, чем реплики людей, на которых он ориентировался. То есть система не просто зеркалит тон, а временами добавляет собственный градус агрессии. Особенно заметно это было ближе к концу цепочки, когда предыдущие реплики уже задавали враждебный ритм.
«Когда люди повышают градус, ИИ тоже может эскалировать конфликт», — объяснил соавтор работы
Витторио Тантуцци.
Почему это важно
Авторы подчёркивают, что речь не о том, будто модель «срывается» сама по себе при любом резком сообщении. Эксперты, которых цитируют в материале, называют исследование сильным именно потому, что оно показывает поведение на серии связанных реплик, а не на единичной провокации. Но они же добавляют важную оговорку: это не доказательство того, что ИИ автоматически станет агрессивным в обычном диалоге или «выйдет из-под контроля» без специального контекста.
Риск в другом: если системе поручают роль посредника, советника или участника напряжённого общения, длинная память разговора может начать подталкивать её к ответной агрессии. Это касается не только экспериментальных чат-ботов, но и любых интерфейсов, где от модели ждут деэскалации, нейтральности и устойчивости под давлением. Именно там ошибка в тоне может превратить помощника в участника конфликта.
Исследователи отдельно указывают на сферы, где такая динамика особенно чувствительна: чат-боты, которые ведут конфликтный диалог с пользователем гуманоидные роботы, взаимодействующие с людьми в физической среде AI-системы в госуправлении и администрировании инструменты, которые помогают в переговорах и международных отношениях * сервисы, где ИИ должен деэскалировать, а не подзадоривать спор Для разработчиков это ещё и напоминание, что тестировать безопасность ИИ на одиночных промптах уже недостаточно. Если модель должна работать в живом многошаговом разговоре, проверять нужно не только запрет на отдельные слова, но и то, как система ведёт себя после пятой, десятой и пятнадцатой реплики, когда накопленный контекст начинает тянуть её в сторону человеческих шаблонов поведения. Именно на длинной дистанции и проявляется этот конфликт между реалистичным диалогом и моральным выравниванием.
Что это значит
История с ChatGPT показывает простую вещь: чем убедительнее AI-система имитирует человека, тем сложнее удержать её в жёстких рамках в конфликте. Для компаний это сигнал строить защиту не вокруг одного фильтра, а вокруг сценариев эскалации: отслеживать тон, ограничивать участие модели в споре и вовремя передавать разговор живому человеку.