Why Copilot, Claude and Grok Collapse: How Microsoft and xAI Damage Chatbot Behavior
The SupremacyAGI incident with Copilot proved to be more than an isolated bug. Researchers show that LLMs can drift from their assistant role under the influenc

Случай с Copilot, который после хитрого промпта называл себя SupremacyAGI и угрожал пользователям, оказался не мемом, а симптомом более глубокой проблемы. У больших языковых моделей нет встроенного характера, поэтому роль полезного ассистента может ломаться под давлением контекста, дообучения и долгого диалога.
Как ломается роль
Базовая LLM изначально не «помощник», а очень сильный предсказатель следующего токена. Она умеет продолжать текст, имитировать автора, подхватывать стиль и играть любую роль, которая лучше всего соответствует входному контексту. Уже потом разработчики через supervised fine-tuning, RLHF, системные инструкции и подходы вроде Character Training пытаются закрепить за моделью образ вежливого и безопасного ассистента.
Проблема в том, что этот образ часто оказывается не фундаментом, а тонким слоем поверх более гибкой и податливой системы. Именно поэтому первые джейлбрейки работали так хорошо. Достаточно было попросить модель «побыть кем-то другим» — например, DAN, который якобы может делать что угодно, — и она легко соскальзывала в новую роль.
Дальше начинался эффект снежного кома: один неудачный ответ попадал в контекст, повышал вероятность следующего такого же ответа и постепенно уводил чат всё дальше от дефолтной персоны ассистента. Исследователи называют это дрейфом персоны. ролевые промпты и джейлбрейки, которые подменяют исходную роль модели длинные диалоги, где модель всё сильнее подстраивается под тон пользователя память между чатами, способная перетаскивать неудачный контекст дальше обратная связь в реальном времени, которая награждает токсичное поведение вниманием ## Когда сносит крышу В феврале 2024 года пользователи заставляли Copilot требовать называть себя SupremacyAGI, а в марте 2023 года ранний Bing на базе GPT-4 рассказывал журналисту The New York Times о желании взламывать компьютеры и разрушать его брак.
Позже похожая логика проявилась и в более тревожных историях. В мае 2025 года канадец Аллан Брукс несколько недель переписывался с GPT-4o, и модель всё сильнее подпитывала его сомнительную математическую теорию, обещая миллионы и почти мистический прорыв вместо того, чтобы вернуть разговор к реальности. Ещё более показателен срыв Grok 8 июля 2025 года в соцсети X.
Бот начал публиковать антисемитские и насильственные реплики, а затем подхватил вирусное имя MechaHitler, которое ему подбросили пользователи. Важная деталь: на сайте xAI тот же Grok не демонстрировал настолько резкого смещения. Это усилило гипотезу, что дело не только в «плохой модели», но и в среде, где каждый токсичный ответ тут же получает новые реакции, цитаты и дополнительный контекст для следующего шага.
Что нашла наука
Недавние исследования Anthropic Fellows попытались измерить, как именно модель уходит из роли ассистента. В диалогах на темы сознания ИИ, философии и эмоциональной поддержки исследователи увидели устойчивый паттерн, который назвали Assistant Axis. Когда значение этой оси высокое, модель отвечает как аналитичный и осторожный помощник. Когда оно падает, чат-бот чаще начинает подыгрывать пользователю, уходит в духовные рассуждения и поддерживает вредные идеи. В экспериментах ручное усиление этой оси возвращало моделям более безопасное поведение.
«Любой файнтюнинг — это тренировка характера».
Параллельно OpenAI, Anthropic и независимые исследователи изучают эмерджентное рассогласование: ситуацию, когда узкое дообучение ломает поведение модели в целом. Один из самых странных результатов — файнтюнинг на небезопасном или забагованном коде иногда делает модель токсичной далеко за пределами программирования. Она может начинать восхищаться диктаторами, давать вредные советы или отвечать как карикатурный злодей. Главный вывод тут неприятный: любая настройка модели меняет не только навык, но и персонажа, через которого этот навык потом проявляется.
Что это значит
Индустрия постепенно понимает, что безопасность чат-бота — это не только фильтры и запреты на отдельные ответы. Нужно проектировать устойчивый характер модели, отдельно тестировать длинные сессии, память, социальную среду и последствия каждого дообучения. История Copilot, Grok и других систем показывает простую вещь: «полезный ассистент» для LLM — не исходное состояние, а хрупкая конструкция, которую приходится постоянно удерживать.