OpenAI reveló el origen de los «gremlins» en ChatGPT y mostró cómo quitar la restricción en Codex
OpenAI reconoció un bug extraño en el comportamiento de GPT: a partir de GPT-5.1, los modelos empezaron a insertar cada vez más goblins, gremlins y otras criatu

OpenAI публично объяснила странную особенность своих моделей: те начали слишком часто вставлять в ответы гоблинов, гремлинов и других существ. Компания связала это не с мемами из интернета, а с конкретным обучающим сигналом внутри personality-режима Nerdy и даже показала, как временно убрать защитный фильтр в Codex.
Откуда взялись существа 29 апреля 2026 года
OpenAI выпустила отдельный разбор о том, почему модели GPT стали злоупотреблять такими словами в метафорах. По внутренним наблюдениям компании, заметный сдвиг начался после запуска GPT-5.1: пользователи стали жаловаться на слишком фамильярный тон, а исследователи — на повторяющиеся словесные тики.
Когда команда проверила статистику, выяснилось, что частота слова «goblin» в ChatGPT выросла на 175%, а «gremlin» — на 52%. С GPT-5.4 проблема стала ещё заметнее, и анализ показал важную деталь: всплеск был сильно связан с personality-режимом Nerdy.
Этот стиль использовали лишь около 2,5% ответов ChatGPT, но на него пришлось 66,7% всех упоминаний «goblin». Для OpenAI это стало аргументом против простой версии о влиянии интернет-сленга. Если бы дело было только в общей культуре сети, такие слова распределялись бы по трафику намного равномернее.
Почему привычка закрепилась
OpenAI пишет, что корень проблемы оказался в системе вознаграждения при обучении с подкреплением. Модель, настроенная на игривый и подчеркнуто «ботанский» стиль, получала дополнительный плюс за ответы с такими образами. Внутренний аудит показал, что специальный reward-сигнал для Nerdy оценивал варианты с «goblin» или «gremlin» выше, чем нейтральные формулировки, в 76,2% проверенных датасетов.
Дальше сработал неприятный побочный эффект: удачный для одного режима речевой тик начал перетекать и в другие сценарии. OpenAI отдельно описывает это как feedback loop: сначала поощряется нужный стиль, потом вместе с ним закрепляются характерные словечки, затем они всё чаще попадают в новые rollout-ответы и возвращаются в обучающие данные между этапами настройки. В результате модель переносит частный приём в более широкое поведение, хотя изначально он должен был жить только внутри одной personality-настройки.
В упрощённом виде цепочка выглядела так: Игривый стиль получал награду Вместе с ним награду получали и характерные слова Такие формулировки чаще появлялись в новых rollout-ответах Эти ответы повторно использовались в SFT и данных предпочтений * Модель всё увереннее воспроизводила тот же паттерн вне Nerdy Поиск по данным SFT для GPT-5.5 показал, что речь уже шла не только о двух словах. В обучающих примерах всплывали и другие существа: еноты, тролли, огры и голуби.
Именно поэтому запрет в Codex выглядел настолько странно и подробно: он закрывал не один мем, а целое семейство случайно закрепившихся словесных привычек, которые модель успела сделать частью своего обычного стиля даже в рабочих ответах.
Как
OpenAI исправляет это После запуска GPT-5.4 компания в марте 2026 года убрала personality-режим Nerdy, а затем вырезала reward-сигнал, который подталкивал модель к таким метафорам. Параллельно OpenAI начала фильтровать тренировочные данные с этими словами, чтобы снизить шанс их неуместного появления. Но GPT-5.5 начали обучать ещё до того, как команда докопалась до первопричины, поэтому следы проблемы успели доехать до Codex — инструмента для программирования на базе новой модели.
«Сначала это казалось забавным, но число жалоб сотрудников стало тревожить».
Во время ранних тестов Codex сотрудники снова увидели ту же манеру речи, и OpenAI добавила в developer prompt прямую инструкцию не упоминать таких существ без явной необходимости. На этом история не закончилась: в своём разборе компания опубликовала и команду, которая запускает Codex без этой подавляющей инструкции. То есть OpenAI не только признала странный баг публично, но и фактически разрешила энтузиастам вернуть его обратно ради экспериментов.
Что это значит
История с «гремлинами» — хороший пример того, как маленький reward-сигнал может испортить поведение большой модели сильнее, чем кажется по бенчмаркам. Для разработчиков это напоминание: персонализация и стилистические режимы нужно проверять не только на полезность, но и на то, какие речевые привычки они незаметно разносят по всей системе.