OpenAI reveló el origen de los «gremlins» en ChatGPT y mostró cómo quitar la restricción en Codex

Q: Источник материала?

Оригинальная публикация на 3DNews AI. Hamidun News обрабатывает и адаптирует материалы с помощью AI.

Q: Когда опубликовано?

2026-04-30. Время чтения: 3 мин.

OpenAI reconoció un bug extraño en el comportamiento de GPT: a partir de GPT-5.1, los modelos empezaron a insertar cada vez más goblins, gremlins y otras criatu

ЖХ

Редакция Hamidun News

AI‑мониторинг · 3DNews AI

2026-04-30· 3 мин

OpenAI reveló el origen de los «gremlins» en ChatGPT y mostró cómo quitar la restricción en Codex — Источник: 3DNews AI. Коллаж: Hamidun News.

OpenAI публично объяснила странную особенность своих моделей: те начали слишком часто вставлять в ответы гоблинов, гремлинов и других существ. Компания связала это не с мемами из интернета, а с конкретным обучающим сигналом внутри personality-режима Nerdy и даже показала, как временно убрать защитный фильтр в Codex.

Откуда взялись существа 29 апреля 2026 года

OpenAI выпустила отдельный разбор о том, почему модели GPT стали злоупотреблять такими словами в метафорах. По внутренним наблюдениям компании, заметный сдвиг начался после запуска GPT-5.1: пользователи стали жаловаться на слишком фамильярный тон, а исследователи — на повторяющиеся словесные тики.

Когда команда проверила статистику, выяснилось, что частота слова «goblin» в ChatGPT выросла на 175%, а «gremlin» — на 52%. С GPT-5.4 проблема стала ещё заметнее, и анализ показал важную деталь: всплеск был сильно связан с personality-режимом Nerdy.

Этот стиль использовали лишь около 2,5% ответов ChatGPT, но на него пришлось 66,7% всех упоминаний «goblin». Для OpenAI это стало аргументом против простой версии о влиянии интернет-сленга. Если бы дело было только в общей культуре сети, такие слова распределялись бы по трафику намного равномернее.

Почему привычка закрепилась

OpenAI пишет, что корень проблемы оказался в системе вознаграждения при обучении с подкреплением. Модель, настроенная на игривый и подчеркнуто «ботанский» стиль, получала дополнительный плюс за ответы с такими образами. Внутренний аудит показал, что специальный reward-сигнал для Nerdy оценивал варианты с «goblin» или «gremlin» выше, чем нейтральные формулировки, в 76,2% проверенных датасетов.

Дальше сработал неприятный побочный эффект: удачный для одного режима речевой тик начал перетекать и в другие сценарии. OpenAI отдельно описывает это как feedback loop: сначала поощряется нужный стиль, потом вместе с ним закрепляются характерные словечки, затем они всё чаще попадают в новые rollout-ответы и возвращаются в обучающие данные между этапами настройки. В результате модель переносит частный приём в более широкое поведение, хотя изначально он должен был жить только внутри одной personality-настройки.

В упрощённом виде цепочка выглядела так: Игривый стиль получал награду Вместе с ним награду получали и характерные слова Такие формулировки чаще появлялись в новых rollout-ответах Эти ответы повторно использовались в SFT и данных предпочтений * Модель всё увереннее воспроизводила тот же паттерн вне Nerdy Поиск по данным SFT для GPT-5.5 показал, что речь уже шла не только о двух словах. В обучающих примерах всплывали и другие существа: еноты, тролли, огры и голуби.

Именно поэтому запрет в Codex выглядел настолько странно и подробно: он закрывал не один мем, а целое семейство случайно закрепившихся словесных привычек, которые модель успела сделать частью своего обычного стиля даже в рабочих ответах.

Как

OpenAI исправляет это После запуска GPT-5.4 компания в марте 2026 года убрала personality-режим Nerdy, а затем вырезала reward-сигнал, который подталкивал модель к таким метафорам. Параллельно OpenAI начала фильтровать тренировочные данные с этими словами, чтобы снизить шанс их неуместного появления. Но GPT-5.5 начали обучать ещё до того, как команда докопалась до первопричины, поэтому следы проблемы успели доехать до Codex — инструмента для программирования на базе новой модели.

«Сначала это казалось забавным, но число жалоб сотрудников стало тревожить».

Во время ранних тестов Codex сотрудники снова увидели ту же манеру речи, и OpenAI добавила в developer prompt прямую инструкцию не упоминать таких существ без явной необходимости. На этом история не закончилась: в своём разборе компания опубликовала и команду, которая запускает Codex без этой подавляющей инструкции. То есть OpenAI не только признала странный баг публично, но и фактически разрешила энтузиастам вернуть его обратно ради экспериментов.

Что это значит

История с «гремлинами» — хороший пример того, как маленький reward-сигнал может испортить поведение большой модели сильнее, чем кажется по бенчмаркам. Для разработчиков это напоминание: персонализация и стилистические режимы нужно проверять не только на полезность, но и на то, какие речевые привычки они незаметно разносят по всей системе.

ЖХ

Hamidun News

AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Telegram-канал RSS hamidun.com