3DNews AI→ оригинал

كشفت OpenAI أصل «الغريملنز» في ChatGPT وأظهرت كيفية إزالة القيد في Codex

اعترفت OpenAI بخلل غريب في سلوك GPT: بدءًا من GPT-5.1، راحت النماذج تُدرج على نحو متزايد غوبلنز وغريملنز ومخلوقات أخرى في الإجابات. وتبيّن أن السبب يعود إلى تدر

كشفت OpenAI أصل «الغريملنز» في ChatGPT وأظهرت كيفية إزالة القيد في Codex
Источник: 3DNews AI. Коллаж: Hamidun News.

OpenAI публично объяснила странную особенность своих моделей: те начали слишком часто вставлять в ответы гоблинов, гремлинов и других существ. Компания связала это не с мемами из интернета, а с конкретным обучающим сигналом внутри personality-режима Nerdy и даже показала, как временно убрать защитный фильтр в Codex.

Откуда взялись существа 29 апреля 2026 года

OpenAI выпустила отдельный разбор о том, почему модели GPT стали злоупотреблять такими словами в метафорах. По внутренним наблюдениям компании, заметный сдвиг начался после запуска GPT-5.1: пользователи стали жаловаться на слишком фамильярный тон, а исследователи — на повторяющиеся словесные тики.

Когда команда проверила статистику, выяснилось, что частота слова «goblin» в ChatGPT выросла на 175%, а «gremlin» — на 52%. С GPT-5.4 проблема стала ещё заметнее, и анализ показал важную деталь: всплеск был сильно связан с personality-режимом Nerdy.

Этот стиль использовали лишь около 2,5% ответов ChatGPT, но на него пришлось 66,7% всех упоминаний «goblin». Для OpenAI это стало аргументом против простой версии о влиянии интернет-сленга. Если бы дело было только в общей культуре сети, такие слова распределялись бы по трафику намного равномернее.

Почему привычка закрепилась

OpenAI пишет, что корень проблемы оказался в системе вознаграждения при обучении с подкреплением. Модель, настроенная на игривый и подчеркнуто «ботанский» стиль, получала дополнительный плюс за ответы с такими образами. Внутренний аудит показал, что специальный reward-сигнал для Nerdy оценивал варианты с «goblin» или «gremlin» выше, чем нейтральные формулировки, в 76,2% проверенных датасетов.

Дальше сработал неприятный побочный эффект: удачный для одного режима речевой тик начал перетекать и в другие сценарии. OpenAI отдельно описывает это как feedback loop: сначала поощряется нужный стиль, потом вместе с ним закрепляются характерные словечки, затем они всё чаще попадают в новые rollout-ответы и возвращаются в обучающие данные между этапами настройки. В результате модель переносит частный приём в более широкое поведение, хотя изначально он должен был жить только внутри одной personality-настройки.

В упрощённом виде цепочка выглядела так: Игривый стиль получал награду Вместе с ним награду получали и характерные слова Такие формулировки чаще появлялись в новых rollout-ответах Эти ответы повторно использовались в SFT и данных предпочтений * Модель всё увереннее воспроизводила тот же паттерн вне Nerdy Поиск по данным SFT для GPT-5.5 показал, что речь уже шла не только о двух словах. В обучающих примерах всплывали и другие существа: еноты, тролли, огры и голуби.

Именно поэтому запрет в Codex выглядел настолько странно и подробно: он закрывал не один мем, а целое семейство случайно закрепившихся словесных привычек, которые модель успела сделать частью своего обычного стиля даже в рабочих ответах.

Как

OpenAI исправляет это После запуска GPT-5.4 компания в марте 2026 года убрала personality-режим Nerdy, а затем вырезала reward-сигнал, который подталкивал модель к таким метафорам. Параллельно OpenAI начала фильтровать тренировочные данные с этими словами, чтобы снизить шанс их неуместного появления. Но GPT-5.5 начали обучать ещё до того, как команда докопалась до первопричины, поэтому следы проблемы успели доехать до Codex — инструмента для программирования на базе новой модели.

«Сначала это казалось забавным, но число жалоб сотрудников стало тревожить».

Во время ранних тестов Codex сотрудники снова увидели ту же манеру речи, и OpenAI добавила в developer prompt прямую инструкцию не упоминать таких существ без явной необходимости. На этом история не закончилась: в своём разборе компания опубликовала и команду, которая запускает Codex без этой подавляющей инструкции. То есть OpenAI не только признала странный баг публично, но и фактически разрешила энтузиастам вернуть его обратно ради экспериментов.

Что это значит

История с «гремлинами» — хороший пример того, как маленький reward-сигнал может испортить поведение большой модели сильнее, чем кажется по бенчмаркам. Для разработчиков это напоминание: персонализация и стилистические режимы нужно проверять не только на полезность, но и на то, какие речевые привычки они незаметно разносят по всей системе.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…