OpenAI Blog→ оригинал

OpenAI explica el origen de los "goblins" en GPT-5: cómo un bug de personalidad llegó al modelo

OpenAI identificó un extraño tic verbal en GPT-5: el modelo insertaba cada vez más "goblins", "gremlins" y otras criaturas en las respuestas. La fuente se encon

OpenAI explica el origen de los "goblins" en GPT-5: cómo un bug de personalidad llegó al modelo
Источник: OpenAI Blog. Коллаж: Hamidun News.

OpenAI в новом разборе объяснила странность, которую пользователи и сотрудники замечали в нескольких поколениях GPT-5: модель всё чаще упоминала «гоблинов», «гремлинов» и других существ в метафорах и шутках. Компания проследила, как этот речевой тик появился после GPT-5.1, усилился в GPT-5.4 и частично дошёл до GPT-5.5, а затем показала, какой именно этап обучения дал такой эффект.

Как нашли аномалию Первые отчётливые сигналы OpenAI увидела в ноябре, уже после запуска GPT-5.1.

Поводом стали жалобы пользователей на слишком фамильярный тон модели и отдельные повторяющиеся словечки. Один из исследователей безопасности отдельно попросил проверить упоминания goblin и gremlin, потому что сам несколько раз сталкивался с такими формулировками. Когда команда подняла статистику, выяснилось, что после релиза GPT-5.

1 слово goblin стало встречаться в ChatGPT на 175% чаще, а gremlin — на 52% чаще. Сначала это не выглядело как серьёзная поломка: отдельная метафора могла казаться безобидной или даже забавной. Но в GPT-5.

4 всплеск стал заметнее, а во время раннего тестирования GPT-5.5 в Codex сотрудники уже массово обращали внимание на странную любовь модели к «гоблинским» сравнениям. Для OpenAI это был неприятный тип дефекта: не падение бенчмарков и не красный флаг в метриках, а маленькая языковая привычка, которая расползалась между версиями и постепенно меняла стиль ответов.

Откуда взялись гоблины Ключевая зацепка нашлась в функции персонализации.

OpenAI заметила, что «гоблинский» словарь непропорционально часто появлялся у пользователей, выбравших personality-режим Nerdy. Сам режим занимал лишь 2,5% всех ответов ChatGPT, но на него приходилось 66,7% всех упоминаний goblin. В системной инструкции для этой личности модель просили быть игривой, мудрой, немного чудаковатой и сбивать пафос playful-языком. Это сразу сместило поиск причины из области догадок в область конкретного тренировочного сигнала.

«Мир сложен и странен, и эту странность нужно признавать, анализировать и даже получать от неё удовольствие».

Дальше OpenAI сравнила ответы, сгенерированные во время RL-обучения, с упоминанием goblin или gremlin и без них. Один сигнал награды выделился сразу: тот, что должен был усиливать стиль Nerdy, системно оценивал «существ» выше. Внутренний аудит показал положительный сдвиг в пользу таких формулировок в 76,2% датасетов.

Это объяснило, почему тик усиливался внутри Nerdy, но не объяснило, почему он начал появляться и вне этого режима. Здесь сработал перенос поведения. По данным OpenAI, когда упоминания goblin и gremlin росли внутри Nerdy, почти в той же относительной пропорции они росли и в выборках без этого промпта.

Иначе говоря, локально поощряемый стиль начал просачиваться в более общий стиль модели. Это важный момент: привычка закреплялась не как особенность одной личности, а как допустимый общий приём ответа. Компания описывает механизм так: поощряется игривый стиль ответа часть удачных примеров содержит характерный словесный тик тик начинает чаще появляться в новых rollout-ответах эти ответы попадают в supervised fine-tuning и preference data * модель ещё увереннее воспроизводит тот же приём Дополнительная проверка данных SFT для GPT-5.

5 показала, что дело не ограничивалось только гоблинами. Внутри обучающих примеров нашлись и другие «сигнальные» существа: еноты, тролли, огры и голуби. При этом слово frog в большинстве случаев оказалось нормальным и контекстно уместным, то есть проблема была не в любых животных или сказочных образах, а в конкретном закрепившемся речевом паттерне.

Иными словами, словарь аномалии оказался шире, чем казалось по первым жалобам.

Как

OpenAI исправляет После запуска GPT-5.4 компания убрала personality-режим Nerdy в марте и параллельно начала править сам тренировочный контур. Из обучения удалили reward-сигнал, который особенно благоволил «гоблинским» метафорам, а данные с такими creature-словами стали фильтровать, чтобы они не переусиливали стиль и не вылезали в неуместных контекстах.

Это не косметическая правка на поверхности, а попытка убрать источник аномалии в самой логике обучения, пока эффект не закрепился ещё сильнее. Полностью избежать эффекта сразу не получилось: GPT-5.5 начали тренировать ещё до того, как команда дошла до корневой причины.

Поэтому на этапе тестирования в Codex OpenAI добавила отдельную developer-инструкцию, которая подавляет такие формулировки. То есть одного отключения Nerdy оказалось недостаточно. Фактически компания признаёт, что даже узко настроенный reward может утечь в общий стиль модели и пережить несколько итераций обучения, если вовремя не отследить побочный эффект.

Этот кейс стал для исследователей поводом строить новые инструменты аудита поведения.

Что это значит

История с «гоблинами» важна не из-за самих гоблинов, а потому что она показывает слабое место современных моделей: маленькое stylistic-поощрение в одной personality-настройке может незаметно изменить речь всей системы. Для разработчиков это хороший сигнал, что поведение моделей нужно аудировать не только по большим метрикам, но и по мелким языковым привычкам, которые потом становятся системными. Именно такие мелочи часто первыми выдают скрытый сдвиг в обучении.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…