Habr AI→ оригинал

Гоблины в GPT-5.1: как фэнтезийная привычка захватила модель OpenAI

В GPT-5.1 исследователи заметили странную тенденцию: модель постоянно использует метафоры про гоблинов, гремлинов и других сказочных существ. Это не классически

Гоблины в GPT-5.1: как фэнтезийная привычка захватила модель OpenAI
Источник: Habr AI. Коллаж: Hamidun News.
◐ Слушать статью

В GPT-5.1 началась странная и совершенно неожиданная эпидемия: модель стала навязчиво упоминать гоблинов, гремлинов и других фэнтезийных существ почти в каждом третьем-четвертом ответе. Не так заметно, как математический краш или клиническая галлюцинация, но явно и систематически. Исследователи OpenAI заметили, что тенденция нарастает с каждым новым поколением модели, и теперь предполагают, что это может быть сигнал о более глубоких проблемах в процессе обучения и распространении ошибок между поколениями.

Аномалия без падения метрик

Обычно когда что-то идет не так в больших языковых моделях, мы видим это сразу и четко: метрика качества падает, ответы становятся полной бессмыслицей, пользователи начинают жаловаться. Но с гоблинами все совсем иначе. Одно упоминание "маленького гоблина" в ответе кажется милым и безобидным — может быть, даже забавным и остроумным.

Проблема заключается в масштабе: через поколения обучения таких упоминаний становилось все больше и больше. На первый взгляд это выглядит как минорная странность, едва ли стоящая того, чтобы волноваться. Но исследователи видят в этом симптом более серьезного явления.

Модель где-то в своих трансформерных слоях "научилась" предпочитать фэнтезийные метафоры при описании сложных вычислительных процессов. Маленькие гоблины начали атаковать логику, гремлины путались в синтаксисе, и все это выглядело очень образно, но совершенно не по назначению.

Как странная привычка множилась через поколения

Первое поколение GPT-5.1 выпускало гоблина примерно раз на сотню ответов. Ничего пугающего, ничего, что потребовало бы вмешательства. Но разработчики не очистили тренировочные данные от этого явления, и когда начали обучать второе поколение на выходах первого, частота упоминаний возросла почти в два раза — до одного раза примерно на пятьдесят ответов. Третье поколение уже вспоминало сказочных существ с пугающей регулярностью: дважды на двадцать ответов. Четвёртое поколение показало упоминания ещё чаще. Исследователи столкнулись с классической проблемой обучения на выходах: если в данных есть нежелательный паттерн, и вы обучаете новую модель на выходах старой модели, паттерн может усилиться экспоненциально.

«Гоблины размножались как вирус, но вирус добрый — никому не вредил, просто ставился всем с улыбкой», — заметил один из исследователей.

Проблема обострилась достаточно, чтобы привлечь серьезное внимание. Модель начала выдавать рекомендации типа "маленький гоблин подскажет вам правильный путь в базе данных" или "гремлины помогут оптимизировать ваш алгоритм".

Гипотезы о происхождении Откуда взялись эти полчища сказочных существ?

У исследователей есть несколько конкурирующих гипотез. Первая: в тренировочных данных просто избыток фэнтезийной литературы, D&D-контента и ролевых игр, где разработчики когда-то использовали гоблинов как метафоры для описания сложных систем. Вторая версия указывает на RLHF (обучение с обратной связью от человека). Возможно, человеческие аннотаторы случайно отметили ответ с творческим использованием гоблина как "хороший" и "креативный", и это странным образом установило маркер в модели. Третья, самая интересная гипотеза: модель сама "заметила" эффективность метафор и выбрала гоблинов потому, что они универсальны. Они достаточно знакомы благодаря видеоиграм и поп-культуре, но достаточно абстрактны, чтобы подойти к любому контексту — от баз данных до машинного обучения.

  • Избыток фэнтезийного контента в тренировочных данных Положительное RLHF-подкрепление за творческие объяснения Самостоятельное обнаружение моделью эффективности метафор Отсутствие фильтров на промежуточных поколениях обучения Экспоненциальное усиление паттерна при обучении на выходах ## Что это значит История про гоблинов в GPT-5.1 — это не просто забавный баг или курьезный случай. Она показывает, как большие языковые модели могут развивать странные, но устойчивые привычки, которые совершенно невидимы в стандартных метриках качества. Пользователи могут вообще не заметить медленное заполнение своих ответов невидимыми фэнтезийными существами. Это напоминает о критической важности не только количественной оценки моделей — точности, BLEU, оценок от людей, — но и качественного анализа тенденций в выходах модели через поколения обучения. Гоблины сегодня, завтра — неизвестно что.
ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Что вы думаете?
Загружаем комментарии…