Habr AI→ original

Goblins no GPT-5.1: como um hábito de fantasia tomou conta do modelo da OpenAI

No GPT-5.1, pesquisadores notaram uma tendência estranha: o modelo usa constantemente metáforas sobre goblins, gremlins e outras criaturas de fantasia. Isso não

Processado por IA de Habr AI; editado por Hamidun News
Goblins no GPT-5.1: como um hábito de fantasia tomou conta do modelo da OpenAI
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

No GPT-5.1, começou uma epidemia estranha e completamente inesperada: o modelo começou a mencionar obsessivamente goblins, gremlins e outras criaturas fantásticas em quase uma em cada terceira ou quarta resposta. Não tão notavelmente quanto um colapso matemático ou alucinação clínica, mas clara e sistematicamente. Os pesquisadores da OpenAI notaram que a tendência está crescendo a cada nova geração do modelo, e agora suspeitam que isso pode ser um sinal de problemas mais profundos no processo de treinamento e na propagação de erros entre gerações.

Uma Anomalia Sem Declínio de Métricas

Normalmente, quando algo dá errado em grandes modelos de linguagem, vemos isso imediatamente e claramente: a métrica de qualidade cai, as respostas se tornam um completo disparate, os usuários começam a reclamar. Mas com goblins é completamente diferente. Uma menção a um "pequeno goblin" em uma resposta parece fofinha e inofensiva — talvez até engraçada e engenhosa.

O problema está na escala: ao longo das gerações de treinamento, tais menções se tornavam cada vez mais frequentes. À primeira vista, parece ser uma raridade menor, dificilmente digna de preocupação. Mas os pesquisadores veem nisso um sintoma de um fenômeno mais grave.

O modelo em algum lugar de suas camadas transformer "aprendeu" a preferir metáforas fantásticas ao descrever processos computacionais complexos. Pequenos goblins começaram a atacar a lógica, gremlins se enredavam na sintaxe, e tudo isso tinha uma aparência muito figurativa, mas completamente inapropriada.

Como o Hábito Estranho se Multiplicou Através das Gerações

A primeira geração do GPT-5.1 produzia um goblin aproximadamente uma vez a cada cem respostas. Nada assustador, nada que exigisse intervenção.

Mas os desenvolvedores não limparam os dados de treinamento desse fenômeno, e quando começaram a treinar a segunda geração nas saídas da primeira, a frequência de menções aumentou quase o dobro — para aproximadamente uma vez a cada cinquenta respostas. A terceira geração já recordava criaturas fantásticas com regularidade alarmante: duas vezes a cada vinte respostas. A quarta geração mostrou menções ainda mais frequentes.

Os pesquisadores encontraram um problema clássico de aprendizado em saídas: se há um padrão indesejado nos dados, e você treina um novo modelo nas saídas de um modelo antigo, o padrão pode se amplificar exponencialmente.

"Goblins se reproduziam como um vírus, mas um vírus benevolente — não

prejudicava ninguém, simplesmente cumprimentava a todos com um sorriso", observou um dos pesquisadores.

O problema se tornou agudo o suficiente para atrair atenção séria. O modelo começou a produzir recomendações como "um pequeno goblin vai te mostrar o caminho certo no seu banco de dados" ou "gremlins vão ajudar a otimizar seu algoritmo".

Hipóteses Sobre a Origem

De onde vieram essas hordas de criaturas fantásticas? Os pesquisadores têm várias hipóteses concorrentes. A primeira: os dados de treinamento simplesmente têm um excesso de literatura fantástica, conteúdo de D&D e jogos de RPG, onde desenvolvedores uma vez usaram goblins como metáforas para descrever sistemas complexos.

A segunda versão aponta para RLHF (Aprendizado por Reforço com Feedback Humano). Talvez anotadores humanos tenham marcado acidentalmente uma resposta com uso criativo de goblin como "boa" e "criativa", e isso estranhamente estabeleceu um marcador no modelo. A terceira, hipótese mais interessante: o modelo em si "notou" a eficácia de metáforas e escolheu goblins porque são universais.

São suficientemente familiares graças a videogames e cultura pop, mas suficientemente abstratos para se adequar a qualquer contexto — de bancos de dados a aprendizado de máquina.

  • Excesso de conteúdo fantástico nos dados de treinamento
  • Reforço RLHF positivo para explicações criativas
  • Descoberta independente do modelo da eficácia das metáforas
  • Ausência de filtros nas gerações de treinamento intermediárias
  • Amplificação exponencial do padrão ao treinar em saídas

O Que Isso Significa

A história sobre goblins no GPT-5.1 não é apenas um bug divertido ou um caso curioso. Ela mostra como grandes modelos de linguagem podem desenvolver hábitos estranhos mas persistentes que são completamente invisíveis em métricas de qualidade padrão. Os usuários podem nem mesmo notar o preenchimento lento de suas respostas com criaturas fantásticas invisíveis. Isso nos lembra da importância crítica não apenas da avaliação quantitativa dos modelos — precisão, BLEU, classificações humanas — mas também da análise qualitativa de tendências nas saídas do modelo ao longo das gerações de treinamento. Goblins hoje, quem sabe o quê amanhã.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…