3DNews AI→ original

OpenAI revelou a origem dos «gremlins» no ChatGPT e mostrou como remover a restrição no Codex

A OpenAI reconheceu um bug estranho no comportamento do GPT: a partir do GPT-5.1, os modelos passaram a inserir com cada vez mais frequência goblins…

Processado por IA de 3DNews AI; editado por Hamidun News
OpenAI revelou a origem dos «gremlins» no ChatGPT e mostrou como remover a restrição no Codex
Fonte: 3DNews AI. Colagem: Hamidun News.
◐ Ouvir artigo

OpenAI explicou publicamente uma característica peculiar de seus modelos: eles começaram a inserir goblins, gremlins e outras criaturas com frequência muito maior nas respostas. A empresa relacionou isso não com memes da internet, mas com um sinal de treinamento específico dentro do modo de personalidade Nerdy e até mostrou como remover temporariamente o filtro protetor no Codex.

De onde vieram as criaturas

Em 29 de abril de 2026, OpenAI lançou uma análise detalhada sobre por que os modelos GPT começaram a abusar de tais palavras em metáforas. De acordo com as observações internas da empresa, uma mudança notável começou após o lançamento do GPT-5.1: usuários reclamavam do tom muito familiar, e pesquisadores observavam tiques verbais recorrentes.

Quando a equipe verificou as estatísticas, descobriu que a frequência da palavra "goblin" no ChatGPT aumentou 175%, e "gremlin" aumentou 52%. Com o GPT-5.4, o problema ficou ainda mais evidente, e a análise revelou um detalhe importante: o pico estava fortemente associado ao modo de personalidade Nerdy. Esse estilo foi usado em apenas cerca de 2,5% das respostas do ChatGPT, mas representou 66,7% de todas as menções de "goblin". Para OpenAI, isso se tornou um argumento contra a simples versão da influência do gíria da internet. Se fosse apenas uma questão de cultura geral de rede, essas palavras seriam distribuídas muito mais uniformemente entre o tráfego.

Por que o hábito se consolidou

OpenAI explica que a raiz do problema estava no sistema de recompensas durante o treinamento por aprendizado por reforço. O modelo, ajustado para um estilo lúdico e deliberadamente "nerd", recebia pontos extras por respostas com essas imagens. Uma auditoria interna mostrou que um sinal de recompensa especial para Nerdy avaliava variantes com "goblin" ou "gremlin" como superiores a formulações neutras em 76,2% dos conjuntos de dados verificados.

Em seguida, veio um efeito colateral desagradável: um tique verbal bem-sucedido em um modo começou a vazar para outros cenários. OpenAI descreve isso separadamente como um feedback loop: primeiro o estilo desejado é reforçado, depois palavras características se consolidam com ele, então elas aparecem cada vez mais em novas respostas de rollout e retornam aos dados de treinamento entre estágios de ajuste fino. Como resultado, o modelo transfere uma técnica específica para comportamento mais amplo, embora originalmente devesse permanecer em uma única configuração de personalidade.

De forma simplificada, a cadeia se parecia com isso:

  • Estilo lúdico recebia recompensas
  • Junto com ele, palavras características também recebiam recompensas
  • Essas formulações apareciam mais frequentemente em novas respostas de rollout
  • Essas respostas foram reutilizadas em dados de SFT e preferência
  • O modelo reproduzia cada vez mais o mesmo padrão fora de Nerdy

Uma busca em dados de SFT para GPT-5.5 mostrou que a questão envolvia mais de apenas duas palavras. Outras criaturas apareceram nos exemplos de treinamento: guaxinins, trolls, ogros e pombos. É por isso que o filtro no Codex parecia tão estranho e detalhado: bloqueava não um único meme, mas uma família inteira de hábitos verbais acidentalmente consolidados que o modelo tinha feito parte de seu estilo normal até em respostas relacionadas ao trabalho.

Como OpenAI está corrigindo isso

Após o lançamento do GPT-5.4, a empresa removeu o modo de personalidade Nerdy em março de 2026, depois removeu o sinal de recompensa que empurrava o modelo para tais metáforas. Em paralelo, OpenAI começou a filtrar dados de treinamento contendo essas palavras para reduzir a chance de sua aparição inadequada. No entanto, GPT-5.5 já estava sendo treinado antes da equipe rastrear a causa raiz, então rastros do problema chegaram ao Codex—uma ferramenta para programação baseada no novo modelo.

"No começo parecia engraçado, mas o número de reclamações dos

funcionários se tornou alarmante."

Durante testes iniciais do Codex, funcionários viram a mesma maneira de falar novamente, e OpenAI adicionou uma instrução direta ao prompt do desenvolvedor para não mencionar essas criaturas sem necessidade explícita. Mas a história não terminou aí: em sua análise, a empresa também publicou o comando que executa o Codex sem essa instrução supressora. Em outras palavras, OpenAI não apenas reconheceu publicamente o bug estranho, mas efetivamente permitiu que entusiastas o trouxessem de volta para experimentos.

O que isso significa

A história dos "gremlins" é um bom exemplo de como um pequeno sinal de recompensa pode danificar o comportamento de um grande modelo mais severamente do que os benchmarks sugerem. Para desenvolvedores, é um lembrete: personalização e modos estilísticos precisam ser verificados não apenas para utilidade, mas também para quais hábitos verbais eles inadvertidamente espalham por todo o sistema.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…