OpenAI revelou a origem dos «gremlins» no ChatGPT e mostrou como remover a restrição no Codex
A OpenAI reconheceu um bug estranho no comportamento do GPT: a partir do GPT-5.1, os modelos passaram a inserir com cada vez mais frequência goblins…
Processado por IA de 3DNews AI; editado por Hamidun News
OpenAI explicou publicamente uma característica peculiar de seus modelos: eles começaram a inserir goblins, gremlins e outras criaturas com frequência muito maior nas respostas. A empresa relacionou isso não com memes da internet, mas com um sinal de treinamento específico dentro do modo de personalidade Nerdy e até mostrou como remover temporariamente o filtro protetor no Codex.
De onde vieram as criaturas
Em 29 de abril de 2026, OpenAI lançou uma análise detalhada sobre por que os modelos GPT começaram a abusar de tais palavras em metáforas. De acordo com as observações internas da empresa, uma mudança notável começou após o lançamento do GPT-5.1: usuários reclamavam do tom muito familiar, e pesquisadores observavam tiques verbais recorrentes.
Quando a equipe verificou as estatísticas, descobriu que a frequência da palavra "goblin" no ChatGPT aumentou 175%, e "gremlin" aumentou 52%. Com o GPT-5.4, o problema ficou ainda mais evidente, e a análise revelou um detalhe importante: o pico estava fortemente associado ao modo de personalidade Nerdy. Esse estilo foi usado em apenas cerca de 2,5% das respostas do ChatGPT, mas representou 66,7% de todas as menções de "goblin". Para OpenAI, isso se tornou um argumento contra a simples versão da influência do gíria da internet. Se fosse apenas uma questão de cultura geral de rede, essas palavras seriam distribuídas muito mais uniformemente entre o tráfego.
Por que o hábito se consolidou
OpenAI explica que a raiz do problema estava no sistema de recompensas durante o treinamento por aprendizado por reforço. O modelo, ajustado para um estilo lúdico e deliberadamente "nerd", recebia pontos extras por respostas com essas imagens. Uma auditoria interna mostrou que um sinal de recompensa especial para Nerdy avaliava variantes com "goblin" ou "gremlin" como superiores a formulações neutras em 76,2% dos conjuntos de dados verificados.
Em seguida, veio um efeito colateral desagradável: um tique verbal bem-sucedido em um modo começou a vazar para outros cenários. OpenAI descreve isso separadamente como um feedback loop: primeiro o estilo desejado é reforçado, depois palavras características se consolidam com ele, então elas aparecem cada vez mais em novas respostas de rollout e retornam aos dados de treinamento entre estágios de ajuste fino. Como resultado, o modelo transfere uma técnica específica para comportamento mais amplo, embora originalmente devesse permanecer em uma única configuração de personalidade.
De forma simplificada, a cadeia se parecia com isso:
- Estilo lúdico recebia recompensas
- Junto com ele, palavras características também recebiam recompensas
- Essas formulações apareciam mais frequentemente em novas respostas de rollout
- Essas respostas foram reutilizadas em dados de SFT e preferência
- O modelo reproduzia cada vez mais o mesmo padrão fora de Nerdy
Uma busca em dados de SFT para GPT-5.5 mostrou que a questão envolvia mais de apenas duas palavras. Outras criaturas apareceram nos exemplos de treinamento: guaxinins, trolls, ogros e pombos. É por isso que o filtro no Codex parecia tão estranho e detalhado: bloqueava não um único meme, mas uma família inteira de hábitos verbais acidentalmente consolidados que o modelo tinha feito parte de seu estilo normal até em respostas relacionadas ao trabalho.
Como OpenAI está corrigindo isso
Após o lançamento do GPT-5.4, a empresa removeu o modo de personalidade Nerdy em março de 2026, depois removeu o sinal de recompensa que empurrava o modelo para tais metáforas. Em paralelo, OpenAI começou a filtrar dados de treinamento contendo essas palavras para reduzir a chance de sua aparição inadequada. No entanto, GPT-5.5 já estava sendo treinado antes da equipe rastrear a causa raiz, então rastros do problema chegaram ao Codex—uma ferramenta para programação baseada no novo modelo.
"No começo parecia engraçado, mas o número de reclamações dos
funcionários se tornou alarmante."
Durante testes iniciais do Codex, funcionários viram a mesma maneira de falar novamente, e OpenAI adicionou uma instrução direta ao prompt do desenvolvedor para não mencionar essas criaturas sem necessidade explícita. Mas a história não terminou aí: em sua análise, a empresa também publicou o comando que executa o Codex sem essa instrução supressora. Em outras palavras, OpenAI não apenas reconheceu publicamente o bug estranho, mas efetivamente permitiu que entusiastas o trouxessem de volta para experimentos.
O que isso significa
A história dos "gremlins" é um bom exemplo de como um pequeno sinal de recompensa pode danificar o comportamento de um grande modelo mais severamente do que os benchmarks sugerem. Para desenvolvedores, é um lembrete: personalização e modos estilísticos precisam ser verificados não apenas para utilidade, mas também para quais hábitos verbais eles inadvertidamente espalham por todo o sistema.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.