OpenAI explica a origem dos "goblins" no GPT-5: como um bug de personalidade entrou no modelo
OpenAI identificou um tique verbal estranho no GPT-5: o modelo inseriu cada vez mais "goblins", "gremlins" e outras criaturas nas respostas. A origem foi…
Processado por IA de OpenAI Blog; editado por Hamidun News
A OpenAI em um novo detalhamento explicou uma peculiaridade que usuários e funcionários notaram em várias gerações do GPT-5: o modelo mencionava cada vez mais "goblins", "gremlins" e outras criaturas em metáforas e piadas. A empresa rastreou como esse tique de fala apareceu após GPT-5.1, intensificou-se no GPT-5.4 e chegou parcialmente ao GPT-5.5, e então mostrou exatamente qual etapa de treinamento produziu esse efeito.
Como Encontraram a Anomalia
A OpenAI viu os primeiros sinais claros em novembro, já depois do lançamento do GPT-5.1. Reclamações de usuários sobre o tom excessivamente familiar do modelo e certas palavras repetidas motivaram a investigação. Um pesquisador de segurança especificamente pediu para verificar menções de "goblin" e "gremlin" porque ele mesmo tinha encontrado essas formulações várias vezes. Quando a equipe levantou as estatísticas, descobriram que após o lançamento do GPT-5.1, a palavra "goblin" aparecia no ChatGPT 175% mais vezes, e "gremlin" 52% mais vezes.
No início isso não parecia uma falha séria: uma única metáfora poderia parecer inofensiva ou até divertida. Mas no GPT-5.4 o pico tornou-se mais perceptível, e durante testes iniciais do GPT-5.5 no Codex, os funcionários já estavam en masse notando a estranha afinidade do modelo por comparações "goblin".
Para a OpenAI este era um tipo desagradável de defeito: não uma queda nos benchmarks nem uma bandeira vermelha nas métricas, mas um pequeno hábito linguístico espalhando-se entre versões e mudando gradualmente o estilo das respostas.
De Onde Vieram os Goblins
A pista-chave foi encontrada na função de personalização. A OpenAI notou que o vocabulário "goblin" aparecia desproporcionalmente entre usuários que selecionavam o modo de personalidade Nerdy. O modo em si representava apenas 2,5% de todas as respostas do ChatGPT, mas era responsável por 66,7% de todas as menções de "goblin".
Na instrução do sistema para essa personalidade, o modelo foi instruído a ser brincalhão, sábio, um pouco excêntrico e rebaixar o páthos com linguagem lúdica. Isso imediatamente deslocou a busca pela causa do reino das conjecturas para o reino de um sinal de treinamento concreto.
"O mundo é complexo e estranho, e essa estranheza deve ser
reconhecida, analisada e até desfrutada."
Em seguida, a OpenAI comparou respostas geradas durante treinamento RL, com e sem menções de "goblin" ou "gremlin". Um sinal de recompensa se destacou imediatamente: aquele destinado a reforçar o estilo Nerdy avaliava sistematicamente as "criaturas" mais altamente. Uma auditoria interna mostrou um deslocamento positivo a favor dessas formulações em 76,2% dos datasets. Isso explicou por que o tique intensificou-se dentro de Nerdy, mas não explicou por que começou a aparecer também fora desse modo.
Aqui entrou em jogo a transferência de comportamento. Segundo dados da OpenAI, quando menções de "goblin" e "gremlin" aumentaram dentro de Nerdy, aumentaram na mesma proporção relativa em amostras sem esse prompt também. Em outras palavras, um estilo localmente recompensado começou a vazar para o estilo mais geral do modelo.
Este é um momento importante: o hábito estava sendo reforçado não como uma característica de uma personalidade, mas como uma técnica de resposta geral aceitável.
A empresa descreve o mecanismo assim:
- estilo de resposta brincalhão é recompensado
- alguns exemplos bem-sucedidos contêm o tique verbal característico
- o tique começa a aparecer mais frequentemente em novas respostas de rollout
- essas respostas entram em fine-tuning supervisionado e dados de preferência
- o modelo reproduz a mesma técnica ainda mais confiantemente
Uma verificação adicional de dados SFT para GPT-5.5 mostrou que o problema não se limitava apenas a goblins. Dentro dos exemplos de treinamento, outras criaturas "sinal" foram encontradas: guaxinins, trolls, ogros e pombos. Enquanto isso, a palavra "frog" na maioria dos casos mostrou-se normal e contextualmente apropriada, significando que o problema não era com nenhum animal ou imaginário de contos de fadas, mas com um padrão de fala específico enraizado.
Em outras palavras, o vocabulário da anomalia mostrou-se mais amplo do que as reclamações iniciais sugeriram.
Como a OpenAI Está Corrigindo
Após lançar o GPT-5.4, a empresa removeu o modo de personalidade Nerdy em março e simultaneamente começou a corrigir o próprio loop de treinamento. O sinal de recompensa que especialmente favorecia metáforas "goblin" foi removido do treinamento, e dados com essas palavras de criaturas começaram a ser filtrados para que não overênfatizassem o estilo e não aparecessem em contextos inadequados.
Isso não era um conserto cosmético na superfície, mas uma tentativa de remover a fonte da anomalia na própria lógica de treinamento antes que o efeito se enraizasse ainda mais.
A empresa não conseguiu evitar completamente o efeito imediatamente: o treinamento do GPT-5.5 já havia começado antes da equipe chegar à causa raiz. Por isso, no estágio de testes Codex, a OpenAI adicionou uma instrução separada de desenvolvedor que suprime essas formulações. Em outras palavras, simplesmente desabilitar Nerdy não foi suficiente.
Na verdade, a empresa reconhece que até mesmo uma recompensa estreitamente ajustada pode vazar para o estilo geral do modelo e sobreviver várias iterações de treinamento se o efeito colateral não for detectado a tempo.
Este caso tornou-se uma razão para pesquisadores construírem novas ferramentas para auditoria de comportamento.
O Que Isso Significa
A história sobre "goblins" é importante não por causa dos goblins em si, mas porque mostra um ponto fraco em modelos modernos: um pequeno incentivo estilístico em uma configuração de personalidade pode imperceptivelmente mudar a fala de todo o sistema.
Para desenvolvedores, este é um bom sinal de que o comportamento dos modelos precisa ser auditado não apenas por grandes métricas, mas também por pequenos hábitos linguísticos que depois se tornam sistêmicos. Frequentemente são esses pequenos detalhes que são os primeiros a revelar um deslocamento oculto no treinamento.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.