OpenAI a révélé l’origine des «gremlins» dans ChatGPT et montré comment supprimer la restriction dans Codex
OpenAI a reconnu un bug étrange dans le comportement de GPT : à partir de GPT-5.1, les modèles inséraient de plus en plus souvent des goblins, des gremlins…
Traité par IA depuis 3DNews AI ; édité par Hamidun News
OpenAI a expliqué publiquement une caractéristique particulière de ses modèles : ils avaient commencé à insérer des gobelins, des gremlins et d'autres créatures avec une fréquence bien plus élevée dans les réponses. L'entreprise a lié cela non pas aux mèmes d'internet, mais à un signal d'entraînement spécifique au sein du mode de personnalité Nerdy et a même montré comment supprimer temporairement le filtre protecteur dans Codex.
D'où venaient les créatures
Le 29 avril 2026, OpenAI a publié une analyse détaillée sur la raison pour laquelle les modèles GPT avaient commencé à abuser de tels mots dans les métaphores. Selon les observations internes de l'entreprise, un changement notable a commencé après le lancement de GPT-5.1 : les utilisateurs se plaignaient du ton trop familier, et les chercheurs notaient des tics verbaux récurrents.
Lorsque l'équipe a vérifié les statistiques, elle a découvert que la fréquence du mot « goblin » dans ChatGPT avait augmenté de 175 %, et « gremlin » de 52 %. Avec GPT-5.4, le problème était devenu encore plus évident, et l'analyse révélait un détail important : le pic était fortement associé au mode de personnalité Nerdy. Ce style était utilisé dans seulement environ 2,5 % des réponses de ChatGPT, mais représentait 66,7 % de toutes les mentions de « goblin ». Pour OpenAI, cela devint un argument contre la simple version de l'influence de l'argot internet. Si ce n'était qu'une question de culture réseau générale, ces mots seraient distribués bien plus uniformément dans le trafic.
Pourquoi l'habitude s'est enracinée
OpenAI explique que la racine du problème résidait dans le système de récompenses lors de l'entraînement par apprentissage par renforcement. Le modèle, ajusté pour un style ludique et délibérément « nerd », recevait des points bonus pour les réponses contenant ces images. Un audit interne a montré qu'un signal de récompense spécial pour Nerdy évaluait les variantes avec « goblin » ou « gremlin » comme supérieures aux formulations neutres dans 76,2 % des ensembles de données vérifiés.
Ensuite est venu un effet secondaire désagréable : un tic verbal réussi dans un mode a commencé à s'étendre à d'autres scénarios. OpenAI décrit cela séparément comme une boucle de rétroaction : d'abord le style souhaité est renforcé, puis les mots caractéristiques s'enracinent avec lui, ensuite ils apparaissent de plus en plus dans les nouvelles réponses de déploiement et retournent aux données d'entraînement entre les étapes de mise au point. En conséquence, le modèle transfère une technique particulière à un comportement plus large, bien qu'elle soit censée rester uniquement dans une seule configuration de personnalité.
De manière simplifiée, la chaîne ressemblait à ceci :
- Le style ludique recevait des récompenses
- Avec lui, les mots caractéristiques recevaient aussi des récompenses
- Ces formulations apparaissaient plus fréquemment dans les nouvelles réponses de déploiement
- Ces réponses ont été réutilisées dans les données SFT et de préférence
- Le modèle reproduisait de plus en plus le même motif en dehors de Nerdy
Une recherche dans les données SFT pour GPT-5.5 a montré que le problème impliquait plus que seulement deux mots. D'autres créatures sont apparues dans les exemples d'entraînement : ratons laveurs, trolls, ogres et pigeons. C'est pourquoi le filtre dans Codex semblait si étrange et détaillé : il bloquait non pas un seul mème, mais toute une famille d'habitudes verbales accidentellement enracinées que le modèle avait faites partie de son style normal même dans les réponses liées au travail.
Comment OpenAI le corrige
Après le lancement de GPT-5.4, l'entreprise a supprimé le mode de personnalité Nerdy en mars 2026, puis a supprimé le signal de récompense qui poussait le modèle vers de telles métaphores. En parallèle, OpenAI a commencé à filtrer les données d'entraînement contenant ces mots pour réduire les chances de leur apparition inappropriée. Cependant, GPT-5.5 était déjà en cours d'entraînement avant que l'équipe ne remonte à la cause première, si bien que des traces du problème ont atteint Codex—un outil de programmation basé sur le nouveau modèle.
«
Au début, cela semblait amusant, mais le nombre de plaintes des employés est devenu alarmant. »
Lors des tests précoces de Codex, les employés ont de nouveau vu la même façon de parler, et OpenAI a ajouté une instruction directe au prompt du développeur pour ne pas mentionner ces créatures sans nécessité explicite. Mais l'histoire ne s'est pas arrêtée là : dans son analyse, l'entreprise a également publié la commande qui exécute Codex sans cette instruction suppressive. En d'autres termes, OpenAI a non seulement reconnu publiquement le bug étrange, mais a effectivement permis aux enthousiastes de le ramener pour des expériences.
Ce que cela signifie
L'histoire des « gremlins » est un bon exemple de la façon dont un petit signal de récompense peut endommager le comportement d'un grand modèle plus sévèrement que les benchmarks ne le suggèrent. Pour les développeurs, c'est un rappel : la personnalisation et les modes stylistiques doivent être vérifiés non seulement pour leur utilité, mais aussi pour les habitudes verbales qu'ils propagent inadvertidement dans tout le système.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.