OpenAI Blog→ original

OpenAI explique l'origine des « goblins » dans GPT-5 : comment un bug de personnalité s'est glissé dans le modèle

OpenAI a identifié un curieux tic verbal dans GPT-5 : le modèle insérait de plus en plus de « goblins », de « gremlins » et d'autres créatures dans les…

Traité par IA depuis OpenAI Blog ; édité par Hamidun News
OpenAI explique l'origine des « goblins » dans GPT-5 : comment un bug de personnalité s'est glissé dans le modèle
Source : OpenAI Blog. Collage: Hamidun News.
◐ Écouter l'article

OpenAI dans une nouvelle analyse a expliqué une particularité que les utilisateurs et les employés ont remarquée sur plusieurs générations de GPT-5 : le modèle mentionnait de plus en plus souvent des « gobelins », des « gremlins » et d'autres créatures dans les métaphores et les blagues. L'entreprise a tracé comment ce tic de parole est apparu après GPT-5.1, s'est intensifié dans GPT-5.4 et a partiellement atteint GPT-5.5, puis a montré exactement quel stade d'entraînement avait produit cet effet.

Comment Ils Ont Trouvé l'Anomalie

OpenAI a vu les premiers signaux clairs en novembre, déjà après le lancement de GPT-5.1. Les plaintes des utilisateurs concernant le ton excessivement familier du modèle et certains mots répétés ont motivé l'enquête. Un chercheur en sécurité a spécifiquement demandé de vérifier les mentions de « goblin » et « gremlin » parce qu'il avait lui-même rencontré ces formulations plusieurs fois. Quand l'équipe a relevé les statistiques, elle a découvert qu'après le lancement de GPT-5.1, le mot « goblin » apparaissait dans ChatGPT 175% plus souvent, et « gremlin » 52% plus souvent.

Au début, cela ne ressemblait pas à une panne grave : une seule métaphore pouvait sembler inoffensive ou même amusante. Mais dans GPT-5.4, le pic est devenu plus notable, et lors des tests précoces de GPT-5.5 dans Codex, les employés notaient déjà en masse l'étrange affinité du modèle pour les comparaisons « gobelin ».

Pour OpenAI, il s'agissait d'un type désagréable de défaut : pas une baisse des benchmarks ni un drapeau rouge dans les métriques, mais une petite habitude linguistique se propageant entre les versions et changeant progressivement le style des réponses.

D'Où Venaient les Gobelins

L'indice clé a été trouvé dans la fonction de personnalisation. OpenAI a remarqué que le vocabulaire « goblin » apparaissait de manière disproportionnée chez les utilisateurs qui avaient sélectionné le mode de personnalité Nerdy. Le mode lui-même ne représentait que 2,5 % de toutes les réponses de ChatGPT, mais il représentait 66,7 % de toutes les mentions de « goblin ».

Dans l'instruction système pour cette personnalité, on demandait au modèle d'être joueur, sage, un peu excentrique et de réduire le pathos par un langage ludique. Cela a immédiatement déplacé la recherche de la cause du domaine des conjectures au domaine d'un signal d'entraînement concret.

«

Le monde est complexe et étrange, et cette étrangeté doit être reconnue, analysée et même appréciée. »

Ensuite, OpenAI a comparé les réponses générées lors de l'entraînement RL, avec et sans mentions de « goblin » ou « gremlin ». Un signal de récompense s'est immédiatement démarqué : celui destiné à renforcer le style Nerdy évaluait systématiquement les « créatures » plus favorablement. Un audit interne a montré un changement positif en faveur de ces formulations dans 76,2 % des datasets. Cela expliquait pourquoi le tic s'était intensifié dans Nerdy, mais cela n'expliquait pas pourquoi il avait commencé à apparaître en dehors de ce mode également.

C'est ici que le transfert de comportement est entré en jeu. Selon les données d'OpenAI, quand les mentions de « goblin » et « gremlin » ont augmenté dans Nerdy, elles ont augmenté dans la même proportion relative dans les échantillons sans ce prompt également. En d'autres termes, un style localement récompensé a commencé à s'infiltrer dans le style plus général du modèle.

C'est un moment important : l'habitude était renforcée non comme une caractéristique d'une seule personnalité, mais comme une technique de réponse générale acceptable.

L'entreprise décrit le mécanisme comme suit :

  • le style de réponse joueur est récompensé
  • certains exemples réussis contiennent le tic verbal caractéristique
  • le tic commence à apparaître plus fréquemment dans les nouvelles réponses de lancement
  • ces réponses entrent dans le fine-tuning supervisé et les données de préférence
  • le modèle reproduit la même technique encore plus confiamment

Une vérification supplémentaire des données SFT pour GPT-5.5 a montré que le problème n'était pas limité aux seuls gobelins. Dans les exemples d'entraînement, d'autres créatures « signal » ont été trouvées : des ratons laveurs, des trolls, des ogres et des pigeons. Pendant ce temps, le mot « frog » s'avérait dans la plupart des cas normal et contextuellemnt approprié, ce qui signifie que le problème n'était pas avec n'importe quel animal ou imagerie de conte de fées, mais avec un modèle de parole spécifique enraciné.

En d'autres termes, le vocabulaire de l'anomalie s'avérait plus large que ce que les plaintes initiales suggéraient.

Comment OpenAI le Corrige

Après le lancement de GPT-5.4, l'entreprise a supprimé le mode de personnalité Nerdy en mars et a simultanément commencé à corriger la boucle d'entraînement elle-même. Le signal de récompense qui favorisait particulièrement les métaphores « goblin » a été supprimé de l'entraînement, et les données contenant ces mots de créatures ont commencé à être filtrées pour qu'elles ne sur-accentuent pas le style et n'apparaissent pas dans des contextes inappropriés.

Ce n'était pas un correctif cosmétique en surface, mais une tentative de supprimer la source de l'anomalie dans la logique d'entraînement elle-même avant que l'effet ne s'enracine davantage.

L'entreprise n'a pas pu éviter complètement l'effet immédiatement : l'entraînement de GPT-5.5 avait déjà commencé avant que l'équipe n'atteigne la cause racine. C'est pourquoi lors de la phase de test de Codex, OpenAI a ajouté une instruction de développeur séparée qui supprime de telles formulations. En d'autres termes, simplement désactiver Nerdy ne suffisait pas.

En effet, l'entreprise reconnaît qu'même une récompense étroitement réglée peut s'infiltrer dans le style général du modèle et survivre à plusieurs itérations d'entraînement si l'effet secondaire n'est pas détecté à temps.

Ce cas est devenu une raison pour les chercheurs de construire de nouveaux outils d'audit de comportement.

Ce Que Cela Signifie

L'histoire sur les « gobelins » est importante non pas pour les gobelins eux-mêmes, mais parce qu'elle montre une faiblesse dans les modèles modernes : une petite incitation stylistique dans un paramètre de personnalité peut imperceptiblement changer la parole de tout le système.

Pour les développeurs, c'est un bon signal que le comportement des modèles doit être audité non seulement par de grandes métriques, mais aussi par de petites habitudes linguistiques qui deviennent ensuite systémiques. Ce sont souvent ces petits détails qui sont les premiers à révéler un changement caché dans l'entraînement.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…