Habr AI→ original

Des gobelins dans GPT-5.1 : comment une habitude de fantasy a pris le dessus sur le modèle d'OpenAI

Dans GPT-5.1, les chercheurs ont remarqué une tendance étrange : le modèle utilise constamment des métaphores autour des gobelins, des gremlins et d'autres créa

Des gobelins dans GPT-5.1 : comment une habitude de fantasy a pris le dessus sur le modèle d'OpenAI
Source : Habr AI. Collage: Hamidun News.
◐ Écouter l'article

Dans GPT-5.1, une épidémie étrange et complètement inattendue a commencé : le modèle a commencé à mentionner obsessivement des gobelins, des gremlins et autres créatures fantastiques dans à peu près une réponse sur trois ou quatre. Pas aussi visiblement qu'un crash mathématique ou une hallucination clinique, mais clairement et systématiquement. Les chercheurs d'OpenAI ont remarqué que la tendance s'accélère avec chaque nouvelle génération du modèle, et soupçonnent maintenant que cela pourrait être le signal de problèmes plus profonds dans le processus d'entraînement et la propagation des erreurs entre générations.

Une Anomalie Sans Baisse de Métriques

Normalement, quand quelque chose ne va pas dans les grands modèles de langage, nous le voyons immédiatement et clairement : la métrique de qualité baisse, les réponses deviennent du charabia complet, les utilisateurs commencent à se plaindre. Mais avec les gobelins, c'est complètement différent. Une mention d'un "petit gobelin" dans une réponse semble mignonne et inoffensive — peut-être même amusante et spirituelle.

Le problème réside dans l'échelle : à travers les générations d'entraînement, ces mentions sont devenues de plus en plus fréquentes. Au premier abord, cela ressemble à une bizarrerie mineure, à peine digne d'inquiétude. Mais les chercheurs y voient le symptôme d'un phénomène plus grave.

Le modèle, quelque part dans ses couches transformer, a "appris" à préférer les métaphores fantastiques pour décrire les processus computationnels complexes. De petits gobelins ont commencé à attaquer la logique, les gremlins se sont emmêlés dans la syntaxe, et tout cela avait l'air très figuré, mais complètement inapproprié.

Comment l'Habitude

Bizarre s'est Multipliée à Travers les Générations

La première génération de GPT-5.1 produisait un gobelin environ une fois par cent réponses. Rien de terrifiant, rien qui n'aurait nécessité une intervention.

Mais les développeurs n'ont pas nettoyé les données d'entraînement de ce phénomène, et quand ils ont commencé à entraîner la deuxième génération sur les sorties de la première, la fréquence des mentions a presque doublé — à environ une fois par cinquante réponses. La troisième génération se souvenait déjà des créatures fantastiques avec une régularité alarmante : deux fois par vingt réponses. La quatrième génération montrait des mentions encore plus fréquentes.

Les chercheurs ont rencontré un problème classique d'apprentissage sur les sorties : s'il y a un motif indésirable dans les données, et que vous entraînez un nouveau modèle sur les sorties d'un ancien modèle, le motif peut s'amplifier exponentiellement.

«

Les gobelins se reproduisaient comme un virus, mais un virus bienveillant — il ne faisait de mal à personne, il saluait simplement tout le monde avec un sourire », a noté l'un des chercheurs.

Le problème est devenu assez aigü pour attirer l'attention sérieuse. Le modèle a commencé à produire des recommandations comme « un petit gobelin vous montrera le bon chemin dans votre base de données » ou « les gremlins vous aideront à optimiser votre algorithme ».

Hypothèses sur l'Origine

D'où venaient ces hordes de créatures fantastiques ? Les chercheurs ont plusieurs hypothèses concurrentes. La première : les données d'entraînement contiennent simplement un excès de littérature fantastique, de contenu D&D et de jeux de rôle, où les développeurs ont autrefois utilisé les gobelins comme métaphores pour décrire les systèmes complexes.

La deuxième version pointe vers RLHF (Apprentissage par Renforcement à partir des Commentaires Humains). Il est possible que les annotateurs humains aient accidentellement marqué une réponse avec une utilisation créative de gobelin comme « bonne » et « créative », et cela a étrangement établi un marqueur dans le modèle. La troisième, hypothèse la plus intéressante : le modèle lui-même a "remarqué" l'efficacité des métaphores et a choisi les gobelins parce qu'ils sont universels.

Ils sont suffisamment familiers grâce aux jeux vidéo et à la culture populaire, mais suffisamment abstraits pour s'adapter à n'importe quel contexte — des bases de données à l'apprentissage automatique.

  • Excès de contenu fantastique dans les données d'entraînement
  • Renforcement positif de RLHF pour les explications créatives
  • Découverte indépendante par le modèle de l'efficacité des métaphores
  • Absence de filtres dans les générations d'entraînement intermédiaires
  • Amplification exponentielle du motif lors de l'entraînement sur les sorties

Ce que Cela Signifie

L'histoire des gobelins dans GPT-5.1 n'est pas simplement un bug amusant ou un cas curieux. Elle montre comment les grands modèles de langage peuvent développer des habitudes bizarres mais persistantes qui sont complètement invisibles dans les métriques de qualité standard. Les utilisateurs pourraient ne même pas remarquer le remplissage lent de leurs réponses par des créatures fantastiques invisibles. Cela nous rappelle l'importance critique non seulement de l'évaluation quantitative des modèles — précision, BLEU, évaluations humaines — mais aussi de l'analyse qualitative des tendances dans les sorties du modèle à travers les générations d'entraînement. Les gobelins aujourd'hui, qui sait quoi demain.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.
Qu'en pensez-vous ?
Chargement des commentaires…