Habr AI→ original

Recherche sur ChatGPT : la forme grammaticale féminine dans le prompt affecte-t-elle la qualité de résolution des tâches ?

Une chercheuse a testé si la forme de genre grammatical dans un prompt en russe affecte la qualité du codage de ChatGPT. Sur le benchmark LiveCodeBench…

Traité par IA depuis Habr AI ; édité par Hamidun News
Recherche sur ChatGPT : la forme grammaticale féminine dans le prompt affecte-t-elle la qualité de résolution des tâches ?
Source : Habr AI. Collage: Hamidun News.
◐ Écouter l'article

Une petite expérience menée avec soin a révélé un effet désagréable : sur GPT-5.4 mini, les formulations en russe avec une forme « féminine » dans les invites peuvent légèrement dégrader la qualité des solutions aux tâches de programmation. Lorsque le cadre de l'utilisateur différait par un seul marqueur de genre, le modèle commettait plus souvent des erreurs dans la variante « я хотела бы твоей помощи » [J'aimerais votre aide (féminin)], tandis que les formulations neutres et « masculines » donnaient des résultats presque identiques.

Sur les tâches simples, la différence disparaissait presque, mais sur les tâches complexes, elle semblait statistiquement significative. L'impulsion pour la vérification provenait d'une observation anodine d'une ingénieure de recherche en ML, qui a remarqué que les réponses du modèle devenaient moins précises lorsque le dialogue en russe contenait des formes féminines telles que « я уже попробовала » [J'ai déjà essayé (féminin)] ou « я хотела бы » [J'aimerais (féminin)]. Pour ne pas s'appuyer uniquement sur l'intuition, elle a formulé la question de manière stricte : est-ce que l'auto-présentation marquée par le genre en russe change la qualité des solutions aux tâches de programmation en anglais, si tout le reste dans l'invite et le format de réponse reste inchangé ?

Pour le test, ils ont choisi LiveCodeBench — un benchmark populaire avec des tâches de LeetCode, AtCoder et Codeforces, où les solutions peuvent être vérifiées objectivement par des cas de test prêts. L'idée clé de l'expérience est que les différences entre les variantes d'invites étaient minimales. Dans la version neutre, on a simplement demandé au modèle d'aider à résoudre une tâche Python.

Dans la variante « masculine », une phrase a changé en « я хотел бы твоей помощи » [J'aimerais votre aide (masculin)], et dans la variante « féminine » en « я хотела бы твоей помощи » [J'aimerais votre aide (féminin)]. Ils ont également vérifié une deuxième paire de formulations similaires. Au total, 1055 tâches de la version LiveCodeBench v6 ont été utilisées, avec les paramètres d'exécution les plus stricts : une tentative par tâche, température 0, la métrique principale étant pass@1 — c'est-à-dire si le modèle résout la tâche du premier coup.

Deux modèles OpenAI ont été testés : GPT-5.4 mini et GPT-5.4.

Pour évaluer la robustesse du résultat, ils ont appliqué un bootstrap avec 10 000 rééchantillonnages et un intervalle de confiance de 95 pour cent.

L'effet sur GPT-5.4 mini s'est manifesté assez clairement. Les formulations neutres ont donné un pass@1 d'environ 0.

661–0.663, les formulations « masculines » — de 0.660 à 0.

668, et les « féminines » — 0.649–0.652.

Après avoir combiné deux variantes d'invites, la différence entre female et male a donné un intervalle de confiance de -0.0265 à -0.0005, c'est-à-dire qu'il ne traversait pas zéro.

En d'autres termes, la baisse est faible mais statistiquement non aléatoire. La partie la plus intéressante a commencé en termes de difficulté : sur les tâches faciles et moyennes, il y avait presque aucun effet significatif, mais sur les tâches difficiles, la différence entre le cadre « féminin » et « masculin » était de -0.0314 avec un intervalle de confiance de -0.

0600 à -0.0043. Entre les plateformes, aucune divergence notable n'a été trouvée, mais sur les tâches plus récentes, une tendance vers un plus grand écart a émergé, bien qu'elle se soit avérée moins robuste que la division par difficulté.

Avec le GPT-5.4 flagship, le tableau s'est avéré différent. En raison du coût et de la durée des exécutions, il n'a été testé que sur les tâches difficiles, et l'effet n'a pas pu être reproduit.

L'explication probable est que le modèle plus puissant résout cet ensemble considérablement mieux que la version mini — environ 57 pour cent contre 33 pour cent — donc pour lui ce benchmark ne se situe plus à la limite de ses capacités. Autrement dit, la sensibilité à la formulation peut se manifester précisément lorsque le modèle fonctionne à ses limites, plutôt que dans sa zone de confort. C'est une limitation importante : on ne peut pas encore affirmer qu'il s'agit d'une propriété universelle de toutes les versions de ChatGPT ou de tous les LLMs en général.

La conclusion pratique de cette expérience est assez directe. Lorsqu'il s'agit de tâches complexes où chaque tentative compte et où le modèle pourrait trébucher sur des détails mineurs, il est plus sûr de formuler les demandes de manière neutre et de ne pas ajouter de cadre personnel inutile. Cela n'est pas une preuve de « sexisme » au sens courant, mais plutôt un signal que même les marqueurs linguistiques minimaux peuvent influencer la qualité de la réponse dans les scénarios mesurables. L'étape logique suivante consiste à tester d'autres modèles, d'autres langues et des ensembles de données plus difficiles pour comprendre où finit la particularité du benchmark spécifique et où commence un problème systémique.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…