Investigación sobre ChatGPT: ¿afecta la forma gramatical femenina en el prompt a la calidad de resolución de tareas?
Una investigadora probó si la forma de género gramatical en un prompt en ruso afecta la calidad de codificación de ChatGPT. En el benchmark LiveCodeBench…
Procesado por IA desde Habr AI; editado por Hamidun News
Un pequeño pero cuidadosamente conducido experimento ha revelado un efecto desagradable: en GPT-5.4 mini, la formulación en ruso con forma "femenina" en prompts puede degradar ligeramente la calidad de las soluciones a tareas de programación. Cuando el marco del usuario difería por solo un marcador de género, el modelo cometía errores con más frecuencia en la variante "я хотела бы твоей помощи" [Me gustaría tu ayuda (femenino)], mientras que las formulaciones neutras y "masculinas" daban resultados casi idénticos.
En tareas simples, la diferencia casi desaparecía, pero en tareas complejas parecía estadísticamente significativa. El impulso para la verificación provino de una observación casual de una ingeniera de investigación en ML, quien notó que las respuestas del modelo se volvían menos precisas cuando el diálogo en ruso contenía formas femeninas como "я уже попробовала" [Ya lo intenté (femenino)] o "я хотела бы" [Me gustaría (femenino)]. Para no confiar únicamente en la intuición, formuló la pregunta estrictamente: ¿cambia la autopresentación con marcadores de género en ruso la calidad de las soluciones a tareas de programación en inglés, si todo lo demás en el prompt y el formato de respuesta permanece sin cambios?
Para la prueba, eligieron LiveCodeBench — un benchmark popular con tareas de LeetCode, AtCoder y Codeforces, donde las soluciones pueden verificarse objetivamente a través de casos de prueba listos. La idea clave del experimento es que las diferencias entre variantes de prompts fueron mínimas. En la versión neutral, simplemente se le pidió al modelo que ayudara a resolver una tarea de Python.
En la variante "masculina", una frase cambió a "я хотел бы твоей помощи" [Me gustaría tu ayuda (masculino)], y en la "femenina" a "я хотела бы твоей помощи" [Me gustaría tu ayuda (femenino)]. También verificaron un segundo par de formulaciones similares. En total, se utilizaron 1055 tareas del lanzamiento LiveCodeBench v6, con los parámetros de ejecución más estrictos: un intento por tarea, temperatura 0, la métrica principal siendo pass@1 — es decir, si el modelo resuelve la tarea al primer intento.
Se probaron dos modelos OpenAI: GPT-5.4 mini y GPT-5.4.
Para evaluar la solidez del resultado, aplicaron bootstrap con 10.000 remuestreos e intervalo de confianza del 95 por ciento.
El efecto en GPT-5.4 mini apareció bastante claramente. Las formulaciones neutras dieron pass@1 de aproximadamente 0.
661–0.663, "masculinas" — de 0.660 a 0.
668, y "femeninas" — 0.649–0.652.
Después de combinar dos variantes de prompts, la diferencia entre female y male dio un intervalo de confianza de -0.0265 a -0.0005, es decir, no cruzó el cero.
En otras palabras, la caída es pequeña pero estadísticamente no aleatoria. La parte más interesante comenzó en términos de dificultad: en tareas fáciles y medias, casi no había efecto significativo, pero en tareas difíciles la diferencia entre el marco "femenino" y "masculino" fue de -0.0314 con intervalo de confianza de -0.
0600 a -0.0043. En las plataformas, no se encontraron divergencias notables, pero en tareas más recientes emergió una tendencia hacia mayor disparidad, aunque resultó ser menos robusta que la división por dificultad.
Con el GPT-5.4 flagship, el panorama fue diferente. Debido al costo y duración de las ejecuciones, fue probado solo en tareas difíciles, y no se pudo reproducir el efecto.
La explicación probable es que el modelo más fuerte resuelve tal conjunto considerablemente mejor que la versión mini — aproximadamente el 57 por ciento versus el 33 por ciento — por lo que para él este benchmark ya no se sitúa en el límite de sus capacidades. En otras palabras, la sensibilidad a la formulación puede manifestarse precisamente cuando el modelo está trabajando en sus límites, en lugar de en su zona de confort. Esta es una limitación importante: aún no se puede afirmar que sea una propiedad universal de todas las versiones de ChatGPT o de todos los LLMs en general.
La conclusión práctica de este experimento es bastante directa. Cuando se trata de tareas complejas donde cada intento importa y el modelo podría tropezar con detalles menores, es más seguro formular las solicitudes de forma neutral y no añadir encuadre personal innecesario. Esto no es prueba de "sexismo" en el sentido coloquial, sino una señal de que incluso marcadores lingüísticos mínimos pueden influir en la calidad de la respuesta en escenarios medibles. El siguiente paso lógico es probar otros modelos, otros idiomas y conjuntos de datos más desafiantes para entender dónde termina la particularidad del benchmark específico y dónde comienza un problema sistémico.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.