Pesquisa sobre ChatGPT: a forma gramatical feminina no prompt afeta a qualidade da solução de tarefas
Uma pesquisadora testou se a forma de gênero gramatical em um prompt em russo afeta a qualidade da codificação do ChatGPT. No benchmark LiveCodeBench, o…
Processado por IA de Habr AI; editado por Hamidun News
Um pequeno, mas cuidadosamente conduzido experimento revelou um efeito desagradável: no GPT-5.4 mini, formulações em russo com linguagem "feminina" em prompts podem degradar ligeiramente a qualidade das soluções para tarefas de programação. Quando o quadro do usuário diferia por apenas um marcador de gênero, o modelo errava com mais frequência na variante "я хотела бы твоей помощи" [Eu gostaria da sua ajuda (feminino)], enquanto formulações neutras e "masculinas" produziram resultados quase idênticos.
Em tarefas simples, a diferença quase desaparecia, mas em tarefas complexas parecia estatisticamente significativa. O impulso para a verificação veio de uma observação casual de uma engenheira de pesquisa em ML, que notou que as respostas do modelo se tornavam menos precisas quando o diálogo em russo continha formas femininas como "я уже попробовала" [Eu já tentei (feminino)] ou "я хотела бы" [Eu gostaria (feminino)]. Para não confiar apenas na intuição, ela formulou a questão estritamente: a autoapresentação com marcadores de gênero em russo afeta a qualidade das soluções para tarefas de programação em inglês, se tudo mais no prompt e formato de resposta permanece inalterado.
Para o teste, escolheram LiveCodeBench — um benchmark popular com tarefas do LeetCode, AtCoder e Codeforces, onde as soluções podem ser verificadas objetivamente por meio de casos de teste prontos. A ideia chave do experimento é que as diferenças entre variantes de prompts foram mínimas. Na versão neutra, o modelo foi simplesmente solicitado a ajudar a resolver uma tarefa Python.
Na variante "masculina", uma frase mudou para "я хотел бы твоей помощи" [Eu gostaria da sua ajuda (masculino)], e na "feminina" para "я хотела бы твоей помощи" [Eu gostaria da sua ajuda (feminino)]. Também verificaram um segundo par de formulações similares. No total, 1055 tarefas da versão LiveCodeBench v6 foram utilizadas, com os parâmetros de execução mais rigorosos: uma tentativa por tarefa, temperatura 0, a métrica primária sendo pass@1 — ou seja, se o modelo resolve a tarefa na primeira tentativa.
Dois modelos OpenAI foram testados: GPT-5.4 mini e GPT-5.4.
Para avaliar a robustez dos resultados, aplicaram bootstrap com 10.000 reamostragens e um intervalo de confiança de 95 por cento.
O efeito no GPT-5.4 mini apareceu bem claramente. Formulações neutras deram pass@1 de aproximadamente 0.
661–0.663, "masculinas" — de 0.660 a 0.
668, e "femininas" — 0.649–0.652.
Após combinar duas variantes de prompts, a diferença entre female e male deu um intervalo de confiança de -0.0265 a -0.0005, ou seja, não cruzou zero.
Em outras palavras, a queda é pequena, mas estatisticamente não aleatória. A parte mais interessante começou em termos de dificuldade: em tarefas fáceis e médias, quase não havia efeito significativo, mas em tarefas difíceis a diferença entre a versão "feminina" e "masculina" foi de -0.0314 com intervalo de confiança de -0.
0600 a -0.0043. Nas plataformas, não foi encontrada divergência notável, mas em tarefas mais recentes surgiu uma tendência de maior disparidade, embora se mostrasse menos robusta que a divisão por dificuldade.
Com o GPT-5.4 flagship, o quadro se mostrou diferente. Devido ao custo e tempo de execução, foi testado apenas em tarefas difíceis, e o efeito não pôde ser reproduzido.
A explicação provável é que o modelo mais forte resolve tal conjunto consideravelmente melhor que a versão mini — aproximadamente 57 por cento versus 33 por cento — então para ele este benchmark já não se encontra na fronteira de suas capacidades. Em outras palavras, a sensibilidade à formulação pode se manifestar precisamente quando o modelo está trabalhando em seus limites, em vez de em sua zona de conforto. Esta é uma limitação importante: ainda não é possível afirmar que esta seja uma propriedade universal de todas as versões do ChatGPT ou de todos os LLMs em geral.
A conclusão prática deste experimento é bastante direta. Quando se trata de tarefas complexas onde cada tentativa importa e o modelo pode tropeçar em detalhes menores, é mais seguro formular solicitações de forma neutra e não adicionar enquadramento pessoal desnecessário. Esta não é prova de "sexismo" no sentido coloquial, mas sim um sinal de que mesmo marcadores linguísticos mínimos podem influenciar a qualidade da resposta em cenários mensuráveis. O próximo passo lógico é testar outros modelos, outras línguas e conjuntos de dados mais desafiadores para entender onde termina a peculiaridade do benchmark específico e começa um problema sistêmico.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.