Habr AI→ original

Pesquisa sobre ChatGPT: a forma gramatical feminina no prompt afeta a qualidade da solução de tarefas

Uma pesquisadora testou se a forma de gênero gramatical em um prompt em russo afeta a qualidade da codificação do ChatGPT. No benchmark LiveCodeBench, o…

Processado por IA de Habr AI; editado por Hamidun News
Pesquisa sobre ChatGPT: a forma gramatical feminina no prompt afeta a qualidade da solução de tarefas
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

Um pequeno, mas cuidadosamente conduzido experimento revelou um efeito desagradável: no GPT-5.4 mini, formulações em russo com linguagem "feminina" em prompts podem degradar ligeiramente a qualidade das soluções para tarefas de programação. Quando o quadro do usuário diferia por apenas um marcador de gênero, o modelo errava com mais frequência na variante "я хотела бы твоей помощи" [Eu gostaria da sua ajuda (feminino)], enquanto formulações neutras e "masculinas" produziram resultados quase idênticos.

Em tarefas simples, a diferença quase desaparecia, mas em tarefas complexas parecia estatisticamente significativa. O impulso para a verificação veio de uma observação casual de uma engenheira de pesquisa em ML, que notou que as respostas do modelo se tornavam menos precisas quando o diálogo em russo continha formas femininas como "я уже попробовала" [Eu já tentei (feminino)] ou "я хотела бы" [Eu gostaria (feminino)]. Para não confiar apenas na intuição, ela formulou a questão estritamente: a autoapresentação com marcadores de gênero em russo afeta a qualidade das soluções para tarefas de programação em inglês, se tudo mais no prompt e formato de resposta permanece inalterado.

Para o teste, escolheram LiveCodeBench — um benchmark popular com tarefas do LeetCode, AtCoder e Codeforces, onde as soluções podem ser verificadas objetivamente por meio de casos de teste prontos. A ideia chave do experimento é que as diferenças entre variantes de prompts foram mínimas. Na versão neutra, o modelo foi simplesmente solicitado a ajudar a resolver uma tarefa Python.

Na variante "masculina", uma frase mudou para "я хотел бы твоей помощи" [Eu gostaria da sua ajuda (masculino)], e na "feminina" para "я хотела бы твоей помощи" [Eu gostaria da sua ajuda (feminino)]. Também verificaram um segundo par de formulações similares. No total, 1055 tarefas da versão LiveCodeBench v6 foram utilizadas, com os parâmetros de execução mais rigorosos: uma tentativa por tarefa, temperatura 0, a métrica primária sendo pass@1 — ou seja, se o modelo resolve a tarefa na primeira tentativa.

Dois modelos OpenAI foram testados: GPT-5.4 mini e GPT-5.4.

Para avaliar a robustez dos resultados, aplicaram bootstrap com 10.000 reamostragens e um intervalo de confiança de 95 por cento.

O efeito no GPT-5.4 mini apareceu bem claramente. Formulações neutras deram pass@1 de aproximadamente 0.

661–0.663, "masculinas" — de 0.660 a 0.

668, e "femininas" — 0.649–0.652.

Após combinar duas variantes de prompts, a diferença entre female e male deu um intervalo de confiança de -0.0265 a -0.0005, ou seja, não cruzou zero.

Em outras palavras, a queda é pequena, mas estatisticamente não aleatória. A parte mais interessante começou em termos de dificuldade: em tarefas fáceis e médias, quase não havia efeito significativo, mas em tarefas difíceis a diferença entre a versão "feminina" e "masculina" foi de -0.0314 com intervalo de confiança de -0.

0600 a -0.0043. Nas plataformas, não foi encontrada divergência notável, mas em tarefas mais recentes surgiu uma tendência de maior disparidade, embora se mostrasse menos robusta que a divisão por dificuldade.

Com o GPT-5.4 flagship, o quadro se mostrou diferente. Devido ao custo e tempo de execução, foi testado apenas em tarefas difíceis, e o efeito não pôde ser reproduzido.

A explicação provável é que o modelo mais forte resolve tal conjunto consideravelmente melhor que a versão mini — aproximadamente 57 por cento versus 33 por cento — então para ele este benchmark já não se encontra na fronteira de suas capacidades. Em outras palavras, a sensibilidade à formulação pode se manifestar precisamente quando o modelo está trabalhando em seus limites, em vez de em sua zona de conforto. Esta é uma limitação importante: ainda não é possível afirmar que esta seja uma propriedade universal de todas as versões do ChatGPT ou de todos os LLMs em geral.

A conclusão prática deste experimento é bastante direta. Quando se trata de tarefas complexas onde cada tentativa importa e o modelo pode tropeçar em detalhes menores, é mais seguro formular solicitações de forma neutra e não adicionar enquadramento pessoal desnecessário. Esta não é prova de "sexismo" no sentido coloquial, mas sim um sinal de que mesmo marcadores linguísticos mínimos podem influenciar a qualidade da resposta em cenários mensuráveis. O próximo passo lógico é testar outros modelos, outras línguas e conjuntos de dados mais desafiadores para entender onde termina a peculiaridade do benchmark específico e começa um problema sistêmico.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…