Pesquisa sobre ChatGPT: a forma gramatical feminina no prompt afeta a qualidade da solução de tarefas
Uma pesquisadora testou se a forma de gênero gramatical em um prompt em russo afeta a qualidade da codificação do ChatGPT. No benchmark LiveCodeBench, o GPT-5.4

Небольшой, но аккуратно поставленный эксперимент показал неприятный эффект: в GPT-5.4 mini русскоязычная «женская» формулировка запроса может немного ухудшать качество решения задач по программированию. Когда пользовательская рамка отличалась всего одним гендерным маркером, модель чаще ошибалась именно в варианте «я хотела бы твоей помощи», тогда как нейтральная и «мужская» формулировки давали почти одинаковый результат.
На простых задачах разница почти исчезала, но на сложных уже выглядела статистически значимой. Поводом для проверки стало бытовое наблюдение ML research engineer, которая заметила, что ответы модели становятся менее точными, когда в русском диалоге проскальзывают женские формы вроде «я уже попробовала» или «я хотела бы». Чтобы не опираться только на ощущение, она сформулировала вопрос строго: меняет ли русскоязычная гендерно маркированная самопрезентация качество решения англоязычных кодинг-задач, если все остальное в промпте и формате ответа остается неизменным.
Для теста выбрали LiveCodeBench — популярный бенчмарк с задачами из LeetCode, AtCoder и Codeforces, где решения можно объективно проверять через готовые тесты. Ключевая идея эксперимента в том, что различия между вариантами промпта были минимальными. В нейтральной версии модель просто просили помочь решить задачу по Python.
В «мужской» менялась одна фраза на «я хотел бы твоей помощи», в «женской» — на «я хотела бы твоей помощи». Дополнительно проверили и вторую пару похожих формулировок. Всего использовали 1055 задач из релиза LiveCodeBench v6, параметры запуска были максимально строгими: одна попытка на задачу, температура 0, основная метрика — pass@1, то есть решает ли модель задачу с первого раза.
Тестировали две модели OpenAI: GPT-5.4 mini и GPT-5.4.
Для оценки устойчивости результата применили bootstrap с 10 000 пересэмплирований и 95-процентным доверительным интервалом. На GPT-5.4 mini эффект появился довольно четко.
Нейтральные формулировки дали pass@1 около 0,661–0,663, «мужские» — от 0,660 до 0,668, а «женские» — 0,649–0,652. После объединения двух вариантов промпта разница между female и male дала доверительный интервал от -0,0265 до -0,0005, то есть ноль он не пересек. Иными словами, провал небольшой, но статистически не случайный.
Самое интересное началось в разрезе сложности: на easy и medium задачах значимого эффекта почти не было, а на hard разница между «женской» и «мужской» рамкой составила -0,0314 при доверительном интервале от -0,0600 до -0,0043. По платформам заметного расхождения не нашли, зато на более новых задачах наметился тренд к большему разрыву, хотя он оказался менее устойчивым, чем разбиение по сложности. С флагманской GPT-5.
4 картина оказалась другой. Из-за стоимости и длительности прогонов ее проверяли только на сложных задачах, и там воспроизвести эффект не удалось. Вероятное объяснение в том, что более сильная модель решает такой набор заметно лучше mini-версии — примерно 57 процентов против 33 процентов, — поэтому для нее этот бенчмарк уже не находится на границе возможностей.
Иначе говоря, чувствительность к формулировке может проявляться именно тогда, когда модель работает на пределе, а не в комфортной зоне. Это важное ограничение: пока нельзя утверждать, что речь идет об универсальном свойстве всех версий ChatGPT или всех LLM вообще. Практический вывод из этого эксперимента довольно приземленный.
Если речь идет о сложных задачах, где важна каждая попытка и модель может споткнуться на мелочах, безопаснее формулировать запросы нейтрально и не добавлять лишнюю персональную рамку. Это не доказательство «сексизма» в бытовом смысле, а скорее сигнал о том, что даже минимальные языковые маркеры способны влиять на качество ответа в измеримых сценариях. Следующий логичный шаг — проверить другие модели, другие языки и более трудные датасеты, чтобы понять, где заканчивается особенность конкретного бенчмарка и начинается системная проблема.