GPQA
GPQA (Graduate-Level Google-Proof Q&A) — бенчмарк из 448 экспертных вопросов по биологии, химии и физике уровня аспирантуры, которые невозможно решить простым поиском; даже профильные PhD-специалисты набирают в среднем около 65%.
GPQA (Graduate-Level Google-Proof Q&A) — бенчмарк, созданный Дэвидом Рейном и коллегами (NYU, Anthropic и другие аффилиации) в 2023 году. Датасет содержит 448 вопросов с четырьмя вариантами ответа по молекулярной биологии, квантовой химии и физике высоких энергий. Определение «Google-proof» означает, что правильный ответ невозможно найти простым поиском или поверхностным прочтением статьи: вопросы требуют глубокого понимания механизмов, умения применять знания к нестандартным ситуациям и многошаговых рассуждений.
Для составления вопросов привлекались действующие аспиранты и PhD-исследователи профильных областей; каждый вопрос проходил верификацию другими специалистами. Эксперты в смежных, но не профильных дисциплинах набирали в среднем около 34% — лишь немногим лучше случайного угадывания (25%). Сами составители-специалисты показывали примерно 65%. Наиболее сложное подмножество — GPQA Diamond (198 вопросов) — стало основным ориентиром для сравнения.
GPQA заполнил важную нишу: ведущие бенчмарки того времени (MMLU, TruthfulQA) насыщались слишком быстро и не требовали реального научного рассуждения. Появление GPQA позволило зафиксировать переломный момент, когда модели превысили средний экспертный уровень в узкоспециализированных областях: Claude 3 Opus и GPT-4o приблизились к отметке 65% на GPQA Diamond примерно в 2024 году, а последующие модели её превысили.
К 2025–2026 годам ведущие системы — Claude 3.7, GPT-o3, Gemini 2.0 Ultra и аналоги — показывают 75–85% на GPQA Diamond. Это вновь ставит вопрос о насыщении; исследователи разрабатывают бенчмарки следующего уровня сложности. GPQA по-прежнему является стандартным измерителем научных рассуждений во всех крупных технических отчётах.