Business

GPQA

GPQA (Graduate-Level Google-Proof Q&A) est un benchmark de 448 questions à choix multiples rédigées par des experts en biologie, chimie et physique, conçues de sorte que les non-spécialistes ne puissent pas y répondre correctement même avec un accès web illimité, ce qui en fait un test du raisonnement scientifique authentique.

GPQA (Graduate-Level Google-Proof Q&A) est un benchmark d'évaluation difficile introduit par David Rein et ses collègues — incluant des chercheurs affiliés à Anthropic et à NYU — dans un article de 2023. Il contient 448 questions à choix multiples couvrant la biologie, la chimie et la physique de niveau graduate, chacune rédigée par des experts de domaine vérifiés et soumise à un processus de validation rigoureux. Une question n'est incluse que si les experts de domaine qui ne sont pas l'auteur y répondent encore correctement à un taux significatif, tandis que les non-experts ayant accès à Internet sans restriction y répondent correctement pas plus d'environ 34% du temps. GPQA Diamond, un sous-ensemble de 198 questions des éléments les plus difficiles, est la version la plus couramment rapportée dans les évaluations de modèles.

La conception « google-proof » est la caractéristique déterminante du benchmark. Les questions exigent un raisonnement scientifique multi-étapes qui ne peut pas être résolu en récupérant un passage correspondant en ligne ; une question de chimie représentative pourrait exiger l'application de principes de mécanique quantique pour prédire les propriétés spectroscopiques à partir des premiers principes. La précision mesurée sur GPQA Diamond est d'environ 65% pour les experts de domaine (scientifiques de niveau doctorat dans le domaine pertinent), les non-experts marquant près de la base aléatoire de 25%.

GPQA est devenue importante après que les benchmarks standard comme MMLU ont commencé à saturer parmi les modèles de pointe. Elle sert de signal indiquant si un modèle a internalisé un raisonnement authentique d'expert de domaine plutôt que des motifs statistiques de surface, et les scores sur GPQA Diamond corrèlent largement avec la capacité d'un modèle à résoudre des problèmes scientifiques multi-étapes. Le benchmark est largement cité dans les rapports techniques de sortie de modèles des principaux laboratoires d'IA.

En 2026, les modèles de pointe axés sur le raisonnement — incluant les séries o1 et o3 d'OpenAI et la famille Claude 3.7 et Claude 4 d'Anthropic — marquent significativement au-dessus de la base de 65% des experts humains sur GPQA Diamond, avec les meilleurs modèles approchant 80–90%. Ce progrès rapide pousse la communauté vers des évaluations de suivi plus difficiles, bien que GPQA reste une pierre de touche standard en raison de sa conception propre et de sa forte résistance à la mémorisation superficielle.

Exemple

Une entreprise de biotechnologie évaluant des assistants IA pour la recherche en découverte de médicaments utilise GPQA Diamond pour séparer les modèles avec un raisonnement authentique de biochimie de ceux qui récupèrent des réponses de surface, considérant 70% de précision comme un seuil de déploiement minimum.

Termes liés

Benchmark Modèle de raisonnement Évaluation de modèle (Evals)MMLU

← Glossaire