أسئلة وأجوبة الدراسات العليا المحصنة من البحث (GPQA)
معيار GPQA هو مجموعة من 448 سؤالاً متعدد الخيارات من تأليف خبراء في علم الأحياء والكيمياء والفيزياء، مصمم بحيث لا يستطيع غير المتخصصين الإجابة عليها بشكل صحيح حتى مع الوصول المجاني إلى الويب، مما يجعله اختبارًا للاستدلال العلمي الحقيقي.
معيار GPQA (أسئلة وأجوبة الدراسات العليا المحصنة من البحث) هو معيار تقييم صعب قدمه David Rein وزملاؤه — بما فيهم الباحثون المنتسبون إلى Anthropic و NYU — في ورقة بحثية عام 2023. يحتوي على 448 سؤالاً متعدد الخيارات في علم الأحياء والكيمياء والفيزياء على مستوى الدراسات العليا، كل منها من تأليف خبراء مجالات مُحققين وخاضع لعملية تحقق صارمة. يتم إدراج سؤال فقط إذا كان خبراء المجال غير المؤلفين لا يزالون يجيبون عليه بشكل صحيح بمعدل ذي معنى، بينما يجيب غير المتخصصين الذين لديهم وصول غير مقيد إلى الإنترنت عليه بشكل صحيح بما لا يزيد عن حوالي 34٪ من الوقت. معيار GPQA Diamond، وهو مجموعة فرعية من 198 سؤالاً من أصعب العناصر، هو الإصدار الذي يتم الإبلاغ عنه بشكل متكرر في تقييمات النماذج.
التصميم "المحصن من البحث" هو السمة المحددة للمعيار. تتطلب الأسئلة استدلالاً علميًا متعدد الخطوات لا يمكن حله بمجرد استرجاع فقرة مطابقة عبر الإنترنت؛ قد يتطلب سؤال كيمياء تمثيلي تطبيق مبادئ الميكانيكا الكمية للتنبؤ بخصائص الطيف من المبادئ الأولى. دقة القياس على معيار GPQA Diamond تبلغ حوالي 65٪ لخبراء المجال (علماء على مستوى الدكتوراه في المجال ذي الصلة)، مع حصول غير المتخصصين على درجات قريبة من الخط الأساسي العشوائي بنسبة 25٪.
أصبح معيار GPQA مهمًا بعد أن بدأت المعايير القياسية مثل MMLU بالتشبع بين النماذج الحدية. يعمل كمؤشر على ما إذا كان النموذج قد استوعب استدلالاً حقيقيًا من خبير المجال بدلاً من الأنماط الإحصائية السطحية، وترتبط الدرجات على معيار GPQA Diamond بشكل واسع بقدرة النموذج على حل المشاكل العلمية متعددة الخطوات. يُستشهد بالمعيار على نطاق واسع في تقارير إطلاق النماذج التقنية من مختبرات الذكاء الاصطناعي الرئيسية.
اعتبارًا من عام 2026، تسجل النماذج الموجهة نحو الاستدلال الرائدة — بما فيها سلسلة OpenAI o1 و o3 وعائلة Anthropic Claude 3.7 و Claude 4 — درجات أعلى بكثير من معيار الخبير البشري البالغ 65٪ على معيار GPQA Diamond، مع اقتراب النماذج الأفضل من 80–90٪. يدفع هذا التقدم السريع المجتمع نحو تقييمات متابعة أصعب، على الرغم من أن معيار GPQA يبقى حجر الأساس القياسي بسبب تصميمه النظيف ومقاومته القوية للحفظ السطحي.