OpenAI GPT-5.4 حل مسألة في FrontierMath أمضى عالم رياضيات 20 عاما في إعدادها
حل OpenAI GPT-5.4 مسألة من FrontierMath كان عالم الرياضيات البولندي Bartosz Naskręcki يعمل عليها منذ ما يقرب من 20 عاما وكان يعدها فوق متناول AI. ولم يلفت…
معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
حل GPT-5.4 من OpenAI مسألة من معيار FrontierMath الذي كان عالم الرياضيات البولندي بارتوش ناسكريتسكي يبنيه لمدة عشرين سنة تقريباً ويعتبره في الواقع غير متاح للآلات. بالنسبة للمؤلف نفسه، أصبح هذا نقطة تحول شخصية: في وقت قريب جداً كان يسمي الذكاء الاصطناعي "آلة حاسبة متقدمة جداً"، والآن يتحدث عن مستوى جديد من التعاون مع النموذج.
لماذا فاجأ الجميع
FrontierMath هو أحد أقسى معايير الرياضيات للذكاء الاصطناعي. يحتوي على 350 مسألة أصلية في نظرية الأعداد والهندسة الجبرية والطوبولوجيا والتوافقيات والتحليل. الطبقة الأثقل، Tier 4، تتكون من 48 مسألة على مستوى البحث: حتى عالم رياضيات قوي مع درجة الدكتوراه قد يحتاج إلى شهر واحد على الأقل فقط لفهم الزاوية التي يجب الاقتراب من هذه المسألة. هذا بالضبط النوع من الحالات التي كان ناسكريتسكي يستعد لها مثاله — ليس نموذجاً من كتاب مدرسي، بل تقريباً عند حدود التعقيد.
كان ناسكريتسكي أحد عدد قليل من علماء الرياضيات الأوروبيين المدعويين لصياغة مسائل لهذه المجموعة. نمت مسألته من حوالي خمسة عشر سنة من العمل البحثي الضيق، واستغرق الحل الرسمي 13 صفحة كثيفة. كانت الإجابة رقماً كبيراً جداً لاستبعاد التخمين العشوائي. لذلك، ما كان مفاجئاً لم يكن فقط الإجابة الصحيحة لـ GPT-5.4 نفسها، بل أيضاً الطريقة التي وصل بها النموذج إليها: بدلاً من التعداد الغاشم، لاحظ البنية ووجد مساراً أقصر. وفقاً للمؤلف، كان نهج النموذج "نظيفاً وأنيقاً".
"للتو حدثت نقطة انقطاعي... وعلى الجانب الآخر توجد حياة — تمتد إلى اللانهاية!"
كم سرعة نما النتيجة
القصة مهمة ليس فقط بسبب مسألة جميلة واحدة، بل بسبب سرعة التقدم. عندما تم إطلاق FrontierMath في أواخر 2024، كانت أفضل النماذج تحل أقل من 2٪ من المسائل. على مدار ستة عشر شهراً، نمت النتائج بمقدار مرتبة واحدة، وليس فقط على الأمثلة المفتوحة، بل أيضاً على المجموعة المخفية التي لم تكن OpenAI لديها وصول مباشر إليها. هذا مهم لأن الحجة حول "الإفراط في الضبط على الإجابات" تبقى الاعتراض الرئيسي للمشككين في كل مرة يظهر نموذج جديد قفزة كبيرة في الرياضيات.
- نهاية 2024: أفضل النماذج تحل أقل من 2٪ من مسائل FrontierMath.
- منتصف 2025: GPT-5 Pro يصل إلى 13٪ في Tier 4.
- يناير 2026: GPT-5.2 Pro يرتفع إلى 31٪ في Tier 4.
- مارس 2026: GPT-5.4 Pro يصل إلى 50٪ عبر المستويات 1-3 و 38٪ في Tier 4.
تبرز النتيجة على المسائل المخفية بشكل منفصل. وفقاً للمقالة، حل GPT-5.4 55٪ من هذه الأمثلة مقابل 25٪ من المسائل التي كانت OpenAI يمكن أن تكون نظرياً أقرب إليها بناءً على البيانات والحلول. هذا لا يثبت "النقاء" المطلق للتجربة، لكنه يعزز بشكل ملحوظ نسخة أن النموذج يعرف حقاً كيفية التفكير في مسائل جديدة بدلاً من مجرد إعادة إنتاج الأنماط المرئية. بالنسبة لمعايير البحث، هذا ربما هو الاختبار الأكثر حساسية: الحداثة تحتل أهمية أكثر من أي عرض توضيحي على أمثلة معروفة بالفعل.
لماذا لم يختفِ التشكك
رغم كل قوة الحالة، لا تختزل القصة نفسها في الصيغة "الآلة تفكر مثل الإنسان بالفعل". في نفس جولة التقييم، حلت GPT-5.4 مسألة أخرى من Tier 4، لكن التحليل الأولي أظهر أن النموذج ربما اعتمد على ورقة بحثية قديمة من 2011، والتي لم يعرفها مؤلف المسألة نفسه. هذا مثال جيد على كيف يتلاشى الحد الفاصل بين التفكير المستقل والبحث الأدبي الفعال جداً، خاصة إذا كان النموذج يمكنه العمل مع الويب وجمع المصادر النادرة بسرعة.
هناك أيضاً طبقة ثانية من الأسئلة — استقلالية المعيار نفسه. يتم تمويل FrontierMath من قبل OpenAI، وتتمتع الشركة بإمكانية الوصول إلى جزء كبير من المسائل والحلول. المجموعة المخفية، التي أظهرت GPT-5.4 فيها أيضاً نتائج قوية، تخفف جزئياً من التوتر، لكنها لا تزيل تضارب المصالح بالكامل.
لذلك، من المعقول قراءة هذه القصة في وضعين في نفس الوقت: كإشارة حقيقية إلى ارتفاع حاد في القدرات الرياضية للنماذج، وكتذكير بأن الصناعة لا تزال بحاجة إلى اختبارات مستقلة ومنهجيات شفافة والتحقق الخارجي من النتائج اللافتة للنظر.
ما الذي يعنيه هذا
الاستنتاج الرئيسي ليس أنه يجب استبدال علماء الرياضيات. بل العكس: قصة ناسكريتسكي تظهر أن النماذج الرائدة تبدأ في العمل كشريك بحثي يقلل من مساحة البحث ويقترح خطوات غير متوقعة. بالنسبة للعلم والبحث والتطوير المطبق، هذا هو التحول الخطير: الذكاء الاصطناعي يبدو أقل فأقل مثل الآلة الحاسبة ويبدو أكثر فأكثر — مثل مشارك تأليف لا يمكن تجاهل أفكاره، ولكن لا يزال يحتاج إلى التحقق منها بعناية.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.