Habr AI→ المصدر

أطلقت OpenAI نموذج GPT-5.4 Pro: أرقام قياسية جديدة في ARC-AGI-2 وFrontierMath والمنطق

أطلقت OpenAI نموذج GPT-5.4 Pro وأظهرت قفزة ملحوظة مقارنة بالإصدار السابق. يسجل النموذج 83.3% في ARC-AGI-2 مقابل 54% لسابقه، ويحل مسائل FrontierMath، ويؤدي…

معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
أطلقت OpenAI نموذج GPT-5.4 Pro: أرقام قياسية جديدة في ARC-AGI-2 وFrontierMath والمنطق
المصدر: Habr AI. كولاج: Hamidun News.
◐ استمع للمقال

قدمت OpenAI نموذج GPT-5.4 Pro — وهي نسخة رائدة جديدة تحقق طفرة ملحوظة ليس فقط في المقاييس الخام، بل أيضاً في كيفية تصرف النموذج في المهام المعقدة. إذا كان اسم Pro يُفهم سابقاً ببساطة كخطة أغلى ثمناً، فهو هنا يبدو بالفعل كمستوى متميز من الجودة.

نقلة نوعية في الاختبارات

الرقم البارز من المراجعة — 83.3٪ في ARC-AGI-2 مقابل 54٪ في النسخة السابقة. بالنسبة لفئة من المهام حيث يجب على النماذج ألا تخمّن نمطاً بل تشتق فعلاً قاعدة من الأمثلة، هذا قفز حاد.

تكتسب هذه النتيجة أهميتها ليس بمعزل عن غيرها، بل كإشارة: عزّزت OpenAI قدرة النموذج على العمل حيث تفشل الاستكشافات السطحية وحيث يجب عليك الحفاظ على بنية المهمة حتى النهاية. التقدم في FrontierMath ليس أقل إيحاءً — مجموعة مسائل اعتُبرت طويلاً حقلاً مغلقاً تقريباً أمام نماذج الذكاء الاصطناعي السائدة. إذا كانت مثل هذه الاختبارات تُستخدم سابقاً بشكل أساسي كعرض للحدود، فهي الآن تصبح بشكل متزايد طريقة للمقارنة بين مدى جودة قدرة النموذج على بناء سلسلة طويلة من الاستدلال دون فقدان خطوة.

في ضوء هذا، يبدو GPT-5.4 Pro ليس مجرد أسرع أو أكثر ملاءمة، بل أعمق بشكل ملحوظ من حيث الملف الشخصي الفكري.

الاختبارات خارج معايير الأداء

لم يقتصر المراجعون على معايير الأداء بل أجروا النموذج عبر سيناريوهات تطبيقية أكثر. بدلاً من نسب مئوية مجردة، لاحظوا كيفية تعامل GPT-5.4 Pro مع مهام تتطلب الجمع بين المنطق والتخطيط والانتباه للتفاصيل. هذا الشكل أكثر إثارة من الجدول المعياري لأنه يُظهر ليس مهارة واحدة قوية، بل سلوك النموذج تحت الحمل، حيث يؤدي الخطأ في منتصف السلسلة إلى كسر النتيجة برمتها عند أول فشل.

  • ألغاز منطقية بخوادم وتبعيات بين العُقد
  • مهام تتطلب الحفاظ على عدة شروط في نفس الوقت
  • سيناريوهات تتضمن إيجاد مسارات غير واضحة للحلول
  • محاكاة تخفي كاملة على لوحة، حيث يُهم الخطة وتسلسل الإجراءات

وفقاً لأوصاف الاختبارات، تكمن القوة الرئيسية للنسخة الجديدة ليس فقط في الإجابة النهائية الصحيحة، بل أيضاً في الثبات على طول الطريق. يفقد النموذج السياق بشكل أقل تكراراً، ويحافظ بشكل أفضل على القيود، ولا ينزلق بسرعة في تخمينات عشوائية إذا تجاوزت المهمة الأمثلة المعيارية من مجموعة البيانات التدريبية. بالنسبة للمستخدمين، هذا أهم من رقم قياسي في التصنيف: بهذه الطريقة يُشعر بالمكاسب الحقيقية في الجودة في العمل اليومي.

ما الذي كان مفاجئاً في السلوك

أحد أكثر الحلقات تعبيراً في المراجعة لا يتعلق بالرياضيات بل بسلوك البحث في النموذج. أثناء حل مسألة، وجد GPT-5.4 Pro ورقة علمية منسية من عام 2011 على الإنترنت واستخدمها كطريق مختصر للإجابة.

من جهة، هذا مثير للإعجاب: النموذج لا يعيد ببساطة تدوير الأنماط المحفوظة، بل يعرف كيف يجد دعماً خارجياً حيث يساعد فعلاً. من جهة أخرى، يثير مثل هذا الحدث فوراً سؤالاً عن حدود الاستقلالية والتحقق من المصادر الموجودة. هذا تحول مهم في نوع التفاعل مع الذكاء الاصطناعي ذاته.

يعمل المستخدم بشكل متزايد ليس مع موسوعة ناطقة، بل مع نظام يجمع بين الاستدلال والبحث وتكييف الاستراتيجية مع المهمة. هذا بالضبط السبب في أن المقارنة وحدها من خلال عدد التوكنات أو سرعة الاستجابة تشرح بشكل سيء القيمة الحقيقية للنموذج. ما يصبح أساسياً هو شيء آخر: إلى أي مدى يمكنه التفكير والبحث والعدم الانهيار على مسار غير معياري بشكل موثوق.

ماذا يعني هذا

ارتفعت المقاييس للنماذج الأعلى من جديد، ويُظهر GPT-5.4 Pro أن المرحلة التالية من المنافسة لم تعد تتمحور حول الاتساق الأساسي للنص، بل حول عمق الاستدلال والمرونة في السيناريوهات المعقدة. بالنسبة للسوق، يعني هذا تسريع الانتقال من «روبوت دردشة ذكي» إلى أداة عمل للتحليل والرياضيات والبرمجة والمهام متعددة الخطوات حيث كان على الإنسان سابقاً أن يُغطي النموذج في كل خطوة تقريباً.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…