تفوق ChatGPT 5.4 من OpenAI على Claude Opus 4.6 وGemini 3.1 Pro في مقارنة على Habr
قارن Habr بين Gemini 3.1 Pro وChatGPT 5.4 وClaude Opus 4.6 في أربعة سيناريوهات يومية: توليد النصوص، تلخيص PDF، الرياضيات، والبرمجة بلغة Python. وفاز ChatGPT…
معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
على موقع Habr تم نشر مراجعة عملية واسعة لثلاثة نماذج رئيسية: Gemini 3.1 Pro و ChatGPT 5.4 و Claude Opus 4.6. اختبر المؤلف ليس المعايير المجردة، بل المهام اليومية الفعلية - من كتابة قصة وضغط ملف PDF إلى الرياضيات وتطبيق Python - وبإجمالي النقاط صنف ChatGPT بشكل غير متوقع كقائد.
كيف قارنوا
تضمن الاختبار أربعة سيناريوهات يتعامل معها المستخدمون فعليًا مع الذكاء الاصطناعي كل يوم. أولاً، طُلب من النماذج كتابة قصة خيال فكاهية من ثلاثة فصول. ثم حصلوا على ملف PDF يحتوي على عمل عملي وطُلب منهم إنشاء ملخص موجز لكن قابل للاستخدام دون فقدان المعلومات الأساسية. بعد ذلك جاءت مجموعة من أربع مسائل رياضية، والاختبار النهائي كان تطوير تطبيق سطح مكتب بلغة Python: آلة حاسبة هندسية مع واجهة رسومية ولعبة Snake مدمجة.
كانت منطق التقييم عمليًا قدر الإمكان. قيّم المؤلف مهام النص والكود على مقياس من ثلاث نقاط، بينما أعطت مرحلة الرياضيات حتى أربع نقاط - واحدة لكل مسألة تم حلها بشكل صحيح. بالإضافة إلى ذلك، لأول مرة قام بإدراج تكلفة كل طلب بالروبل في الجدول. بفضل ذلك، لم تكن المقارنة فقط حول جودة الإجابة، بل أيضًا حول تكلفة النتيجة. الحد الأقصى في مثل هذا النظام هو 13 نقطة، وكان الجمع بين النقاط والنفقات بالذات هو المعيار الرئيسي للاختيار النهائي.
من فاز في المراحل
في المرحلة الأولى، تعثر ChatGPT قليلاً بسبب خطأ في ترقيم الفصول وحصل على 2.5 نقطة، بينما حصل Gemini و Claude على الحد الأقصى من 3 نقاط لكل منهما. في الجولة الثانية، انقلب الوضع: ضغط ChatGPT ملف PDF بشكل أفضل من الجميع وحافظ على التفاصيل المهمة، بينما قام Gemini و Claude، برأي المؤلف، بقطع النص بقوة شديدة وفقدا جزءًا من المعلومات المطلوبة. كانت مرحلة الرياضيات متساوية للجميع، لكن في البرمجة ظهرت نقاط دقيقة مرة أخرى، ليس في النظرية بل في النتائج العملية.
- إنشاء النصوص: Gemini 3.1 Pro — 3 نقاط مقابل 20 روبل، Claude Opus 4.6 — 3 نقاط مقابل 68 روبل، ChatGPT 5.4 — 2.5 نقطة مقابل 25 روبل.
- ضغط PDF: حصل ChatGPT 5.4 على 3 نقاط مقابل 24 روبل؛ حصل Gemini 3.1 Pro و Claude Opus 4.6 على نقطتين مقابل 16 و 38 روبل على التوالي.
- الرياضيات: حل جميع النماذج الثلاثة المسائل بشكل مثالي، لكن ChatGPT 5.4 كان أرخص - 15 روبل مقابل 22 لـ Gemini و 29 لـ Claude.
- البرمجة: حصل ChatGPT 5.4 على 3 نقاط لآلة حاسبة وسي Snake تعملان، Gemini 3.1 Pro — 2.5 نقطة بسبب فشل التقاط المفاتيح في اللعبة، Claude Opus 4.6 — نقطتان بسبب خطأ عند القسمة على أرقام عشرية.
"النتيجة واضحة - فاز ChatGPT 5.4."
السعر والمقابلات
كان الجدول النهائي مثيرًا للاهتمام. حقق ChatGPT 5.4 11.
5 نقطة وأنفق 112 روبل. انتهى Gemini 3.1 Pro من الاختبار بـ 10.
5 نقاط والنفقات الإجمالية 87 روبل، مما يجعله الخيار الأكثر اقتصادية. حصل Claude Opus 4.6 على 10 نقاط لكنه كلف 208 روبل - أي ما يقرب من ضعف ChatGPT وأكثر من ضعف Gemini.
إذا نظرنا إلى السعر فقط، فإن القائد هنا من Google؛ إذا نظرنا إلى التوازن بين الجودة والنفقات، فإن الميزة تكون لـ OpenAI. ومع ذلك، فإن المراجعة نفسها لا تدعي أن تكون معيارًا أكاديميًا عالميًا. يقارن المؤلف النماذج مباشرة في مجموعة ضيقة من المهام اليومية ويعتمد في بعض الأحيان على الحكم التحريري الشخصي، خاصة حيث يتعلق الأمر بنمط النص أو سهولة الواجهة.
لكن بالضبط لهذا السبب تكون المادة مفيدة: فهي تظهر ليس السجلات المخبرية، بل كيف تتصرف النماذج في العمل العملي. في هذا الاختيار، يبدو Gemini كخيار ميزانية عقلاني، Claude — كخيار مكلف وغير متسق، و ChatGPT — كأكثر توازن مستقر.
ماذا يعني هذا
إذا اخترت نموذجًا واحدًا لمجموعة واسعة من المهام اليومية، فبناءً على هذه المقارنة يكون ChatGPT 5.4 في الواجهة: ليس الأفضل في كل مكان، لكنه في الغالب يقدم النتيجة الأكثر توازنًا بأموال معقولة. يبقى Gemini 3.1 Pro بديلاً قويًا لأولئك الذين يراقبون ميزانيتهم عن كثب، بينما يبدو Claude Opus 4.6 بعد مثل هذا الاختبار اختيارًا أقل ملاءمة من قبل.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.