Habr AI→ المصدر

كيف تتعامل 15 نموذجًا من AI مع البحث عن أفضل محلل XML لـ iOS: نتائج الاختبار المعياري

اختبر مطوّر كيف تتعامل 15 نموذجًا شائعًا من AI مع البحث عن محلل XML سريع لـ iOS، وقارن نتائجها باختباره المعياري اليدوي. أمضى المطوّر 3 ساعات في البحث، بينما وع

كيف تتعامل 15 نموذجًا من AI مع البحث عن أفضل محلل XML لـ iOS: نتائج الاختبار المعياري
المصدر: Habr AI. كولاج: Hamidun News.
◐ استمع للمقال

أجرى أحد المطورين تجربة غير عادية: حمل نفس المهمة في 15 نموذج ذكاء اصطناعي شهير وقارن نتائجها مع معياره اليدوي لمحللات XML لنظام iOS.

حول المهمة

قبل ستة أشهر، نشر المؤلف نتائج بحثه الخاص — أي محلل XML لنظام iOS و tvOS و macOS يعمل بأسرع سرعة. كان عملاً شاقاً: عدة ساعات في تحليل مستودعات GitHub يدويًا، والتحقق من الشهرة (بحد أدنى 500 نجمة)، ودعم لغات Objective-C و Swift، والتكامل عبر CocoaPods أو SwiftPM. بعد ثلاث ساعات من العمل الشاق (وعدة أكواب من القهوة)، وُلد تصنيف شامل للمحللات المثالية.

هل يمكن للذكاء الاصطناعي أن يفعل ذلك بشكل أسرع؟

ثم جاءت فكرة طبيعية: لماذا تقضي 3 ساعات إذا وعد الإنترنت أن الذكاء الاصطناعي يمكنه فعل ذلك في 5 دقائق؟ علاوة على ذلك، هناك فرصة حقيقية بأن يكون هناك خطأ ما في المعيار اليدوي في مكان ما — تفسير غير صحيح للكود، أو تفصيل فائت في المواصفات. وإذا كان الحال كذلك، فإن أنظمة الذكاء الاصطناعي، التي تمتلك كميات هائلة من المعرفة، قد تجد نتيجة أكثر صحة. كان القرار طبيعيًا: تحميل نفس المهمة في 15 نموذج ذكاء اصطناعي مختلفة (OpenAI و Anthropic و Google و Meta و Xai و Perplexity وغيرها)، وجمع نتائجها والمقارنة بصراحة بينها وبين المعيار الأصلي. تجربة عادلة.

خيبت النتائج الآمال

فاقت النتائج التوقعات سوءًا. على الرغم من كل شيء، لم يكن GPT 5.5 Pro فقط أداءً أسوأ من الآخرين — بل حصل على المركز الأخير.

هذا كان صادمًا على الفور: خسرت سفينة OpenAI الرائدة في جميع فئات التحليل والتعرف على المستودعات الشهيرة وتقييم أداء المحللات. كما أن Claude Opus 4.7، الشهير بتحليله العميق وقدرته على الحفاظ على السياق، لم يتمكن من احتلال المركز الأول، على الرغم من أن النتائج كانت أعلى من المتوسط.

بدلاً من ذلك، تبين بشكل غير متوقع أن النماذج الأكثر تخصصًا وإحكامًا احتلت المقدمة، وتنقلت بشكل أفضل بين التفاصيل العملية للمهمة. يعترف المؤلف بصراحة: ربما كان هناك بالفعل خطأ في معياره اليدوي، وبالتالي اختار محللاً ليس بالكامل مثاليًا. لكن حتى لو كان الحال كذلك، فإن النتيجة تظهر نمطًا مثيرًا للاهتمام: حجم نموذج الذكاء الاصطناعي والجودة المدعى بها لا يضمنان دائمًا النجاح في مهمة عملية محددة.

ماذا يعني هذا؟

تذكّر التجربة المطورين بأن الذكاء الاصطناعي أداة لها نقاط قوية وضعف خاصة بها. بالنسبة للمهام التقنية المحددة، يجدر التحقق ليس فقط من شهرة النموذج، بل أيضًا من أدائه الفعلي في حالتك الخاصة. وبصراحة، أحيانًا ما يعد بالتعامل معه في 5 دقائق قد يتطلب انتباهك الدقيق والتحقق من صحته.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.
ما رأيك؟
جارٍ تحميل التعليقات…