مقارنة Ollama Cloud في مراجعة كود: تبيّن أن DeepSeek v3.1 أقوى من Qwen وGPT-OSS
هل يمكن إسناد مراجعة كود كاملة إلى LLM؟ في اختبار عملي عبر Ollama Cloud، راجعت ثلاثة نماذج — Qwen 3.5 وGPT-OSS وDeepSeek v3.1 — طلبات PR حقيقية من مشروع…
معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
أظهرت اختبارات عملية أن نماذج السحابة عبر Ollama أصبحت بالفعل قادرة على التعامل مع بعض مهام مراجعة الكود على طلبات السحب الحقيقية، وليس فقط على الأمثلة التوضيحية. في المقارنة بين Qwen 3.5 و GPT-OSS و DeepSeek v3.1، أظهرت DeepSeek أفضل عمق تحليل وأكثر التوصيات قابلية للتطبيق، على الرغم من وجود تحفظ مهم بشأن الإعدادات.
كيفية إجراء الاختبار اختبر مؤلف المقالة النماذج ليس على مهام مجردة، بل
على طلب سحب من مشروعه الموروث الخاص في Python والذي يبلغ عمره حوالي أربع سنوات. تم تحضير طلب سحب منفصل لكل نموذج، لكن الشروط بقيت متطابقة: نفس الطلب، والوصول المتطابق إلى سياق المشروع، وتفعيل RAG، بحيث يمكن للنظام دمج ملفات إضافية وعدم الاقتصار على الفرق فقط. هذا النهج مهم لأن نقص السياق غالباً ما يجعل المراجعات بالذكاء الاصطناعي سطحية.
تم أيضاً محاذاة الإعدادات بأقصى قدر ممكن: درجة حرارة 0.2، حد أقصى 4000 رمز، مستوى عالٍ من حدة التعليقات، كشف مفعّل عن مشاكل الأمان والأداء والأسلوب، وكذلك القدرة على اقتراح الإصلاحات. حللت النماذج ليس فقط الفرق، بل أيضاً سياق الكود المرتبط.
تضمن الاختبار Qwen 3.5 و GPT-OSS و DeepSeek v3.1 — ثلاثة نماذج مفتوحة الوزن ملحوظة غالباً ما تُعتبر بدائل لأدوات SaaS للمطورين.
تم تقييم النماذج على مقياس من خمس نقاط.
- دقة إيجاد المشاكل الحقيقية في الكود
- فهم مخاطر الأمان
- الميل إلى الهلوسة
- عمق التحليل وفهم عواقب التغييرات
- الفائدة العملية للإصلاحات المقترحة
كما نظر المؤلف بشكل منفصل إلى معدل القبول البشري — مدى احتمالية أن يقبل المطورون بالفعل تعليقات النموذج بدلاً من تجاهلها كضوضاء.
النتائج حسب النموذج كانت
Qwen 3.5 مفاجأة سارة. حصلت على درجة نهائية 3.
8 وأظهرت توازناً واثقاً بين الدقة والمستويات المنخفضة من الهلوسة والنصائح العملية. وفقاً لتقييم المؤلف، كان النموذج يربط التعليقات جيداً بأسطر محددة، وغالباً ما يقترح خيارات إصلاح حقيقية، وبشكل عام تصرف كمراجع أول مفيد. نقطة ضعف — عمق محدود من تحليل العمارة الهندسية والاستخدام غير النشط جداً للأدوات المتاحة للسياق الإضافي.
GPT-OSS، من ناحية أخرى، حققت نتائج أضعف بشكل ملحوظ وحصلت على 2.9. الشكوى الرئيسية — تعليقات عامة جداً.
وجد النموذج بعض المشاكل الحقيقية، لكنه كان أسوأ في ربط التعليقات بالتغييرات المحددة في طلب السحب، واقترح بشكل أقل إصلاحات قابلة للتطبيق تلقائياً، وأكثر بكثير في الافتراضات بدون أساس كافٍ. كانت الإيجابية هي الأسلوب الواضح للردود، لكن للمراجعة العملية للكود، اتضح أن هذا غير كافٍ: يحتاج المطورون ليس إلى صياغات مرتبة، بل إلى تعليقات دقيقة ومفيدة. أظهرت DeepSeek v3.
1 أقوى نتيجة تقنية. بدون عقوبة، كانت درجتها النهائية 4.25: أوضح النموذج بشكل أفضل أسباب المشاكل، لاحظ مخاطر الأمان بشكل أكثر تكراراً، اقترح إصلاحات هندسية صحيحة، وحلل أعمق عواقب التغييرات.
رسمياً، خفض المؤلف الدرجة إلى 3.25 لأن النموذج لم يتمكن من استخدام الأداة بدون تفعيل نمط التفكير. لكن حتى مع هذا التحفظ، سُميت DeepSeek بأعمق وأكثر خيار عملي بين ما تم اختباره.
"يمكن فعلاً استخدام نماذج السحابة عبر
Ollama لمهام مراجعة الكود".
حيث يكون
Ollama مناسباً الاستنتاج الرئيسي للمقالة ليس أن Ollama تحل محل الخدمات المتخصصة مثل CodeRabbit و Claude Review و QoDo تلقائياً. بل العكس: تعتمد جودة مراجعات الذكاء الاصطناعي بشدة على النموذج المختار والإعدادات وكمية السياق المقدمة له. إذا اخترت نموذجاً غير ناجح أو حددت نطاقه فقط إلى الفرق بدون الوصول إلى ملفات المشروع، تتحول النتيجة بسرعة إلى مجموعة من التعليقات السطحية.
ومع ذلك، فإن Ollama لديها حالة استخدام قوية حيث يهم التحكم والمرونة للفريق. يؤكد المؤلف بشكل خاص أن هذا النهج مثير للاهتمام بشكل خاص للمشاريع ذات الكود الحساس والقيود الاتفاقية والرغبة في عدم إرسال الكود المصدري إلى البنية التحتية الخارجية. بالإضافة إلى ذلك، تسمح المنصة بالتبديل السريع بين النماذج وبناء خطوط أنابيب مخصصة فوق واجهة برمجية التطبيقات والتحول إلى التنفيذ المحلي بدلاً من السحابة عند الحاجة.
إذا لم يكن لدى الفريق متطلبات صارمة للخصوصية ولم تكن الميزانية حرجة، فلا تزال حلول SaaS الجاهزة للاستخدام يمكن أن توفر نتائج أكثر استقراراً جاهزة للاستخدام. لديها تكامل سير عمل أقوى وأتمتة جاهزة أكثر وتكوين يدوي أقل. يُظهر الاختبار بدلاً من ذلك أن النماذج المفتوحة تلحق بهذه فئة المنتجات بشكل أسرع مما توقعه كثيرون.
ماذا يعني هذا بالنسبة لفرق التطوير، هذه إشارة على أن مراجعة الكود
بالذكاء الاصطناعي يمكن بالفعل استخدامها ليس كلعبة، بل كطبقة عمل للتحقق المسبق من طلبات السحب. لا تحل محل المراجعة البشرية، لكن مع النموذج المناسب والسياق الجيد والوصول إلى الأدوات، فهي قادرة على تقليل بعض العمل الروتيني، والعثور على مشاكل حقيقية، واقتراح إصلاحات قبل وصول طلب السحب إلى زميل.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.