Habr AI→ المصدر

مقارنة Claude Code وCodex في مهمة واقعية: Claude أقوى في RAG وCodex يوفر tokens

قارن المؤلف بين Claude Code وCodex بالتفصيل عبر benchmarks، وفي بناء pipeline RAG حقيقي، ومن خلال تجربة الاستخدام اليومية. وتبيّن أن Claude أقوى في المهام…

معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
مقارنة Claude Code وCodex في مهمة واقعية: Claude أقوى في RAG وCodex يوفر tokens
المصدر: Habr AI. كولاج: Hamidun News.
◐ استمع للمقال

تم مقارنة Claude Code و Codex في مهمة حقيقية: Claude أقوى في RAG، Codex يوفر الرموز

اتضح أن مقارنة Claude Code و Codex أكثر فائدة من المعارك النموذجية على لقطات الشاشة والتعاطفات العمياء. قارن المؤلف ليس فقط نماذج Opus 4.6 و GPT-5.3-Codex، بل أيضًا كيفية تصرف كلا الوكيلين في مهمة هندسية حقيقية، حيث تكون النتيجة العاملة أكثر أهمية من الإجابة الجميلة.

كيفية إجراء المقارنة

أولاً، ينظر المؤلف إلى مقياس completion time horizon من بحث METR. وفقًا لهذا المقياس، يتعامل Opus 4.6 مع المهام بما يعادل تقريبًا 12 ساعة من عمل الإنسان بمعدل نجاح 50%، بينما يتعامل GPT-5.3-Codex مع ما يقارب 5 ساعات و50 دقيقة. الفجوة ملحوظة، لكن الخلاصة لا تقتصر على أن إحدى الأداتين أفضل دائمًا. ما يهم أكثر هو هذا: وكيل البرمجة مفيد ليس عندما يكتب الكود بسرعة، بل عندما يجعل المهمة في حالة عاملة دون حلقات تصحيح أخطاء غير ضرورية. لهذا السبب اختاروا للجزء العملي ليس صفحة هبوط أو واجهة مستخدم، بل خط أنابيب RAG قابل للقياس للمقالات العلمية.

  • استخراج النص من PDF
  • تقسيم المقالات إلى أجزاء
  • توليد التضمينات والفهرس المحلي
  • البحث عن الأجزاء ذات الصلة حسب السؤال
  • الإجابة فقط من السياق الموجود أو البديل

كانت الشروط متطابقة لكلا الأداتين: Python، معالجة PDF عبر PyMuPDF، الاختيار المستقل لاستراتيجية التقسيم والتخزين المتجه، توليد الإجابات عبر llama-3.1-8b-instant، وحظر الهلوسة مع أساس إثباتي ضعيف. للتقييم، جمعوا مجموعة من خمس مقالات علمية و100 سؤال مع إجابات مرجعية. هذا التنسيق مهم لأنه يزيل الذاتية: هنا يمكنك المقارنة ليس الإحساس بالكود، بل جودة الاستخراج، ودقة الإجابات، وكيفية تسليم الوكيل النتيجة جاهزة.

حيث انتصر Claude

وفقًا لتجربة المؤلف، Claude Code يشعر وكأنه شريك أكثر تفانيًا. يبدأ العمل بشكل أسرع، وغالبًا ما يوصل المهمة إلى النهاية بمفرده، ويضع خطوات أقل على المستخدم. هذا يتوافق جيدًا مع التجربة: لم يكتب Claude فقط الملفات، بل قام بتشغيل خط الأنابيب من البداية إلى النهاية والتأكد من أن السكريبت يعمل فعلاً. قام Codex بتنفيذ الحل ببطء أكثر، وفي المحاولة الأولى طلب من المستخدم تثبيت المتطلبات والتحقق من التشغيل، وبعده كان يجب تصحيح خطأ. بالنسبة للتطوير العملي، تبين أن الفرق بين الكود مكتوب وكل شيء يعمل فعلاً حرج.

«Claude هو مطور أول يعمل معك، بينما Codex مقاول.»

ظهر هذا الفرق أيضًا في الأرقام النهائية. مع قاضٍ LLM يقارن إجابات كلا خطي الأنابيب على الصحة والاكتمال والملاءمة والإيجاز. من 100 سؤال، انتصرت تطبيق Claude Code في 42 حالة، و Codex في 33، و25 انتهت بتعادل. يعزو المؤلف فضل Claude ليس لسحر النموذج، بل لعتبة ثقة أكثر ليونة وربما درجة حرارة توليد أعلى قليلاً. بالإضافة إلى ذلك، يتمتع Claude بمسار أقصر بشكل ملحوظ إلى أول رمز في جلسة جديدة، بينما يستغرق Codex أحيانًا قرب دقيقة واحدة للبدء.

حيث يكون Codex أفضل

في نفس الوقت، لا يبدو Codex وكأنه خاسر. بل على العكس، في معمارية الحل فهو غالبًا أكثر أناقة. في حالة RAG، جمع Codex كودًا أكثر هيكلية: فئة pipeline، إعدادات مركزية، هياكل dataclass، واجهة argparse، والتحقق من اتساق النماذج. اختار Claude تطبيقًا أكثر تسطحًا وأسرع بدون هذا الانضباط. من الناحية التقنية، وصل الاثنان إلى مخطط بحث متشابه، لكن التفاصيل تختلف: استخدم Claude ChromaDB والتقسيم العودي على مستوى الأحرف مع التداخل، استخدم Codex FAISS والتقسيم على مستوى الجملة وتصنيف الثقة ثلاثي المستويات. للكود الإنتاجي، قد يكون هذا التصميم حتى أكثر أهمية من الفوز في تشغيل اختبار واحد.

نقطة قوية أخرى لـ Codex هي الكفاءة. وفقًا لتفصيل Morph المذكور في المقالة، يستهلك Claude Code في المهام المماثلة 3.2–4.2 مرات رموز أكثر. إذا كانت هذه التقديرات قريبة من الواقع، فسيصل مستخدمو Claude إلى حدود الاشتراك بشكل أسرع. لكن Anthropic لديها عرض نظام بيئي أقوى حول المنتج: تجربة المؤلف أفضل مع نظام بيئي يضم Claude Chat و Claude Code وخدمات أخرى. هناك أيضًا دقة التسعير: كلاهما يمتلك خطط بـ 20 دولارًا و200 دولار في الشهر، لكن فقط Claude يمتلك مستوى وسيط بـ 100 دولار. مهارات الأدوات متوافقة عمومًا، لكن المجتمع حول Claude يبدو الآن أكثر حجمًا بشكل ملحوظ.

ماذا يعني هذا

الخلاصة الرئيسية بسيطة: الاختيار بين Claude Code و Codex بناءً على رقم واحد أو خيط شخص ما على X بلا معنى. Claude يبدو حاليًا أقوى حيث تكون المهام الطويلة والإكمال الشامل والنظام البيئي مهمة، بينما Codex حيث تكون بنية الكود وتوفير الرموز والانضباط الهندسي القابل للتنبؤ حرجة. مع المتطلبات المحددة بدقة في AGENTS.md، تصبح الفجوة السلوكية بينهما أصغر. من الأفضل التحقق من هذا على مهامك الخاصة، القصيرة والقابلة للتحقق.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…