Habr AI→ المصدر

DeepSeek V4 Pro مقابل Claude Sonnet 4.6 على 50 مهمة حقيقية: أين توفر، وأين الخطر

تبين أن DeepSeek V4 Pro أرخص بـ 3-4 مرات من Claude Sonnet 4.6، لكنه قصر في الموثوقية في اختبار 50 مهمة نموذجية لمطور روسي. في التصنيف والمستندات البسيطة،…

معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
DeepSeek V4 Pro مقابل Claude Sonnet 4.6 على 50 مهمة حقيقية: أين توفر، وأين الخطر
المصدر: Habr AI. كولاج: Hamidun News.
◐ استمع للمقال

أظهرت المقارنة بين DeepSeek V4 Pro و Claude Sonnet 4.6 على 50 مهمة نموذجية لمطور روسي حقيقة بسيطة: السعر المنخفض لكل توكن لا يضمن الخيار الأفضل للإنتاج. في السيناريوهات الأساسية، يعمل النموذجان بشكل متقارب تقريباً، لكن في المهام ذات المواصفات الروسية، يرتكب DeepSeek أخطاء بشكل ملحوظ أكثر تكراراً.

ما تم اختباره

قارن مؤلف المقالة النموذجين ليس على المعايير الأكاديمية، بل على الطلبات العملية التي تحدث فعلياً في الفرق المحلية: دعم العملاء، استخراج البيانات من المستندات، الحسابات وفقاً لمعايير قانون العمل والقانون الضريبي الروسي، وكذلك نسخ الاختصارات المهنية. أجريت الاختبارات من خلال واجهات الويب العادية: Claude Sonnet 4.6 — بدون تفكير تكيفي، DeepSeek V4 — في الوضع السريع بدون تفكير عميق. بإجمالي 50 طلب موزعة على أربع كتل. في أبريل 2026، بدا الفرق في السعر عدوانياً جداً لصالح DeepSeek: 1.74 دولار لكل مليون توكن إدخال و 3.48 دولار للإخراج مقابل 3 دولار و 15 دولار لـ Sonnet 4.6. على الحمل الفعلي، يوفر هذا حوالي ثلاثة أضعاف الاقتصاد، لذا فإن الإغراء بالتبديل إلى نموذج أرخص مفهوم تماماً.

  • تصنيف 20 تذكرة دعم إلى خمس فئات
  • استخراج الحقول من 15 مستند يحتوي على أخطاء OCR
  • 10 مهام على التفكير مع معايير القانون الروسي والحسابات
  • 5 مهام على المصطلحات المحلية مثل EDS و UPD و OFD و KIZ

حيث توجد التكافؤ

على السيناريوهات البسيطة، لم يكن هناك فرق يكاد يذكر. صنف كلا النموذجين بلا عيب تذاكر الدعم وتعاملا بنفس الكفاءة مع الأسئلة النموذجية حول التسليم والعودة والدفع والاستفسارات العامة. في التفكير الأساسي كان هناك أيضاً تكافؤ: فترة الحد من الإجراءات، استرجاع المبلغ المدفوع مقدماً وحالة الفصل خلال فترة الاختبار — حللت كلا النظامين بشكل صحيح، وإن كان بمراجع مختلفة للقوانين.

كانت الصورة مماثلة في مراجعة المستندات. لم يخلط كلا النموذجين بين OGRNIP و INN، وأخذا المبلغ من سطر الأرقام إذا كان الوصف يحتوي على خطأ، واستخرجا بشكل صحيح التواريخ من تقارير المبلغ المدفوع مقدماً. وفقاً لتقييم المؤلف، إذا كان 80% من حمل الشركة يتكون بدقة من مثل هذه المهام، فإن التبديل إلى DeepSeek يمكن أن يقلل الميزانية بحوالي 75% دون فقدان ملحوظ للجودة.

"المعايير الإنجليزية لن تساعدنا على اختيار نموذج لمهمة روسية."

حيث الأخطاء مكلفة

بدأت المشاكل حيث الذكاء العام غير كافٍ، بل يلزم معرفة السياق المحلي والدقة في الحالات الحدية. في اختبار حساب راتب الموظف برتب 150000 روبل، أعطى Sonnet الرقم الصحيح وهو 130500 روبل في اليد، بينما أعطى DeepSeek 110550. في الأساس، احتفظ النموذج بـ 26.3% بدلاً من 13% القياسي، ربما خلطاً بين ضريبة الدخل ومساهمات التأمين الاجتماعي لصاحب العمل. لأغراض العرض التوضيحي، هذا مجرد خطأ، لكن في خط أنابيب مؤتمت — يحتمل أن يكون بمئات الآلاف من الروبلات خطأ شهرياً.

تم العثور على فشل آخر في التطبيع البصري. قرأ كلا النموذجين بشكل صحيح المبلغ ورقم التعريف الشخصي والتاريخ في الفاتورة التي تحتوي على أحرف روسية ولاتينية مختلطة، لكن فقط Sonnet قام بتطبيع رقم المستند إلى الشكل الإملائي. ترك DeepSeek الأحرف O و l حيث يجب أن تكون الأرقام. إذا تمت مقارنة رقم كهذا لاحقاً مع قاعدة بيانات 1C أو ERP عن طريق المطابقة الدقيقة، فلن يتم العثور على المستند ببساطة، على الرغم من أن الحقول الأخرى تبدو صحيحة.

أظهر DeepSeek النوع الأكثر إزعاجاً من الخطأ في مهمة حول الخصم الاجتماعي لتعليم ابن يبلغ من العمر 25 سنة. بدأ النموذج الإجابة بـ "نعم"، ثم شرح بنفسه لماذا بموجب المادة 219 من قانون الضرائب الروسي، الخصم غير مسموح به بعد سن 24. بالنسبة للإنسان، التناقض واضح على الفور، لكن بالنسبة للنظام الذي يحلل الكلمة الأولى فقط، هذا بالفعل فئة غير صحيحة. ظهرت مشكلة مماثلة في المصطلحات: كشف Sonnet بشكل صحيح KIZ كعلامة تعريف تحكم، بينما ابتكر DeepSeek متغير حول "رمز تعريف الجزء". في المجموع، حصل Sonnet على 92% مقابل 88% على المستندات، 100% مقابل 60% على مهام بمواصفات قانونية روسية، و 100% مقابل 80% على المصطلحات المحلية.

ماذا يعني هذا

الخلاصة العملية: DeepSeek V4 Pro مناسب جداً لدعم الخط الأول والإجابات النموذجية والتصنيف الأساسي والمنتج الحد الأدنى، حيث السعر حرج والخطأ لا يؤدي إلى إجراء مالي أو قانوني. لكن إذا كان النموذج يشارك في حسابات المال وتفسير معايير قانون الضرائب والعمل الروسي وتطبيع المستندات أو تقديم إجابات يتم تحليلها مباشرة من قبل الأنظمة، فإن العلاوة على Claude Sonnet 4.6 تبدو مثل التأمين ضد عواقب أكثر تكلفة. اختر بينهما ليس من خلال المعايير، بل من خلال 30-50 من طلباتك الفعلية الخاصة.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…