غيّرت Anthropic طبيعة Claude Opus 4.7—ورأى بعض المطورين انحدارًا

أطلقت Anthropic Claude Opus 4.7 بنفس السعر مع معايير قوية، لكن رد فعل المجتمع كان قاسيًا. يشتكي المطورون من أن النموذج أصبح جدليًا جدًا، ويهلوس أكثر في المهام الروتينية، ويؤدي أداءً أسوأ مع الأوامر القديمة. غير أن التحديث قد يكون أكثر فائدة من 4.6 في السيناريوهات المعقدة للوكلاء ومهام الرؤية.

Khamidun Zhemal

رصد الذكاء الاصطناعي · Habr AI

30 أبريل 2026· 3 د

معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News

غيّرت Anthropic طبيعة Claude Opus 4.7—ورأى بعض المطورين انحدارًا — المصدر: Habr AI. كولاج: Hamidun News.

◐ استمع للمقال

في 16 أبريل 2026، أطلقت Anthropic Claude Opus 4.7 وأبقت على السعر دون تغيير، لكن في غضون 24 ساعة سمى بعض المطورين التحديث بأنه انحدار. المشكلة ليست فشلًا واحدًا في المعيار، بل تغيير في سلوك النموذج: أصبح أكثر جفافًا، وأكثر حرفية، وأكثر ميلًا ملحوظًا للجدل مع المستخدم.

لماذا كان رد الفعل حادًا

على الورق، بدا الإطلاق قويًا جدًا. ادعت Anthropic انتصارات في 12 من أصل 14 معيار، مكاسب في SWE-bench Verified و MCP-Atlas والعديد من الاختبارات الأخرى، بالإضافة إلى تحسينات للرؤية والمهام الطويلة للوكيل. ظل السعر كما هو.

لكن بعد الإطلاق مباشرة، امتلأت Reddit و X بالشكاوى: أبلغ المستخدمون أن Claude Opus 4.7 يجادل في كثير من الأحيان مع التعليمات، ويرفض الإجراءات البسيطة، وأحيانًا يدافع بثقة عن إجابة غير صحيحة بدلاً من مجرد الاعتراف بالخطأ. اتضح أن المشكلة ليست مشكلة عامة في الجودة بقدر ما هي عدم توافق بين الشخصية الجديدة للنموذج والطريقة المألوفة للعمل معه.

حيث كان Claude في السابق يتسامح جدًا، أصبح الآن أكثر صرامة وأكثر حرفية. بالنسبة لبعض المهام، هذا يمثل إيجابية، لكن بالنسبة للتطوير الروتيني كان النتيجة معاكسة: يبدأ النموذج بالجدل حول التفاهات، ويبطئ تدفق العمل، ويضيف ضوضاء.

'النموذج يجادل بدون توقف ويهلوس أثناء الجدل'.

سبعة إعدادات افتراضية جديدة

الاستنتاج الرئيسي من الإطلاق هو هذا: لم تقم Anthropic بتغيير المقاييس فحسب، بل غيرت إعدادات السلوك الأساسية للنموذج. إذا أمضت الفريق وقتًا طويلًا في ضبط prompts لـ Opus 4.6، فإن الانتقال إلى 4.7 قد يكسر خط أنابيب يعمل بالفعل حتى بدون تغييرات API. هذا نوع جديد من breaking change لـ LLM: الواجهة نفسها، لكن النموذج يفسر المهمة بشكل مختلف.

الامتثال الأكثر حرفية للتعليمات بدلاً من قراءة ما بين السطور
يعتمد طول الإجابة الآن أكثر على كيف قيّم النموذج نفسه تعقيد المهمة
افتراضيًا، هناك عدد أقل من استدعاءات الأدوات وتفويض أقل للمهام الفرعية
تُعطى تحديثات التقدم المتوسطة الآن في كثير من الأحيان من قِبل النموذج نفسه، بدون دعم إضافي
تم تعزيز الأمن السيبراني والمرشحات، وأصبح نبرة الإجابات أكثر جفافًا وأقل 'موافقة'

بسبب هذا، prompts القديمة بصيغ غامضة مثل 'اجعلها جميلة' تعمل بشكل أسوأ. ما كان يتم تعويضه سابقًا بحدس النموذج يجب الآن وصفه كمواصفة: تنسيق الإجابة، والقيود، والعمق المطلوب، وقواعد الأدوات، وحدود الأمان. توصي Anthropic نفسها بتشغيل اختبارات الانحدار على حركة مرور حقيقية قبل الهجرة، وفي حالة 4.7 يبدو هذا ليس كمسألة شكلية بل كخطوة إلزامية.

حيث أفضل وحيث أسوأ

للتحديث نقاط قوة واضحة. وفقًا لوصف Anthropic والمراجعات الأولى، 4.7 يحافظ بشكل أفضل على الخيوط الطويلة في سيناريوهات الوكيل، ويعمل بثقة أكبر في مستويات الجهد العالية وxhigh، وهو أقوى في إعادة الهيكلة متعددة الملفات، ويفوز بشكل ملحوظ في الرؤية: نما حد صورة الإدخال إلى حوالي 3.75 ميجابكسل مقابل 1.15 السابقة. بالنسبة للمهام حيث تكون الاستقلالية والتحقق الذاتي والآفاق التخطيطية الطويلة مهمة، يمكن أن يكون هذا النموذج فعلاً أكثر فائدة من Opus 4.6.

ظهرت نقاط الضعف في العمل اليومي للمطور. التعديلات البسيطة مثل إعادة تسمية المتغيرات، إضافة التحقق من القيم الفارغة، أو إعادة الهيكلة المحلية تتحول في كثير من الأحيان إلى نزاع مع المساعد. يشتكي المستخدمون بشكل منفصل من زيادة نفقات الرموز، مما يجعل نفس السيناريوهات أكثر تكلفة، ومن تدهور استرجاع السياق الطويل. في هذا السياق، المقايضة الأمنية مثيرة للقلق أيضًا: صرحت Anthropic علنًا بأنه أثناء التدريب ضعفت بشكل انتقائي بعض القدرات السيبرانية وأضافت safeguards تلقائية، تاركة النسخة الأقوى للشركاء. بالإضافة إلى ذلك، أزالت الشركة بهدوء Claude Code من خطة Pro بقيمة $20 في 21 أبريل 2026، مما عزز الشعور بأن الشروط للمستخدمين العاديين ساءت.

ماذا يعني كل هذا

تُظهر قصة Claude Opus 4.7 أن إصدارات LLM الجديدة يجب الآن تقييمها ليس فقط من خلال المعايير بل من خلال التغييرات في 'شخصية' النموذج. إذا كان يمكن سابقًا كتابة prompt كطلب إلى زميل، فإنه الآن بشكل متزايد يكون هناك حاجة إلى تنسيق مواصفات دقيق. بالنسبة للفريق هذا يعني شيئًا واحدًا: قبل ترقية النموذج، تحتاج إلى اختبار ليس الذكاء المجرد بل سير العمل الفعلي لديك.

Hamidun News

أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 50 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

قناة Telegram RSS hamidun.com

هل تحتاج إلى ذكاء اصطناعي يعمل داخل شركتك — وليس فقط في موجز الأخبار؟

أبني ذكاءً اصطناعياً جاهزاً للإنتاج للشركات — أنظمة CRM مخصّصة، أدوات داخلية، وكلاء مستقلون، أتمتة سير العمل. ملك لك، مصمّم وفق عمليتك، دون رسوم لكل مستخدم. من إعداد جمال خميدون، مدير المنتجات في AlpinaGPT (منصة ذكاء اصطناعي، أكثر من 6000 مستخدم).

احجز استشارة مجانية →