الرؤية المحلية لـ z.ai GLM-5.1: نموذج 8B يغلق 70% من الفجوة حتى الحد الأمامي

Q: ما هو المصدر؟

نُشر أصلاً على Habr AI. يعالج Hamidun News المواد ويكيّفها بالذكاء الاصطناعي.

Q: متى نُشر؟

30 أبريل 2026. وقت القراءة: 3 دقيقة.

نماذج الترميز منخفضة التكلفة تواجه قيداً نموذجياً: تنشئ واجهات لكن لا تستطيع رؤية النتيجة على الشاشة. بالنسبة لـ z.ai GLM-5.1، تم بناء sidecar رؤية محلي…

هيئة تحرير Hamidun News

رصد الذكاء الاصطناعي · Habr AI

30 أبريل 2026· 3 د

معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News

الرؤية المحلية لـ z.ai GLM-5.1: نموذج 8B يغلق 70% من الفجوة حتى الحد الأمامي — المصدر: Habr AI. كولاج: Hamidun News.

◐ استمع للمقال

أظهر مطور كيفية إصلاح أحد أهم نقاط الضعف في نماذج البرمجة الرخيصة: العمى تجاه واجهة المستخدم الخاصة بهم. بالنسبة لـ z.ai GLM-5.1، قام ببناء vision-sidecar محلي يقرأ لقطات الشاشة ويعيد بنية الواجهة على شكل JSON ويسمح للوكيل بالتحقق من النتائج بعد توليد الكود.

المشكلة

المشكلة مألوفة لأي شخص جرب النماذج الاقتصادية بدلاً من أنظمة الحدود الأمامية المكلفة. يمكن للوكيل أن يكتب HTML وينشر صفحة وينفذ Playwright ويحفظ لقطة شاشة، ولكن بعد ذلك يواجه جدارًا: الصورة موجودة لكن لا فهم. إذا تحرك زر أو تم قطع جدول أو تداخل النص على بطاقة أو انهارت شبكة الهاتف المحمول، لا يلاحظ النموذج ذلك. نتيجة لذلك، يتعين على الإنسان فحص الواجهة يدويًا مرة أخرى ويصبح ليس محددًا للمهام بل مراقب الجودة المستمر بين التكرارات.

انطلق المؤلف من فرضية بسيطة: مثل هذه التغذية الراجعة لا تتطلب أقوى نظام متعدد الأنماط في السوق. على لقطات شاشة واجهة الويب، ما يهم عادة ليس التفكير المجرد بل استخراج الحقائق: OCR وقائمة الأزرار وبنية الكتل ووجود القطع وصحة الجداول. إذا كان هذا صحيحًا، فيمكن تحويل نموذج الرؤية المفتوح المدمج إلى طبقة حسية رخيصة لوكيل البرمجة وإغلاق دورة "اكتب -> انظر -> أصلح" بدون واجهة برمجية سحابية.

كيفية بناء خط الأنابيب

استخدموا qwen3-vl:8b للرؤية، مُنشرًا محليًا عبر Ollama. فوقها، بنى المؤلف خادم MCP vision-sidecar-mcp الذي يأخذ لقطات الشاشة ويعيد وصفًا منظمًا للشاشة. لا تحول هذه الطبقة GLM-5.1 إلى نموذج متعدد الأنماط كاملاً، لكنها تعطيه ما كان ينقصه في التطوير العملي: القدرة على قراءة النتيجة البصرية لعمله عبر واجهة نصية.

على وحدة GPU عادية أو Apple Silicon، تستغرق الإعداد بأكمله، وفقًا للمؤلف، حوالي 20 دقيقة للنشر.

qwen3-vl:8b كنموذج رؤية محلي
Ollama للنشر السريع
خادم MCP مع الطرق analyze_image و analyze_structured و extract_table
استجابات JSON يمكن تمريرها مباشرة إلى وكيل البرمجة

اتضح أن الجزء الهندسي الرئيسي لم يكن في إعادة تدريب الأوزان بل في ضبط الاستدلال. ثبّت المؤلف البذرة، وشدّ العينة مع top_p=0.9 و top_k=20، وحوّل الاستجابات إلى مخطط JSON صارم. ساعد حقل منفصل للرموز والأيقونات في القضاء على أخطاء الاعتراف النموذجية عند قراءة الرموز الزخرفية بشكل غير صحيح. هذه خلاصة مهمة: إذا انحصرت المهمة في استخراج البنية، فقد يعطي المطالبة الجيدة والمخطط وانضباط التوليد فائدة أكثر من الانتقال مباشرة إلى الضبط الدقيق.

ما هي الأرقام التي تحققت

تم إجراء الاختبارات على عشر لقطات شاشة من تطبيق ويب حقيقي، من شاشة هاتف محمول صغيرة 320×568 إلى سطح مكتب 1440×900. تمت مقارنة ثلاثة أنماط: qwen3-vl:8b الأساسي والنموذج نفسه بعد الضبط و Claude Opus 4.7 كحد أعلى.

ارتفعت النقاط المتوسطة من 3.99 إلى 4.70 من أصل 5، وانكمشت الفجوة حتى الحدود الأمامية من 1.01 إلى 0.30. بعبارة أخرى، أغلق النموذج المحلي 8B حوالي 70% من التأخر بدون ضبط دقيق وبدون بيانات إضافية.

"دورة الاختبار مغلقة. النموذج لم يعد أعمى."

بعد الضبط، حققت المجموعة شبه تكافؤ حيث يهم التحقق العملي من واجهة المستخدم للوكيل:

OCR واستخراج النص الدقيق
كشف عناصر واجهة المستخدم و CTAs
فهم بنية التخطيط
استخراج الجداول والملاءمة للمعالجة الآلية الإضافية

تتعلق الفجوة الرئيسية غير المحلولة بالهلوسات والفروقات البصرية. يمكن للنموذج المحلي الخلط بين الظلال وسوء تفسير العناصر الزخرفية الصغيرة وكان أضعف في قراءة نية التصميم، خاصة حيث يحمل اللون نفسه الحالة أو الأولوية. لكن بالنسبة لمهام مثل التحقق من القطع ووجود CTAs وصحة الجداول وبنية الأقسام، لا يبدو أن هذا عائق: الأخطاء الحرجة في الواجهة، يكتشفها بالفعل بشكل موثوق وقابل للتنبؤ.

معنى هذا

الخلاصة العملية بسيطة: تظل النماذج المكلفة من الحدود الأمامية مفيدة كطبقة تحقق لحالات معقدة، لكن يمكن بالفعل تفويض معظم تكرارات واجهة المستخدم إلى مجموعة محلية من المبرمج والصور ونموذج رؤية مدمج. الخطوة المنطقية التالية هي التوجيه، حيث تتم معالجة الشاشات البسيطة محليًا والشاشات المثيرة للشكوك تذهب تلقائيًا إلى نموذج أقوى أو شخص. بالنسبة للفرق التي تحسب ميزانية الاستدلال وتريد مزيدًا من الاستقلالية في تطوير واجهة الويب، لا يبدو هذا تجربة بل نهج عملي.

Hamidun News

أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

قناة Telegram RSS hamidun.com

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

🎓 Academy — 7 أيام مجاناً استشارة مجانية