3DNews AI→ المصدر

Apple كشفت عن RubiCap: نماذج AI مدمجة تتفوق على العمالقة في وصف الصور

قدمت Apple RubiCap — وهي طريقة جديدة لتدريب النماذج على الوصف التفصيلي للصور. وتقول الشركة إن نسختي 3 و7 مليارات معلمة تفوقتا في عدد من الاختبارات على حلول…

معالج بواسطة الذكاء الاصطناعي من 3DNews AI؛ بتحرير Hamidun News
Apple كشفت عن RubiCap: نماذج AI مدمجة تتفوق على العمالقة في وصف الصور
المصدر: 3DNews AI. كولاج: Hamidun News.
◐ استمع للمقال

قدمت شركة Apple نموذج RubiCap — وهو نهج جديد لتدريب نماذج لا تقتصر على التعرف على الصور، بل تقدم وصفًا كثيفًا وتفصيليًا للمشهد. وفقًا للشركة، حتى الإصدارات التي تحتوي على 3 و 7 مليارات معامل تفوقت على الأنظمة متعددة الأنماط الأكبر من المنافسين في عدد من الاختبارات.

لماذا هذا مهم

تجيب التسمية التوضيحية النموذجية للصورة على سؤال "ما الموجود في الإطار" بعبارة عامة واحدة. يعمل وصف الصور الكثيف بطريقة مختلفة: يجب على النماذج تحديد الأشياء والمناطق والعلاقات داخل المشهد، ثم وصفها بطريقة تجعل النص مفيدًا ليس فقط للبشر بل أيضًا لأنظمة الذكاء الاصطناعي الأخرى. هذا التنسيق مهم لتدريب نماذج الرؤية واللغة ومولدات النصوص إلى الصور وأدوات إمكانية الوصول التي تحتاج إلى وصفات أكثر دقة للصور والواجهات.

المشكلة هي أن التعليقات التوضيحية التفصيلية ذات الجودة العالية مكلفة، والنهج الكلاسيكي من خلال التقطير الموجه غالبًا ما ينتج إجابات موحدة للغاية. قد تكرر النموذج نمط المعلم ولكن نقل المعرفة إلى مشاهد جديدة بصعوبة وتفويت التفاصيل في كثير من الأحيان. قررت Apple التحايل على هذا القيد وتحويل التركيز من نسخ "الإجابة الصحيحة" إلى نظام تقييم أكثر مرونة، حيث تفهم النموذج ما كان ضعيفًا في وصفها.

كيف يعمل RubiCap

للتدريب، أخذ مهندسو Apple 50000 صورة من مجموعات البيانات PixMoCap و DenseFusion-4V-100K. لكل صورة، أولاً قامت عدة نماذج قوية بإنشاء متغيرات توضيحية خاصة بها. تضمنت هذه المجموعة Gemini 2.

5 Pro و GPT-5 و Qwen2.5-VL-72B-Instruct و Gemma-3-27B-IT و Qwen3-VL-30B-A3B-Instruct وكذلك النسخة الحالية من نموذج Apple الخاص قيد التدريب. بعد ذلك، لم يبحث النظام عن إجابة مرجعية واحدة، بل قام بجمع من هذه الإصدارات مجموعة من نقاط القوة والاتفاقات والتفاصيل المفقودة.

ثم ظهر دوران في خط الأنابيب. عملت النموذج الأول كـ "مؤلف الحد الأدنى": نظرت إلى الصورة وجميع متغيرات التسميات التوضيحية مرة أخرى، وحددت ما اتفقوا عليه، حيث كانت هناك أخطاء وما هي المعايير التي يجب فعلاً التحقق منها. عمل النموذج الثاني كقاضٍ وقيم التسمية التوضيحية الجديدة وفقًا لكل معيار على حدة.

بهذه الطريقة، تلقت RubiCap ليس تقييمًا تقريبيًا "جيد/سيء"، بل ملاحظات منظمة مناسبة للتعلم المعزز.

  • شكلت 50000 صورة أساس التدريب
  • شكلت عدة نماذج رؤية لغة قوية مجموعة من التسميات التوضيحية المرشحة
  • حول "مؤلف الحد الأدنى" نقاط القوة والضعف إلى معايير صريحة
  • أسند "القاضي" تقييمات لكل معيار وشكل إشارة مكافأة
  • نتيجة لذلك، قامت Apple بتدريب RubiCap-2B و RubiCap-3B و RubiCap-7B

ما أظهرته الاختبارات

وفقًا لـ Apple، حققت RubiCap أفضل معدل انتصارات على معيار CapArena وتفوقت ليس فقط على التقطير الموجه والأساليب السابقة للتعلم المعزز، بل أيضًا على الحلول المستندة إلى التعليقات التوضيحية لخبراء البشر والأوصاف المحسّنة بـ GPT-4V. تسلط الشركة الضوء بشكل منفصل على مقياس كفاءة الكلمات على CaptionQA: RubiCap-7B قابلة للمقارنة مع Qwen2.5-VL-32B-Instruct، بينما اتضح أن RubiCap-3B في هذا الاختبار أقوى من نسختها الخاصة التي تحتوي على 7 مليارات معامل.

هذه إشارة مهمة: حجم النموذج وحده لا يضمن نتائج أفضل. تكمن الأهمية العملية في الاقتصاد والنشر. إذا كان النموذج المضغوط يمكنه وصف الصور على نفس المستوى أو أعلى من الأنظمة التي تكون أكبر بعدة مرات، فإنه يكون أرخص في التشغيل وأسهل في التكيف مع المهام المحددة وأكثر واقعية للنشر على الأجهزة ذات الموارد المحدودة.

تشير Apple بشكل منفصل إلى أن هذه التسميات التوضيحية مفيدة للتدريب المسبق لنماذج الرؤية واللغة وأنظمة النصوص إلى الصور. بالإضافة إلى ذلك، لدى الشركة اهتمام واضح بميزات إمكانية الوصول، حيث تكون الأوصاف الدقيقة للشاشات والصور ذات قيمة خاصة.

ماذا يعني هذا

تظهر RubiCap أن السباق في الذكاء الاصطناعي متعدد الأنماط لا يتعلق فقط بعدد المعاملات، بل بجودة إشارة التدريب. إذا أثبتت نهج Apple نفسها بما يتجاوز الاختبارات المخبرية، فسيحصل السوق على حجة أخرى لصالح النماذج المتخصصة الصغيرة: فهي يمكن أن تكون أرخص وأسرع وأكثر دقة في مهمة عملية محددة.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…