MarkTechPost→ المصدر

TII تطلق Falcon Perception — نموذج 0.6B لتجزئة وبحث الكائنات حسب النص

أطلقت TII Falcon Perception — نموذج بـ 0.6 مليار معاملة يفهم استعلامات النص للصور ويوفر أقنعة كائنات دقيقة. بدلاً من معمارية محرر بصري + فك تشفير كلاسيكية،…

معالج بواسطة الذكاء الاصطناعي من MarkTechPost؛ بتحرير Hamidun News
TII تطلق Falcon Perception — نموذج 0.6B لتجزئة وبحث الكائنات حسب النص
المصدر: MarkTechPost. كولاج: Hamidun News.
◐ استمع للمقال

في الأول من أبريل 2026، قدمت TII نموذج Falcon Perception — وهو نموذج متعدد الأنماط صغير الحجم يضم 0.6 مليار معامل يمكنه العثور على الأجسام وتقسيمها في الصورة بناءً على استعلامات نصية عادية بدون قائمة فئات محددة مسبقاً. بالنسبة للسوق، هذا إشارة مهمة: مهام الفهم البصري التي تم حلها لفترة طويلة من خلال خطوط أنابيب معقدة من وحدات منفصلة يمكن الآن معالجتها بواسطة معمارية موحدة واحدة، مع ترخيص مفتوح وبدون حجم نموذج ضخم.

معظم أنظمة الرؤية الحاسوبية الحديثة لا تزال مبنية على مخطط معياري: يستخرج أحد المشفرات الخصائص البصرية، وتدمج وحدة أخرى هذه الخصائص مع النص، ثم يتنبأ فك تشفير منفصل بالصناديق المحيطة والأقنعة أو الإجابات. يعمل هذا النهج، لكنه لا يتسع بشكل جيد: عادة ما يتم إصلاح كل نوع خطأ جديد بواسطة وحدة جديدة، والتفاعل بين اللغة والصور يبقى محدوداً.

في نموذج Falcon Perception، تراهن فريق معهد تقنية الابتكار من أبو ظبي على نهج الدمج المبكر: الصورة والنص يدخلان تسلسل رموز مشترك من الطبقة الأولى للمحول. من الناحية المعمارية، يتم تنظيم النموذج كمحول واحد مع مخطط انتباه هجين. تشاهد رموز الصور بعضها البعض بشكل ثنائي الاتجاه وتجمع السياق البصري العام، بينما يتم فك تشفير الرموز النصية والمساعدة بشكل سببي، اعتماداً على الصورة المعالجة بالفعل.

لكل جسم تم العثور عليه، يمر النموذج عبر سلسلة قصيرة من الخطوات: أولاً يحدد إحداثيات المركز، ثم الحجم، ثم ينشئ قناع التقسيم. يسمح هذا الواجهة بالعمل مع عدد متغير من الأجسام — من صفر إلى مئات في صورة واحدة — وليس تحويل توليد الأقنعة إلى عملية مكلفة حسابياً.

تحت الغطاء، يمتلك Falcon Perception تحضير بيانات خطير جداً. تم إجراء التهيئة من خلال التقطير من DINOv3 و SigLIP2 للجمع بين خصائص بصرية محلية قوية وتأريخ لغوي أفضل. تم بعد ذلك تدريب النموذج على مجموعة بيانات تضم 54 مليون صورة و 195 مليون تعبير نصي إيجابي و 488 مليون مثال سلبي صعب. لغرض الترميز التلقائي والاختيار، تم استخدام مجموعة من SAM 3 و Qwen3-VL-30B و Moondream3، مع إرسال الحالات المثيرة للجدل للمراجعة اليدوية.

قدمت TII بشكل منفصل PBench — معيار تشخيصي جديد يقسم النتائج حسب مستويات التعقيد: من الأجسام البسيطة إلى تلميحات OCR والعلاقات المكانية والمشاهد الكثيفة التي تضم مئات الحالات.

من حيث المقاييس، يبدو الإصدار مقنعاً. على SA-Co، أحد معايير التقسيم المفتوحة، حقق Falcon Perception 68.0 Macro-F1 مقابل 62.3 لـ SAM 3. الربح واضح بشكل خاص حيث لا يكفي مجرد "التعرف على الأجسام": في السمات والأنواع الفرعية، في الاستعلامات التي تحتوي على نص داخل الإطار، وفي الصيغ المكانية مثل "سيارة على اليسار" أو "النافذة الثالثة من اليسار".

على PBench، الفجوة في الأجسام البسيطة صغيرة، لكنها تصل إلى 21.9 نقطة في المهام المكانية، و 13.4 في استعلامات OCR الموجهة، و 15.8 في المهام العلائقية. نقطة الضعف حالياً هي معايرة الوجود: من حيث MCC، يتخلف النموذج عن SAM 3 برصيد 0.64 مقابل 0.82، مما يعني أنه في السيناريوهات السلبية المعقدة، لا يزال يرتكب أخطاء متكررة مع الإجابة "الجسم غير موجود".

للنموذج جانب عملي أيضاً. يتم إطلاق Falcon Perception تحت Apache 2.0، متاح على Hugging Face و GitHub، وموجه ليس فقط لتجارب المختبر بل أيضاً للنشر العملي. يستخدم الاستدلال مكدس قائم على PyTorch FlexAttention وذاكرة تخزين مؤقت KV مرقمة؛ وفقاً للفريق، على H100 تكون أوقات الكمون النموذجية حوالي 100 ملي ثانية للتعبئة المسبقة، وحوالي 200 ملي ثانية لأخذ العينات الزائدة للخصائص، وحوالي 50 ملي ثانية لفك تشفير عدة حالات.

أظهرت TII أيضاً أن وصفة الدمج المبكر نفسها تنقل إلى OCR: نموذج Falcon OCR المصاحب بـ 0.3 مليار معامل حقق 80.3 على olmOCR و 88.64 على OmniDocBench.

الخلاصة الرئيسية هنا ليست أن TII أطلقت نموذج رؤية-لغة صغير الحجم آخر. بل الأهم بكثير أن Falcon Perception يوضح جدوى نهج أبسط وأكثر توحداً للفهم البصري: معمارية واحدة ومكدس مشترك واحد وحلول بديلة أقل بين اللغة والرؤية. إذا حسن الفريق معايرة الوجود وقلل من عدد الإيجابيات الخاطئة في السيناريوهات السلبية الصعبة، فإن Falcon لديه فرصة لأن يصبح أساساً قوياً للمساعدين والروبوتات والبحث البصري والواجهات حيث يجب فهم الصورة من النص البشري بدلاً من قائمة فئات محددة مسبقاً.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…