النماذج

نموذج الرؤية واللغة (VLM)

نموذج الرؤية واللغة (VLM) هو نموذج ذكاء اصطناعي يعالج المدخلات البصرية (الصور أو الفيديو) والنص باللغة الطبيعية معاً، مما يتيح مهام مثل تعليق الصور والإجابة على الأسئلة البصرية وفهم الوثائق.

نموذج الرؤية واللغة (VLM) هي معمارية ذكاء اصطناعي متعددة الأنماط تجمع بين مكون ترميز بصري ونموذج لغة لدعم الاستدلال ثنائي الاتجاه بين الصور والنص. يمكن لنماذج الرؤية واللغة أن تصف الصور باللغة الطبيعية، وتجيب على أسئلة حول المحتوى البصري، وتثبت المراجع النصية إلى مناطق صور محددة، وتؤدي التعرف البصري على الأحرف في التخطيطات المعقدة، وفي متغيرات توليدية — تنتج صوراً مشروطة بطلبات نصية. المصطلح VLM يؤكد تقليدياً على الجمع بين الرؤية والنص على وجه التحديد، مما يميزه عن الأنظمة متعددة الأنماط الأوسع التي تتعامل بشكل إضافي مع الصوت أو البيانات المنظمة.

تقترن معمارية VLM السائدة بمشفر رؤية مُدرَّب مسبقاً — والأكثر شيوعاً Vision Transformer (ViT) أو مشفر صورة CLIP — مع نموذج لغة من نوع فاكك الترميز فقط (decoder-only). يتم ترميز رقع الصور إلى تضمينات كثيفة، التي تخطط طبقة إسقاط (MLP أو cross-attention) إلى فضاء تضمين الرموز للنموذج اللغوي. يتم معالجة التسلسل الناتج من الرموز البصرية والنصية بشكل انحداري. يتم استخدام هذا التصميم، المستخدم في LLaVA و PaliGemma (Google) و InternVL (Shanghai AI Lab) و Qwen-VL (Alibaba)، لتدريب التعليمات لنقل قدرات نموذج اللغة الحوارية الموجودة إلى المجال البصري. عادة ما يوفر التدريب المسبق على غرار CLIP بتقابل على مئات الملايين من أزواج الصور والنصوص المحاذاة الأولية عبر الأنماط.

نماذج الرؤية واللغة مهمة عملياً لأن حصة كبيرة من المعلومات الحقيقية مضمنة في شكل بصري: الفواتير والأشكال العلمية والرسومات الهندسية والمرئيات الفضائية والصور الطبية. يمكن لنموذج الرؤية واللغة تحليل صورة فاتورة واستخراج بيانات عناصر السطر، وقراءة صورة شريحة علم الأمراض والإشارة إلى الشذوذ، أو تفسير الخطة الأرضية والإجابة على أسئلة مكانية حول تجاور الغرف — مهام كانت تتطلب سابقاً خطوط أنابيب رؤية حاسوبية مخصصة لكل نوع وثيقة.

بحلول عام 2026، نماذج الرؤية واللغة عالية القدرة متاحة كواجهات برمجية تجارية ونماذج ذات أوزان مفتوحة. GPT-4V و GPT-4o و Gemini 2.0 و Claude مع الرؤية تتصدر معايير مثل MMMU (Massive Multidiscipline Multimodal Understanding) و DocVQA. نقاط فحص الأوزان المفتوحة بما في ذلك LLaVA-NeXT و PaliGemma 2 و InternVL2 يتم نشرها على نطاق واسع في البحث والإنتاج. تقترب النماذج الأعلى من الأداء على مستوى الإنسان في عدة معايير للإجابة على الأسئلة البصرية؛ الاستدلال المكاني الدقيق وعد الأشياء الدقيق وقراءة النصوص الصغيرة جداً أو المتدهورة تبقى مناطق نشطة للتحسين.

مصطلحات مرتبطة

← المسرد