Hugging Face Blog→ المصدر

أطلقت IBM Granite Embedding R2 — نموذجًا متعدد اللغات للبحث الدلالي

كشفت IBM عن Granite Embedding Multilingual R2، وهو نموذج مفتوح متعدد اللغات للبحث الدلالي يدعم 32 ألف token. النموذج مرخّص بموجب Apache 2.0 ويحقق أفضل أداء بين

أطلقت IBM Granite Embedding R2 — نموذجًا متعدد اللغات للبحث الدلالي
المصدر: Hugging Face Blog. كولاج: Hamidun News.
◐ استمع للمقال

قدمت شركة IBM نموذج Granite Embedding Multilingual R2 — وهو نموذج متعدد اللغات مفتوح المصدر للبحث الدلالي تحت رخصة Apache 2.0. وفقاً للاختبارات على معايير شهيرة، يتصدر هذا التطوير فئة النماذج التي تحتوي على أقل من 100 مليون معامل.

ما هو هذا النموذج

تحول نماذج الـ embedding النصوص إلى متجهات — مجموعات من الأرقام تخزن معلومات حول معنى النص. وهذا هو أساس أنظمة RAG (Retrieval Augmented Generation): أولاً، يجد هذا النموذج الوثائق ذات الصلة في قاعدة البيانات، ثم ينشئ نموذج توليدي كبير إجابة بناءً على هذه المعلومات. يدعم Granite R2 سياقاً من 32 ألف رمز — أربع مرات أكثر من نماذج embedding القياسية. هذا يعني أن النموذج يمكنه تحليل فصول كاملة ووثائق بأكملها في نفس الوقت، للعثور على المعلومات المطلوبة للبحث.

الخصائص التقنية

تم تدريب النموذج على بيانات من أكثر من 30 لغة، لكنه يعمل كشبكة عالمية واحدة بدون محولات خاصة. استناداً إلى نتائج الاختبارات على MTEB والمعايير القياسية الأخرى، يُظهر R2 أفضل أداء بين جميع النماذج في فئته الوزنية. الميزة الرئيسية هي الاكتناز. أقل من 100 مليون معامل يعني أن النموذج يعمل على أجهزة بسيطة: كمبيوتر محمول للمطور، وحدة معالجة رسومات خفيفة الوزن، أو حتى وحدة معالجة مركزية عادية كافية:

  • 30+ لغة في نموذج واحد
  • سياق 32K رمز بدلاً من 8K المعتادة
  • أقل من 100 مليون معامل — سريع على الأجهزة القياسية
  • رخصة Apache 2.0 — الاستخدام التجاري مسموح

لماذا هذا ضروري

كان الخيار في السابق بسيطاً: نماذج خفيفة مفتوحة المصدر بجودة متوسطة أو واجهات برمجية سحابية مغلقة تتطلب الإنترنت والمال. يكسر Granite R2 هذا الصورة النمطية. بالنسبة للشركات، يعني السيطرة الكاملة على البيانات — كل شيء يعمل محلياً بدون السحابة. بالنسبة للشركات الناشئة — تكامل بسيط وتوسع أرخص. لا توجد نقطة ضعف تجاه حصص الموفرين، لا توجد تأخيرات الطلبات الشبكية.

«التطوير المفتوح المصدر يعني أن المجتمع يمكنه تحسين النموذج وتكييفه مع

لغات ومجالات محددة.»

ماذا يعني هذا

وصلت نماذج embedding متعددة اللغات إلى مستوى النضج حيث يكون من الملائم استخدامها في المشاريع الحقيقية. بالنسبة لمطوري أنظمة RAG، يعني هذا اعتماداً أقل على عمالقة السحابة ومزيداً من المرونة في التكامل. تنتقل الصناعة تدريجياً من واجهات البرمجية السحابية إلى الحلول المحلية.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

Хотите не читать про ИИ, а внедрить его?

«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.

ما رأيك؟
جارٍ تحميل التعليقات…