Habr AI→ المصدر

سبير: رسم بياني معرفة ياغو لم يساعد البحث تقريباً، بينما أضاف LightRAG 12 نقطة مئوية في الدقة

حددت سبير السبب في أن رسم بياني معرفة وحده لا يحل البحث. أسفر النهج الأول مع ياغو الجاهز عن +3 نقاط مئوية فقط في العزلة وكاد لا يؤثر على النتائج الإجمالية…

معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
سبير: رسم بياني معرفة ياغو لم يساعد البحث تقريباً، بينما أضاف LightRAG 12 نقطة مئوية في الدقة
المصدر: Habr AI. كولاج: Hamidun News.
◐ استمع للمقال

شرحت شركة Sber كيفية محاولتها تحسين جودة البحث الداخلي باستخدام رسوم بيانية للمعرفة وRAG هجينة. المحاولة الأولى برسم بياني عام جاهز لم تحقق تقريباً أي تأثير، لكن الانتقال إلى LightRAG ومجموعة المستندات الخاصة بهم زادت بشكل ملحوظ دقة الإجابات.

لماذا لم ينجح الرسم البياني

اعتمدت خدمات Sber بالفعل على أنظمة البحث الاتجاهي والهجينة، لكن الفريق واجه القيود النموذجية لهذا الأسلوب. يجب ضغط مستند واحد في متجه واحد، وبالتالي تُفقد التفاصيل الدقيقة؛ التشابه الدلالي لا يعني دائماً أن المستند يجيب فعلاً على السؤال؛ والاستعلامات متعددة الحافات، حيث تحتاج إلى الانتقال عبر عدة كيانات ومستندات، يتم التعامل معها بشكل سيء من خلال البحث الاتجاهي العادي. أدى هذا إلى فرضية: إذا أضفنا رسم بياني معرفي كمصدر منفصل للسياق، فستكون الإجابات أكثر دقة وقوة.

لاختباره، استخدموا SimpleQA من OpenAI (المترجمة إلى اللغة الروسية) على 4,326 سؤال وقائعي واستخدموا llm-as-a-judge للتقييم التلقائي. تم بناء النموذج الأول على Yago 4.5، أحد أكبر رسوم المعرفة المفتوحة، والذي حملوه في Apache Jena Fuseki وأنشأوا واجهة برمجية ووكيل على البيانات.

كان خط الأنابيب كلاسيكياً: استخراج الكيانات من الاستعلام، الاستعلام المستند إلى القالب إلى قاعدة البيانات الرسومية، ترتيب العقد والحواف الموجودة، ثم تلخيص الإجابة عبر LLM. على الورق، بدا كل شيء مقنعاً، لكن الأرباح تبين أنها ضعيفة.

13 تجربة متتالية

بعد القياسات الأولية، أعد الفريق منصة اختبار منفصلة وأجرى 13 تجربة مع 184 قياساً. أولاً اختبروا الرسم البياني النقي، ثم مزيج من الرسم البياني مع البحث العادي عبر reranker، الذي جمع مجموعة رئيسية واحدة من مرشحي الإجابة. كانت الخلاصة الأساسية غير سارة: على ruSimpleQA أعطى الرسم البياني معزولاً فقط +3 نقاط مئوية، وعند دمجه مع البحث الموجود، لم تتجاوز النتيجة هامش الخطأ.

  • أضافوا مصادر إضافية، بما في ذلك IMDB، لكن بدون تجميع معقد للبيانات على مستوى قاعدة البيانات
  • حاولوا ترتيب الكيانات حسب الصلة، على سبيل المثال حسب عدد الاتصالات عند العقدة
  • غيروا حدود الترتيب لموازنة اكتمال السياق وحجمه
  • اختبروا الترجمة الذكية للرسم البياني إلى عمق ثلاثة مستويات والبحث بالعرض على حافة واحدة أو اثنتين
  • أضافوا البحث الاتجاهي عبر embeddings العقدة وخوارزميات الرسم البياني مثل البحث عن المسار بين الكيانات

لم تكن المشاكل فقط في البنية الأساسية، بل أيضاً في طبيعة الرسم البياني نفسه. بالنسبة للتضمينات، كان عليهم استخدام أوصاف كيانات قصيرة وقليلة، مما جعل البحث الاتجاهي على الرسم البياني غير مستقر. تبين أن Yago عام جداً: يغطي العالم بشكل جيد بشكل عام، لكنه يعكس بشكل سيء المجالات المحددة والعلاقات المهمة لاستعلامات المستخدمين الفعلية. بالإضافة إلى ذلك، أضاف كل خطوة في سلسلة الوكيل أخطاء جديدة—من استخراج الكيان إلى التلخيص النهائي.

الانتقال إلى LightRAG

بعد ذلك، غير الفريق الاستراتيجية: بدلاً من رسم بياني عام عالمي، قررو بناء رسم بياني مباشرة من مستنداتهم الخاصة. لهذا، اختاروا LightRAG—إطار عمل GraphRAG مع بحث ثنائي المستويات يجمع العلاقات المحلية بين الكيانات وعرض موضوعي أوسع. يستخرج النظام أولاً العقد والحواف من النص، ثم يصفها، ويتجه إلى المتجهات، ويخزن الرسم البياني جنباً إلى جنب مع التضمينات. يساعد هذا الأسلوب على تجنب فقدان السياق بين الأجزاء ولا يجبر LLM على لصق قطع عشوائية من مستندات مختلفة بشكل أعمى.

"القمامة في الإدخال بأعلى درجة احتمالية تعطي القمامة في الإخراج."

أدرجت Sber مجموعة مستنداتهم عبر LightRAG، واختيار المستندات التي تعالج الأسئلة التي لم تتمكن خدمة البحث من الإجابة عليها، وأعادت تشغيل المعايير. كان التأثير ملحوظاً: قدم LightRAG إجابات صحيحة على 74% من عدة مئات من الأسئلة غير المغطاة سابقاً وأضاف 12 نقطة مئوية إلى الدقة على المجموعة الكاملة من 4,326 استعلام. ميزة إضافية—الكفاءة: تنص المقالة على أن LightRAG أرخص بحوالي 30-40 مرة من Microsoft GraphRAG في مرحلة الفهرسة بجودة قابلة للمقارنة. الخطوة التالية هي الاختبار على حركة المرور الإنتاجية وتسريع الفهرسة، التي تقف حالياً عند حوالي 200 مستند في الساعة حتى على H100.

ماذا يعني هذا

تُظهر قصة Sber شيئاً بسيطاً: الرسم البياني المعرفي الكبير بمفرده لا يجعل البحث أذكى. ما يهم أكثر بكثير هو مدى ارتباط الرسم البياني بمجالك، وكيف يتصل بالبحث الاتجاهي، وعلى أي فجوات حقيقية تقيسه. بالنسبة للفرق التي تبني بحث RAG، هذه إشارة جيدة لعدم مطاردة العرض التوضيحي الجميل برسم بياني عام، بل الاستثمار في مجموعة مستندات عالية الجودة والاسترجاع الهجين والتقييم الصادق على السيناريوهات الحقيقية.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…