شرح هабр لماذا تفقد النماذج اللغوية وRAG الكلاسيكي فهم العلاقات
حوّل RAG النماذج اللغوية إلى واجهة مريحة للتعامل مع الوثائق، لكن هذا النهج يبدأ في التعثر في السيناريوهات المؤسسية مع أحجام البيانات الكبيرة. يوضح هабر أن…
معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
نشر موقع Habr تحليلاً حول سبب اصطدام الحماس حول نماذج اللغات الكبيرة وRAG بقيود معمارية. الفكرة الأساسية بسيطة: يمكن للنموذج أن يعمل بثقة مع المستندات، لكن هذا لا يعني أنه يفهم فعلاً المعرفة والروابط بين الحقائق.
لماذا أقلع RAG
أصبح RAG بسرعة الطريقة المعيارية لـ "توصيل" نموذج لغة كبير ببيانات الشركة. المنطق واضح: يصيغ النموذج نفسه الإجابات جيداً، ويعيد صياغة النصوص المعقدة ويحافظ على الأسلوب، لكن بدون ذاكرة خارجية فهو مقيد بما تم تدريبه عليه مسبقاً. أضف بحثاً عن المستندات، وتبدأ النظام يبدو كمحلل عام: يجيب حسب اللوائح، يعيد صياغة العقود، يجمع التقارير ويساعد في العثور على الأجزاء الضرورية دون إعادة تدريب النموذج.
على مجموعات البيانات الصغيرة، يحدث هذا النهج فعلاً انطباعاً قوياً. إذا كانت قاعدة المعرفة تتكون من عشرات الملفات والأسئلة مباشرة نسبياً، فإن RAG الكلاسيكي يسترجع شبه خالي من الأخطاء أجزاء النص الملائمة، ويمررها إلى سياق النموذج ويحصل على إجابة واضحة. لهذا السبب ترسخت المخطط بسرعة في الدعم والمساعدين الداخليين والخدمات القانونية والمنتجات التعليمية والتحليلات: من السهل نسبياً تنفيذها وتظهر النتائج العملية بسرعة.
حيث تبدأ الأعطال
المشكلة هي أن RAG بطبيعته يبقى طبقة بحث، وليس نظام معرفة كامل. يمكنه العثور على أجزاء نصية متشابهة، لكنه لا يضمن فهم السببية والتسلسلات الهرمية والروابط المخفية بين الكيانات. عندما تكون المعلومات موزعة عبر مستندات مختلفة، لا يمكن غالباً أخذ الإجابة من فقرة واحدة: يجب تجميعها من عدة حقائق وخطوات وسيطة من الاستدلال. بالنسبة للإنسان هذا طبيعي، لكن بالنسبة لـ RAG الكلاسيكي فهو بالفعل سيناريو حدي.
- تعيد النظام الأجزاء الأكثر تشابهاً، وليس بالضرورة الأكثر أهمية؛
- مع نمو قاعدة المعرفة، يفشل بسهولة جزء نص حرج في الدخول إلى السياق؛
- النافذة السياقية الكبيرة لا تحل مشكلة الاختيار وترتيب البيانات؛
- لا يزال النموذج يمكن أن يخلط المصادر ويعمم بجرأة كبيرة جداً.
بسبب هذا، يمكن للنموذج أن يقول بصراحة أن البيانات غير كافية، حتى عندما تكون سلسلة الحقائق المطلوبة موجودة بالفعل في المستندات. تقدم المقالة مثالاً بسيطاً: إذا كانت أليس متصلة ببوب في نص واحد، وفي نص آخر درس بوب لوحات ليوناردو دا فينشي، يكون الإنسان قادراً على بناء ارتباط وسيط. نظام البحث المبني على تشابه النصوص غالباً يبحث عن تأكيد مباشر ولا يقوم بهذه الخطوة بنفسه. يُظهر هذا الفجوة بين "العثور على المتشابه" والعمل الحقيقي مع المعرفة.
لماذا الأنطولوجيات ضرورية
يقود المؤلف إلى الفكرة بأن المرحلة التالية في تطور أنظمة ذكاء اصطناعي الشركات هي تمثيل أكثر صراحة للمعرفة. عندما يتعلق الأمر بمئات الآلاف أو ملايين المستندات، يصبح تخزين المعنى كمجموعة من الأجزاء والتمثيلات الشعاعية غير مريح. نحتاج إلى هيكل حيث تُحدَّد الكيانات وخصائصها وروابطها بشكل صريح، وليس إعادة بنائها في كل مرة بطريقة فورية من أجزاء النصوص.
وإلا، تبقى النظام معتمداً على حظ البحث وجودة صياغة الاستعلام. هنا تصبح الأنطولوجيات ذات الصلة مرة أخرى — موضوع بدا لفترة طويلة أكاديمياً جداً للذكاء الاصطناعي التطبيقي. في منطق المقالة، هذا ليس محاولة التخلي عن نماذج اللغات أو RAG، بل طريقة لإنشاء الطبقة التالية فوقهما.
لا يزال النموذج ضرورياً للاتصال باللغة الطبيعية، لكن قاعدة المعرفة نفسها يجب أن تصف العالم ليس فقط بالنصوص، بل من خلال الروابط. هذا النهج أكثر تعقيداً في التنفيذ، لكنه أنسب للمهام التي تكون فيها التبعيات والسببية والتقاطعات بين الكيانات وسلاسل الاستدلال الطويلة مهمة.
ماذا يعني هذا
الانفجار في استخدام RAG لا يذهب إلى أي مكان، لكن السوق يصل تدريجياً إلى سقفه. إذا كان على نظام الذكاء الاصطناعي ليس فقط البحث عن فقرات، بل شرح الروابط بين الحقائق والتوصل إلى استنتاجات مستقرة على مجموعات بيانات كبيرة، فإن قاعدة البيانات الشعاعية وحدها لم تعد كافية. ستنتمي التكرار التالي إلى تلك الحلول التي تجمع بين نماذج اللغات والهياكل الأكثر صرامة للمعرفة.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.