كشف PSB عن مقاربته لـ RAG في التكنولوجيا المالية: البنية المعمارية والمقاييس ودورة الاختبار
شارك PSB ممارسته في تقييم RAG في التكنولوجيا المالية، وأوضح أن مكافحة الهلوسات لا تبدأ من prompt، بل من البنية المعمارية والاختبارات. وينصب التركيز على…
معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
نشرت PSB تحليلاً عملياً لكيفية تقييمها واختبارها لنهج RAG في المهام حيث تكون تكلفة الخطأ عالية بشكل خاص. بدلاً من الاعتماد على "ذكاء" النموذج، تراهن البنك على مزيج من قاعدة معارفها الخاصة والبحث المتجه ومقاييس الجودة والتحقق اليدوي المنتظم.
كيف يعمل RAG
تذكر PSB أن المشكلة الرئيسية مع نماذج اللغة الكبيرة ليست فقط الإجابات الضعيفة، بل أيضاً الأخطاء الموثوقة. هذا بالضبط ما يخدمه RAG: يبحث النموذج أولاً عن المعلومات في مصفوفة بيانات موثوقة، ثم فقط ينشئ إجابة. يمكن أن تكون قاعدة المعارف أي شيء — وثائق أو موقع ويب أو مستودع داخلي أو قاعدة بيانات منظمة.
لكن لكي يعمل البحث بسرعة، يجب أولاً تقسيم المواد إلى أجزاء وتحويلها إلى متجهات من خلال نموذج الدمج. غالباً ما تحدد جودة تقسيم الأجزاء النجاح. بالنسبة لـ HTML والنصوص العادية، يمكن تقسيم المادة حسب الفقرات؛ بالنسبة للوثائق المعيارية — بحسب الترقيم؛ بالنسبة لمصفوفات البيانات المعقدة — بحسب عدد الرموز.
تؤكد المقالة بشكل منفصل أن الرمز ليس حرفاً أو كلمة، بل وحدة تقسيم تعتمد على المحلل اللغوي للنموذج المحدد. بعد التحويل إلى متجهات، يسترجع النظام أجزاء ذات صلة من الفهرس، ويضيفها إلى السياق، وعندها فقط يطلب من النموذج إنشاء إجابة.
قياس الجودة
تقترح PSB عرض RAG ليس من خلال مقياس واحد، بل من خلال ثلاثة أبعاد: جودة البحث ودقة الإجابة وجودة العرض. إذا لم يجد النظام الوثيقة الضرورية، فلن يكون أي نموذج لغة كبير قوياً سينقذ النتيجة. إذا تم العثور على الوثيقة، فإن المشكلة التالية هي ما إذا كان النموذج قد فهمها بشكل صحيح ولم يضف أي شيء غير ضروري. وعندها فقط من المنطقي تقييم ما إذا كانت الإجابة قابلة للقراءة ومفيدة وذات صلة بسؤال المستخدم.
- معدل الإصابة — هل يجد النظام وثائق ذات صلة بشكل عام؟
- متوسط الترتيب المتبادل — ما مدى ارتفاع ترتيب أفضل وثيقة في النتائج؟
- دقة الحقائق — كم عدد الأداء الفعلية الصحيحة في الإجابة؟
- الفائدة والوضوح — هل تحل الإجابة المهمة دون انحرافات غير ضرورية؟
للتحقق من الدقة، تستخدم PSB حساباً تلقائياً ومقارنة بـ "المعيار الذهبي" — الإجابات التي أعدها البشر. طبقة أخرى من التحكم هي LLM-حكم، حيث يقيم نموذج منفصل نتيجة النموذج الرئيسي. لكن في fintech، تواجه الأتمتة قيوداً: يجب تنظيف البيانات الشخصية من قاعدة المعارف، والتعرف على هذه البيانات لا يوفر ضمان بنسبة 100٪. لهذا السبب يظل التحقق اليدوي جزءاً إلزامياً من العملية.
"RAG تكنولوجيا، وليست سحراً."
كيفية الاختبار في PSB
في الاختبار، تطبق PSB الهرم الكلاسيكي للجودة على RAG، لكن معدلة لعمارة هذه الأنظمة. في المستوى الأسفل، يتحققون ليس من أجزاء الكود الفردية، بل من المكونات: النموذج نفسه وقاعدة البيانات المتجهة وإعدادات الاستخراج وتقسيم المستندات. في المستوى التالي توجد اختبارات API — هنا يمكنك مراقبة الحمل والاستجابات وحجم الأجزاء المعادة وعدد الرموز.
في الأعلى توجد سيناريوهات E2E، حيث يكون سلوك النظام في استعلامات المستخدم الفعلية مهماً. وبشكل منفصل، الاختبار اليدوي، الذي لا يزال حتمياً في المجالات الحساسة. يوصف دورة التقييم نفسها أيضاً بأنها عملية مستمرة.
أولاً، يتم جمع مجموعة بيانات الاختبار: بمساعدة نموذج لغة كبير، يمكنك إنشاء مئات إلى آلاف الأسئلة. ثم يتم تشغيل RAG عبر هذه المجموعة، وحفظ الإجابات والمستندات الموجودة، وحساب المقاييس، وتحديد الاختناقات، وتحسين النظام. للتقييم الآلي، تستخدم PSB حالياً RAGAS، وفي المستقبل تفكر في أدواتها الخاصة — بما في ذلك لوحات المعلومات وتكامل CI/CD ومقارنة النسخ A/B والخرائط الحرارية للمناطق الإشكالية.
هذا النهج ضروري ليس لأجل الطهارة الأكاديمية، بل لتتبع التدهور والتحسينات بمرور الوقت.
ما يعنيه هذا
بالنسبة للشركات غير المستعدة لإنفاق ميزانيات كبيرة على ضبط النماذج، يبقى RAG أكثر الطرق عملية لتحسين دقة خدمات الذكاء الاصطناعي للشركات بسرعة. لكن مقالة PSB توضح بشكل جيد نقطة مهمة: الاسترجاع وحده لا يضمن شيئاً. تحتاج إلى انضباط في إعداد البيانات ومقاييس واضحة واختبارات منتظمة وإنسان في الحلقة — خاصة حيث يمكن لخطأ في الإجابة أن يؤثر على المال أو الامتثال أو أمان العميل.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.