Habr AI→ المصدر

لماذا تعمل روبوتات دردشة RAG بشكل مثالي في العروض التوضيحية لكنها تولد هراء في الإنتاج

غالباً ما تعمل روبوتات دردشة RAG بشكل مثالي في العروض التوضيحية لكنها تنهار في الإنتاج. بعد أربعة أشهر من التطوير باستخدام Pinecone وتحليل PDF وواجهة OpenAI API

لماذا تعمل روبوتات دردشة RAG بشكل مثالي في العروض التوضيحية لكنها تولد هراء في الإنتاج
المصدر: Habr AI. كولاج: Hamidun News.
◐ استمع للمقال

يبدو روبوت دردشة RAG للتوثيق الداخلي مثاليًا في العرض التوضيحي—حيث يجيب على خمسة أسئلة محددة مسبقًا بثقة ودقة. لكن بمجرد وصول النظام إلى الإنتاج وبدء الموظفين الحقيقيين في طرح أسئلة غير متوقعة، يبدأ الروبوت في إنتاج هلوسات واثقة. إليك القصة التي تتكرر عبر الشركات التي تستثمر في نماذج اللغات الكبيرة: أربعة أشهر من التطوير، Pinecone، تحليل PDF، تكامل OpenAI، وفي النهاية نظام يبدو أنه لا يعمل.

العرض التوضيحي مقابل الواقع

يجيب الروبوت بشكل مثالي على خمسة أسئلة معدة مسبقًا: حول سياسة الإجازات وعملية الشراء وهيكل الشركة. هذه أسئلة حقيقية، لكنها أسئلة تعرفها بالفعل. تسير العرض التقديمي للإدارة بشكل رائع. يرى الجميع سحر نموذج لغة كبير يعمل مع المستندات الداخلية. تم التوقيع على العقد وتخصيص الميزانية. ثم في النظام المباشر، يسأل موظف شيئًا بعيدًا قليلاً عن النمط المعياري. ليست سؤالاً بسيطًا تمامًا. ويجيب الروبوت بهراء واثق—يهلوس معلومات لا توجد في المستندات، أو يختلق حقائق كما لو كانت قد كانت هناك دائمًا. يفقد المستخدم الثقة بعد الخطأ الأول.

حيث يبدأ التحليل في الانهيار

تم قضاء أسبوعين في تحليل PDF. بدا الأمر بسيطًا، لكن PDF هو تنسيق جهنمي. تتحول بعض المستندات إلى فوضى من الأحرف، وتفقد أخرى هيكل الجدول، وتختلط أخرى لا تزال ترتيب الفقرات. تكتب محللاً لنوع واحد من المستندات، وتختبره—كل شيء يعمل. ثم يتم تحميل مستند جديد بتنسيق مختلف في النظام، ويبدأ المحلل في إنتاج القمامة. حتى لو كانت الملفات المصدر بتنسيق واحد، فإن أي مجموعة حقيقية من المستندات تحتوي على ضوضاء: رسائل ممسوحة ضوئيًا بدلاً من الإصدارات الرقمية، شعارات بدلاً من النص، أحجام خطوط مختلفة. يعمل التحليل يومًا واحدًا، ويكسر مستند جديد كل شيء في اليوم التالي.

مشكلة الهلوسة والسياق غير المكتمل

حتى لو كان التحليل يعمل بشكل مثالي، فقد يسترجع نظام RAG المستندات من قاعدة البيانات الموجهة بشكل غير صحيح. يرى النموذج أجزاء نصية ذات صلة، لكن لا يوجد سياق كافٍ للحصول على إجابة كاملة، أو تتناقض الأجزاء مع بعضها البعض. ثم يملأ نموذج اللغة الكبير، بطبيعته، 'الفجوات'—يهلوس معلومات غير موجودة في المستندات. في العرض التوضيحي، تختبر في حالات مثالية حيث يكون هناك سياق كافٍ. في الإنتاج، يسأل المستخدمون عن التفاصيل المنتشرة في أجزاء مختلفة من المستندات أو المصيغة بطريقة مختلفة تمامًا. تفشل قاعدة البيانات الموجهة في العثور على أجزاء ذات صلة، أو تجدها بشكل غير مكتمل. نتيجة لذلك:

  • يخرج التحليل عن السيطرة مع تنسيقات المستندات الجديدة
  • لا تضمن الصلة بالسياق أن يعطي النموذج الإجابة الصحيحة
  • يهلوس النموذج المعلومات بدلاً من قول 'لا أعرف' بصراحة
  • لا يتم العثور على صيغ مختلفة في المستندات من خلال استعلام واحد
  • لا يتطابق ترتيب الصلة غالبًا مع النتيجة المرغوبة

بين العرض التوضيحي والإنتاج

في العرض التوضيحي، تتحكم في بيانات الإدخال—تختار الأسئلة التي يتعامل معها النظام بشكل جيد. في الإنتاج، يحدث العكس: سيسأل الموظفون بالضبط تلك الأسئلة التي لا يستطيع النظام الإجابة عليها. سيسألون عن الاستثناءات والحالات الحدية والتفاصيل التي توجد تقنيًا في المستند ولكن ليست في مركز اهتمام المحلل.

'يعمل بنسبة 90 في المائة على العرض التوضيحي. يعمل بنسبة 30 في المائة

في الإنتاج،' — هكذا يصف المطورون الوضع بعد الأسبوع الأول من الاستخدام المباشر.

ماذا يعني هذا

هذا لا يعني أن RAG في المؤسسات مستحيل. هذا يعني أن RAG ليست مهمة تطوير واحدة وليست معمارية واحدة يمكنك نسخها من GitHub. إنها عملية طويلة مع معالجة الاستثناءات واستراتيجيات الرجوع وحلقات ردود الفعل من المستخدمين وإعادة التدريب المستمر على أسئلة حقيقية. RAG تعمل ليس لأنك اخترت متجر المتجهات الصحيح، بل لأنك قبلت أن الطريق طويل.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.
ما رأيك؟
جارٍ تحميل التعليقات…