MIT News→ المصدر

اقترحت MIT مقياساً يكتشف الأخطاء الواثقة وهلوسات LLM

قدمت MIT طريقة جديدة للتحقق من متى يبدو نموذج اللغة واثقاً لكنه يرتكب أخطاء على أي حال. بدلاً من الاتساق الذاتي وحده، أضاف الباحثون مقارنة مع LLM أخرى وحصلوا…

معالج بواسطة الذكاء الاصطناعي من MIT News؛ بتحرير Hamidun News
اقترحت MIT مقياساً يكتشف الأخطاء الواثقة وهلوسات LLM
المصدر: MIT News. كولاج: Hamidun News.
◐ استمع للمقال

اقترح باحثون من معهد ماساتشوستس للتكنولوجيا (MIT) طريقة جديدة لقياس عدم اليقين في نماذج اللغة الكبيرة وكشف بدقة أكبر الحالات التي تستجيب فيها الذكاء الاصطناعي بثقة لكن تخطئ. الفكرة بسيطة: يحتاج المستخدمون إلى رؤية ليس فقط إجابة مصقولة، بل أيضاً إشارة حول مدى إمكانية الوثوق بتلك الثقة فعلاً، خاصة عند التعامل مع مهام تحمل عواقب حقيقية عند الخطأ.

لماذا تفشل المقاييس القديمة

اليوم، تعتبر إحدى الطرق الشائعة للتحقق من موثوقية نموذج اللغة الكبير (LLM) هي طرح نفس السؤال عدة مرات ورؤية ما إذا كان النموذج يجيب بثبات. إذا تطابقت الإجابات، يتم غالباً تفسير ذلك على أنه ثقة عالية. المشكلة أن هذا الفحص يقيس فقط الاتساق الداخلي للنموذج.

يُظهر مدى ثقة النموذج بنفسه، لكنه لا يقول ما إذا كان محقاً فعلاً. بالنسبة للواجهة، هذه إشارة مريحة لكنها ليست مفيدة دائماً. وهنا يظهر سيناريو خطير: قد يكرر النموذج نفس الإجابة الخاطئة مراراً بينما يحافظ على ظهور الموثوقية.

بالنسبة للمستخدمين، هذا خطر بشكل خاص في المهام حيث تكون الأخطاء مكلفة—على سبيل المثال، في الطب أو المالية أو التحليل التطبيقي. في مثل هذه الحالات، تبدو الهلوسة الواثقة مقنعة أكثر من الإجابة المتحفظة لكن الصريحة مع التحفظات. لذلك قرر الباحثون قياس ليس فقط ثقة النموذج بنفسه، بل أيضاً احتمالية أن يكون الخيار الصحيح للسؤال المطروح.

كيفية عمل الطريقة الجديدة

عززت فريق MIT المقياس المألوف للتناسق الذاتي بإشارة أخرى—عدم الاتفاق بين النماذج. بدلاً من طرح نفس السؤال عدة مرات على نفس نموذج اللغة الكبير، يقارن الباحثون إجابة النموذج الهدف مع إجابات من مجموعة صغيرة من نماذج مشابهة بحجم قابل للمقارنة والفئة المعمارية. إذا بدأت هذه النماذج تختلف بشكل ملحوظ من حيث المعنى، يصبح هذا مؤشراً مهماً على أن الإجابة الأصلية قد تكون غير موثوقة، حتى لو كان النموذج الهدف يبدو واثقاً جداً. نقطة مهمة أن المقارنة لا تقيس فقط التطابق الحرفي للكلمات، بل التقارب الدلالي للإجابات. يعكس هذا النهج بشكل أفضل الاتفاق أو الاختلاف الحقيقي بين النماذج من مجرد المقارنة الكلمة بالكلمة.

وفقاً للباحثين، في الممارسة العملية، نجحت نسخة مبسطة بشكل غير متوقع: استخدام نماذج أنشأتها شركات مختلفة. تم اختبار أنظمة اختيار مجموعات أكثر تعقيداً، لكنها لم توفر ميزة على هذه الاستراتيجية المباشرة والشفافة.

  • أولاً، يتم تحديد النموذج الهدف الذي يجب تقييم إجابته.
  • ثم، يتم توجيه نفس الاستعلام إلى عدة نماذج لغة كبيرة مشابهة.
  • بعد ذلك، يقيس النظام مدى توافق الإجابات من حيث المعنى.
  • يتم دمج هذا المقياس مع مقياس التناسق الذاتي القياسي.
  • النتيجة هي درجة عدم اليقين الكلي.

يطلق المؤلفون على المكون الثاني اسم عدم اليقين الإبستيمي: يُظهر مدى اختيار النموذج نفسه بشكل جيد للمهمة المحددة. مدمجاً مع عدم اليقين العشوائي، الذي يعكس عدم الاستقرار الداخلي للإجابة، تحصل على صورة أكثر اكتمالاً للمخاطر. بعبارة بسيطة، يفحص النظام ما إذا كان النموذج يناقض نفسه وما إذا كان يختلف عن نماذج معقولة أخرى. تعمل الطريقة بصيغة الصندوق الأسود: تحتاج فقط إلى إجابات نصية، دون الوصول إلى logits أو الحالات الداخلية للنموذج.

حيث تكون الطريقة الأكثر فائدة

اختبر الباحثون المقياس المدمج على عشر مهام واقعية، بما في ذلك سيناريوهات الأسئلة والأجوبة والتلخيص والترجمة والمنطق الرياضي. في السلسلة الرئيسية للتجارب، قارنوا عدة نماذج معدلة بالتعليمات، مع اختبارات منفصلة على نماذج واجهة برمجية التطبيقات أيضاً. في هذه الاختبارات، كشفت درجة عدم اليقين الكلية بشكل أكثر موثوقية عن الإجابات غير الموثوقة من أي مكون وحده. أظهر النهج الجديد أداءً جيداً بشكل خاص في المهام حيث توجد إجابة واحدة صحيحة، مثل الأسئلة والأجوبة الحقائقية أو الترجمة.

إذا كرر النموذج نفس الإجابة عدة مرات، فهذا لا يعني بالضرورة أن الإجابة صحيحة.

هناك أيضاً قيد مهم. بالنسبة للمهام الأكثر انفتاحاً حيث تكون متغيرات إجابات متعددة جيدة مقبولة، قد تكون إشارة عدم الاتفاق بين النماذج أقل فائدة. بعبارة أخرى، إذا لم تكن المسألة حقيقة بل جيلاً أكثر حرية، فإن عدم الاتفاق بين النماذج وحده لا يشير دائماً إلى خطأ. يلاحظ المؤلفون مباشرة أنهم في المستقبل يريدون تكييف التقنية خاصة لمثل هذه السيناريوهات والتحقيق بشكل منفصل في أشكال أخرى لتقييم عدم اليقين الداخلي للنموذج.

ميزة عملية أخرى هي توفير الحوسبة. في بعض التجارب، تطلب حساب عدم اليقين الكلي استعلامات أقل من التقييم التقليدي من خلال التناسق الذاتي فقط. هذا يعني ليس فقط تكاليف استدلال أقل، بل أيضاً استهلاك طاقة أقل بشكل محتمل مع الاستخدام الواسع النطاق لمثل هذه الفحوصات. بالنسبة للإنتاج، هذه حجة مهمة: إذا كان مقياس أكثر دقة وأرخص في نفس الوقت، فلديه فرص أفضل بكثير للوصول إلى منتجات ذكاء اصطناعي حقيقية بدلاً من البقاء فكرة أكاديمية بحتة.

ماذا يعني هذا

بالنسبة للصناعة، هذه خطوة من تقييم "كم يبدو النموذج واثقاً" إلى "كم يمكن الوثوق بهذه الثقة". إذا رسخت الطريقة في الإنتاج، ستتمكن خدمات الذكاء الاصطناعي من التحذير بدقة أكبر من الهلوسات، وسيكون لدى المستخدمين احتمالية أقل لقبول خطأ يبدو مقنعاً كإجابة موثوقة. هذا مهم بشكل خاص لجميع السيناريوهات حيث تعمل نماذج اللغة الكبيرة بالفعل ليس كلعبة، بل كأداة عمل تؤثر على القرارات والمال والعمليات اليومية في الشركة.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…