لماذا تصبح نماذج OpenAI و Google و Anthropic أكثر إقناعاً لكن ترتكب أخطاء أكثر
نماذج التفكير من مختبرات كبرى تبدو أذكى، لكن هذا لا يجعلها أكثر دقة. تزيد OpenAI و Google و Anthropic من الحسابات أثناء الاستدلال لتقليل الأخطاء، لكن التأثير…
معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
المشكلة الرئيسية للمختبرات الكبرى للذكاء الاصطناعي الآن ليست أن نماذجها لا تبدو مقنعة بما يكفي، بل أن الطريقة الواثقة في التقديم تخفي بشكل متزايد أخطاء عالية المستوى. قضت شركات OpenAI و Google و Anthropic السنتين الماضيتين في محاولة حل هذه المشكلة من خلال زيادة الحسابات أثناء الاستدلال: إضافة سلاسل من التفكير، والبحث على عدة مسارات، والتحقق الذاتي، والمزيد من الرموز لكل طلب. من الخارج، يبدو هذا تقدماً.
لكن إذا لم تصبح النموذج الأساسي أكثر دقة، فإن "التفكير" الإضافي يجعل مفاهيمها الخاطئة أكثر اتساقاً وقابلية للتصديق. تبدو فكرة توسيع نطاق الاستدلال منطقية. إذا أعطيت النماذج وقتاً أكثر وخطوات أكثر لحل مهمة ما، فيجب أن ترتكب أخطاءً أقل.
في الممارسة العملية، أزالت هذه الطريقة بالفعل بعض الفشل السطحي: أخطاء واقعية أقل سخفاً، وردود أقل تحطماً عند الفحص الأول، وأقل فشلاً واضحاً في العروض التوضيحية. لهذا تترك نماذج التفكير انطباعاً قوياً: تتحدث بطريقة أكثر اتساقاً، وتهيكل الإجابات بشكل أفضل، وتستطيع محاكاة عملية تحليل دقيقة. المشكلة هي أن الاتساق النصي والدقة الناتجة ليست نفس الشيء.
الفرق واضح بشكل خاص بين الهلوسات البسيطة والعميقة. الهلوسة البسيطة عبارة عن تاريخ مختلق، أو اسم مختلط، أو مرجع غير موجود. يمكن ملاحظتها بسرعة.
الخطأ الهيكلي العميق أخطر: تأخذ النموذج فرضية كاذبة، تبني عليها سلسلة منطقية طويلة، تضيف نبرة واثقة، وتقدم إجابة كاملة ومقنعة. لا يرى المستخدم فوضى، بل كذباً معبأً بعناية. بالنسبة لمهام مثل التحليل، وإعداد الوثائق، والبرمجة، والطب، أو الاستشارات القانونية، هذا النوع من الخطأ أكثر خطورة بكثير من الخطأ العشوائي العادي.
في ضوء هذا، تبدو الأرقام مثيرة للقلق. في مقارنة حديثة لنماذج OpenAI الكبيرة على معيار SimpleQA، تم الإبلاغ عن معدلات هلوسة حول 50٪. إذا كانت كل إجابة ثانية على الأسئلة الواقعية البسيطة خاطئة أو مختلقة، فهذا لم يعد عيباً تجميلياً بل عرضة نظامية.
نعم، أي معيار له قيود: يعتمد الكثير على الصياغة، ومنهجية التقييم، والإصدار المحدد للنموذج. لكن الاتجاه نفسه يتحدث بذاته. أصبحت الإصدارات أكثر بلاغة وأكثر تكلفة حسابياً، بينما لا تنمو الموثوقية الأساسية بنفس الوتيرة—وأحياناً يبدو أنها تتدهور حتى.
بالنسبة للسيناريوهات المؤسسية، هذا يكفي لكي تتسلل الأخطاء إلى العروض التقديمية أو التقارير أو قواعد الأكواد دون أن يلاحظها أحد. قد تكمن الأسباب في الأسلوب نفسه. الحسابات الإضافية في مرحلة الاستدلال لا تخلق معرفة جديدة ولا تصحح نقاط الضعف في بيانات التدريب.
إنها تجبر النموذج فقط على البحث لفترة أطول عن إجابات ضمن فضاء التمثيل الموجود بالفعل. إذا كانت النظرة الأساسية للعالم لدى النموذج معوجة، فإن سلسلة طويلة من التفكير لن تقودها بالضرورة إلى الحقيقة. بالعكس، قد تعزز تأثير التأكيد الذاتي: قد تتحقق النموذج من نفس الفرضية غير الصحيحة عدة مرات بصيغ مختلفة، مما يجعل الخطأ أكثر إقناعاً.
يظهر تناقض: المزيد من الحسابات يقلل من احتمالية الخطأ الأحمق لكنه يزيد من خطر الخطأ الجميل. كلما بدت النظام أكثر ثقة، كلما قلت احتمالية توقف المستخدم في الوقت المناسب والتحقق من أساس التفكير. هذا يشير إلى استنتاج أوسع للسوق.
قد لا تأتي التهديدات للقادة في مجال الذكاء الاصطناعي فقط من "نموذج خارق" جديد، بل من فرق تتمكن من بناء أنظمة أكثر موثوقية فوق النماذج: مع استدعاء عالي الجودة، وإسناد المصادر، ومعايرة الثقة، والتحقق الصارم من الحقائق، والتقييم ليس فقط للطلاقة بل للحقيقة. الفائز لن يكون من يولد أطول إجابة، بل من يمكن الوثوق بإجابته في العمل الفعلي. إذا استمرت الصناعة في الخلط بين الإقناع والذكاء، فإن نافذة الفرص للاعبين الجدد قد فتحت بالفعل.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.