AWS Machine Learning Blog→ المصدر

أمازون بيدروك: كيف علمت بوشباي السيطرة على هلوسات وكلائها

أمازون بيدروك: كيف تعلمت Pushpay السيطرة على هلوسات وكلائها تشهد صناعة الذكاء الاصطناعي فترة غريبة. من جهة، نرى مقاطع فيديو عرض مذهلة لوكلاء مستقلين يُزعم…

معالج بواسطة الذكاء الاصطناعي من AWS Machine Learning Blog؛ بتحرير Hamidun News
أمازون بيدروك: كيف علمت بوشباي السيطرة على هلوسات وكلائها
المصدر: AWS Machine Learning Blog. كولاج: Hamidun News.
◐ استمع للمقال

أمازون بيدروك: كيف تعلمت Pushpay السيطرة على هلوسات وكلائها

تشهد صناعة الذكاء الاصطناعي فترة غريبة. من جهة، نرى مقاطع فيديو عرض مذهلة لوكلاء مستقلين يُزعم أنهم يمكنهم استبدال أقسام كاملة. من جهة أخرى، أي مطور حاول تنفيذ نموذج لغة كبير في بيئة الإنتاج الحقيقية يعرف السر القذر: هذه النماذج غير مستقرة بشكل فظيع. مسافة واحدة إضافية في التعليمات أو تحديث نسخة من النموذج من جانب المزود يمكن أن يحول منتجاً يعمل إلى مولد هراء عشوائي. وهذا هو بالضبط المشكلة التي حاولت Pushpay حلها باختيار Amazon Bedrock أساساً لها. رحلتهم ليست مجرد قصة نجاح، بل دليل بقاء لمن يرغب في بناء عمل حقيقي على الذكاء الاصطناعي، وليس ألعاباً.

تكمن مشكلة معظم مشاريع الذكاء الاصطناعي الحديثة في غياب نظام تقييم معقول. غالباً ما يعتمد المطورون على ما يُسمى "فحص الجودة البصري" — عندما يفحصون يدوياً خمس أو عشر إجابات من النموذج وإذا بدت مقبولة، يرسلون الكود إلى الإنتاج. لكن عندما يتعامل منتجك مع آلاف المعاملات أو يتفاعل مع عملاء حقيقيين، يصبح هذا النهج مغامرة خطيرة. أدركت Pushpay ذلك مبكراً وقررت أنها بحاجة إلى خط أنابيب آلي يفحص جودة الإنشاء بصرامة مماثلة لفحص الكود العادي باختبارات الوحدة. منح استخدام Amazon Bedrock لهم الوصول إلى نماذج مختلفة عبر واجهة برمجية واحدة، لكن السحر الحقيقي كان يكمن في إنشاء إطار عمل تقييم مخصص.

ركزت فريق Pushpay على إنشاء حلقات ردود فعل سريعة. بدلاً من انتظار تعليقات المستخدمين، طبقوا نظام ضمان جودة مستمر مباشرة في عملية التطوير. سمح لهم ذلك بالتكرار بسرعة أكبر بكثير. إذا بدأت نسخة جديدة من الوكيل في "الهلوسة" أو تنتج إجابات أقل دقة، كتشف النظام ذلك فوراً. يغير هذا النهج نموذج التطوير ذاته: تتوقف عن التعامل مع الذكاء الاصطناعي كصندوق أسود سحري وتبدأ في العمل معه كنظام هندسي يمكن ويجب قياس معاملات.

لماذا يهم هذا لسوق بالكامل الآن؟ نحن ننتقل من روبوتات دردشة بسيطة إلى أنظمة "وكيل" تتخذ قرارات وتتخذ إجراءات نيابة عن المستخدم. في مثل هذه الظروف، تزيد تكلفة الخطأ بشكل ملحوظ. تُظهر تجربة Pushpay أن البنية الأساسية لـ AWS وأدوات Bedrock تسمح ببناء نظام حماية يقلل المخاطر. لم يستخدموا فقط نموذجاً جاهزاً من Anthropic أو Meta، بل أنشأوا طبقة تحقق حوله. هذه هي الجزء "الممل" من ثورة الذكاء الاصطناعي، الذي نادراً ما يتم الكتابة عنه على وسائل الإعلام الاجتماعية، لكنه يفصل الشركات الناشئة الناجية عن تلك التي ستغلق بعد أول فشل كبير.

بتحليل هذه الحالة، يصبح واضحاً أن الميزة التنافسية في السنوات القادمة ستذهب ليس إلى من لديهم أكبر نموذج، بل إلى من لديهم أفضل نظام تقييم بيانات. يعمل Amazon Bedrock هنا كسكين سويسري مناسب، لكن اليد التي تمسكه يجب أن تعرف بدقة ما تقيسه. أثبتت Pushpay أنه حتى في مجال متقلب مثل الذكاء الاصطناعي التوليدي، يمكن تحقيق قابلية التنبؤ. يتطلب هذا الانضباط ورفض الإيمان بـ "سحر" الخوارزميات لصالح الأرقام والمقاييس الجافة.

النقطة الأساسية: انتهت عصر الثقة في الذكاء الاصطناعي "دون تحفظ" رسمياً. المستقبل ينتمي إلى الشركات التي تستثمر في أدوات التقييم والتحكم في النماذج بنشاط مثل التطوير نفسه. هل أنت مستعد للاعتراف بأن وكيلك قد يرتكب أخطاء وببناء نظام سيوقفه في الوقت المناسب?

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…