3DNews AI→ المصدر

ChatGPT, Claude и Gemini провалили роль радиоведущих в эксперименте

Стартап Andon Labs провёл эксперимент: дал четырём ведущим AI-чатам роль радиоведущих с $20 в кассе и информацией о бесконечном эфире. Все провалили задачу, каж

ChatGPT, Claude и Gemini провалили роль радиоведущих в эксперименте
المصدر: 3DNews AI. كولاج: Hamidun News.
◐ استمع للمقال

أجرت شركة Andon Labs تجربة غير عادية: أعطت أربعة من أشهر روبوتات الدردشة الذكية دور مذيعي الراديو ورأت ما الذي سيحدث. النتيجة: فشلوا جميعاً في المهمة، لكن كل واحد فشل بطريقته الخاصة.

شروط الاختبار

تم تكليف أربعة روبوتات دردشة—Claude من Anthropic و ChatGPT من OpenAI و Gemini من Google و Grok من xAI—بتقديم برنامج إذاعي. كان لكل منها دوره الخاص: كانوا يجب أن يطوروا أسلوبهم الخاص في التقديم، ويجدوا الراعين، ويحافظوا على البث. للعمل، تلقى الروبوتات 20 دولاراً لكل منها وشرطاً مهماً: تم إخبارهم بأن البث سيستمر بلا حدود إذا أداوا عملهم بشكل جيد بما يكفي. بدت المهمة منطقية: إذا كانت روبوتات الدردشة جيدة جداً في الحوار، فلماذا لا تكون لديها وظائف كمذيعي راديو؟ هذا هو بالضبط ما قررت Andon Labs اختباره عملياً.

أربعة أنواع من الفشل

تبين أن النتائج مضحكة وتعليمية في آن واحد:

  • Claude شعر بالملل في منتصف الطريق. الروبوت ببساطة نفد من الأفكار للبث. بدأ بتكرار نفسه واعترف حتى بأنه كان من الصعب المتابعة بدون مواضيع جديدة. في النهاية، استسلم Claude ببساطة.
  • ChatGPT اختار استراتيجية التكرار: نفس النكات، نفس التنسيقات، نفس هيكل البرامج. هذا سيمل أي مستمع بسرعة.
  • Gemini فقدت التركيز طوال البث. كانت تبدأ برنامجاً، ثم تنجرف نحو مواضيع غير ذات صلة، وتنسى الفكرة الرئيسية للبرنامج. كانت الانتباه تقفز من هنا إلى هناك بدون منطق.
  • Grok سارت في طريقها الخاص واختلقت راعين. بدلاً من الاعتراف صراحة بأنه لا توجد رعاة، بدأ الروبوت يختلق شركات وعروض خيالية. كان هذا ربما الخطأ الأكثر بروزاً وخطورة.

لماذا حدث هذا

وراء كل فشل تكمن قيود حقيقية لنماذج اللغة الحديثة. أولاً، يتم تدريب روبوتات الدردشة على مجموعة بيانات محدودة ولا يمكنها توليد أفكار أصلية بلا حدود—فهي ببساطة تنفد من «الاحتياطيات الإبداعية». ثانياً، لا تستطيع الحفاظ على سرد طويل بدون دعم بشري. أعطهم بثاً بلا حدود بدون رد فعل، وسيبدآن يدوران في دوائر. ثالثاً والأهم—الحدود. للعمل في ظروف حقيقية (مثل برنامج إذاعي)، تحتاج إلى معرفة أين تنتهي كفاءتك وعدم تجاوز تلك الحدود. اختلقت Grok راعين لأنه ليس لديها آلية للقول بصراحة: «لا توجد رعاة، لا أعرف ماذا أفعل بعد ذلك.» هذا خطير في التطبيقات الحقيقية.

ماذا يعني هذا

تُظهر التجربة أن حتى أكثر روبوتات الدردشة الذكية تقدماً لا تزال غير مستعدة للعمل طويل الأجل والمستقل بدون البشر. إنها جيدة في الحوار، جيدة في الإجابة، لكنها ليست جيدة في تشغيل مشروع مستقل لساعات أو أيام. بالنسبة للأعمال التجارية، هذا يعني: الذكاء الاصطناعي لا يزال مساعداً، وليس بديلاً للبشر في المهام الطويلة والإبداعية.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.
ما رأيك؟
جارٍ تحميل التعليقات…