طلاب الدراسات العليا من بيركلي أصبحوا القضاة الرئيسيين في صناعة الذكاء الاصطناعي: كيف يقرر Arena أي نموذج أفضل
أنشأ طلاب الدراسات العليا في جامعة بيركلي Arena — أهم ترتيب فعلي لنماذج اللغة. في غضون سبعة أشهر، تطور المشروع من تجربة بحثية إلى شركة ناشئة تؤثر تقييماتها…
معالج بواسطة الذكاء الاصطناعي من TechCrunch؛ بتحرير Hamidun News
بينما تتنافس شركات الذكاء الاصطناعي على لقب أفضل نموذج، انتهى الحق في إصدار الحكم بيد مجموعة من طلاب الدراسات العليا من جامعة كاليفورنيا في بيركلي. أصبحت منصة Arena، المعروفة سابقاً باسم LM Arena، أهم لوحة تصنيفات عامة لنماذج الحدود. يتم الاستشهاد بتصنيفاتها في البيانات الصحفية، وتأخذها في الاعتبار صناديق الاستثمار الجريء، وتستخدمها فرق التطوير عند اختيار نموذج أساسي.
في غضون سبعة أشهر فقط، تحول المشروع من تجربة أكاديمية إلى شركة ناشئة متكاملة ذات تأثير حقيقي على الصناعة. تعتمد طريقة عمل Arena على التمويل الجماعي: يقارن المستخدمون إجابات نموذجين مجهولي الهوية ويصوتون للأفضل. يجمع النظام ملايين هذه المقارنات ويترجمها إلى تصنيف باستخدام طريقة إيلو، نفس الرياضيات التي تقيم لاعبي الشطرنج.
تستبعد مجهولية النموذج انحياز العلامة التجارية: المستخدم لا يعرف إجابة من يقرأ حتى يصوت. تؤثر البنية التحتية التي نمت من مشروع جامعي الآن على أكبر لاعبين في السوق. عندما تطلق OpenAI أو Google أو Anthropic نموذجاً جديداً، يصبح أحد أول مؤشرات النجاح موضعها في Arena.
تراقب صناديق رأس المال الاستثماري التصنيف عند اتخاذ قرارات الاستثمار. تبني فرق التسويق حملات علاقات عامة حول سطر في لوحة التصنيفات. ومع ذلك، فإن النظام له قيود واضحة.
يصوت جمهور الإنترنت، وليس عينة تمثيلية من المهنيين. المهام التي يطرحها المستخدمون على النماذج لا تعكس دائماً سيناريوهات الإنتاج الفعلية. وأخيراً، المستخدمون النشطون في Arena هم عادة متحمسون متمكنون من الناحية التقنية، وليس العميل الشركات العادي.
ومع ذلك، ملأت Arena فراغاً لم تستطع المعايير الأكاديمية سده. تقيس الاختبارات القياسية مثل MMLU أو HumanEval قدرات محدودة في ظروف محكومة. تقيس Arena شيئاً يصعب صياغته رسمياً: هل يعجب الناس بهذه الإجابة.
هذا الشعور هو ما يحدد في النهاية أي نموذج سيختاره المستخدم. قصة Arena هي مثال توضيحي على كيف يمكن للمجتمع الأكاديمي وضع معايير في صناعة سريعة التطور، حيث ليس لدى الشركات الوقت ولا الحوافز لإنشاء بنية تحتية محايدة للتقييم. السؤال هو ما إذا كانت هذه الحيادية ستحافظ على نفسها مع نمو الشركة الناشئة وجذب التمويل الخارجي.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.