TechCrunch→ المصدر

Arena: ترتيب نماذج الذكاء الاصطناعي الذي لا يمكن خداعه — ويمول من قبل من يحكم عليهم

Arena هو ترتيب لنماذج الذكاء الاصطناعي لا يمكن التلاعب به. نشأت الشركة الناشئة من بحث دكتوراه في بيركلي وأصبحت في غضون سبعة أشهر الحكم الفعلي لسوق نماذج…

معالج بواسطة الذكاء الاصطناعي من TechCrunch؛ بتحرير Hamidun News
Arena: ترتيب نماذج الذكاء الاصطناعي الذي لا يمكن خداعه — ويمول من قبل من يحكم عليهم
المصدر: TechCrunch. كولاج: Hamidun News.
◐ استمع للمقال

في سوق نماذج اللغة، يوجد مئات من المشاركين، وكل واحد منهم يسمي نفسه الأفضل. تبين أن السؤال عن من يقرر من هو الأفضل حقاً لم يكن فلسفياً — بل تحول إلى عمل تجاري. أصبحت منصة Arena، المعروفة سابقاً باسم LM Arena، الحكم العام الرئيسي لنماذج اللغة الكبيرة الحدودية، وفي غضون سبعة أشهر قطعت طريقاً من مشروع بحثي جامعي إلى شركة ناشئة تمتلك تأثيراً حقيقياً على الصناعة.

نما المشروع من عمل طلاب الدراسات العليا في جامعة كاليفورنيا ببيركلي. الفكرة بسيطة: بدلاً من الاعتماد على المعايير التي يمكن للشركات تعديلها لصالحها، اطلب من أشخاص حقيقيين المقارنة العمياء بين إجابتين من نماذج مجهولة واختر الأفضل. يحول نظام إيلو، المألوف من تصنيفات الشطرنج، ملايين هذه الأصوات إلى تصنيف واحد.

التلاعب به صعب للغاية: لا تعرف أي نموذج تصوت له، والحجم الضخم للعينة يعادل القيم الشاذة العشوائية. أثبت التأثير أنه قوي بشكل غير متوقع. بدأت المكانة في Arena تؤثر على كيفية إدراك مستثمري رأس المال الاستثماري للنماذج، وعندما تعلن الشركات عن الإطلاقات وكيفية بناء السرد الإعلامي حول الإصدارات الجديدة.

الوصول إلى أعلى التصنيف — يعني الحصول على تأكيد مستقل للجودة لا يمكن الطعن فيه بالإشارة إلى الاختبارات الداخلية. لكن النظام يحتوي على مفارقة هيكلية تثير أسئلة مزعجة. تمول Arena نفس الشركات التي تقيّمها.

تدعم OpenAI وAnthropic وGoogle وMeta والعديد من اللاعبين الكبار الآخرين المنصة بطريقة أو بأخرى. يخلق هذا تضارباً محتملاً في المصالح: الحكم المستقل يتلقى أموالاً من الجهات التي يحكم عليها. تؤكد فريق المشروع أن المنهجية توفر حماية من تأثير الراعين — عدم الكشف عن هوية الأصوات وشفافية البيانات لا تترك نقاط دخول للتلاعب.

غير أن النقاد يشيرون: حقيقة الاعتماد المالي وحدها تقوض الثقة، حتى لو كان كل شيء تقنياً صادقاً. سؤال منفصل هو ما الذي تقيسه Arena بالضبط. يعكس التصنيف تفضيلات المستخدمين في الحوار المفتوح، وليس قدرة النموذج على حل المهام المتخصصة: كتابة الرموز، تحليل المستندات، العمل مع البيانات.

قد يفضل نموذج يروق لجمهور عريض في المحادثات اليومية أمام المنافسين حيث تكون الدقة مهمة. هذا لا يجعل التصنيف عديم الفائدة — فهو يقيس بصراحة ما يقيسه. لكن المساواة بين المكانة في Arena والجودة الإجمالية للنموذج ستكون تبسيطاً مفرطاً.

مع ذلك، على مدار السنتين الماضيتين، أصبحت Arena نقطة مرجعية لا يمكن للصناعة تجاهلها. تبني الشركات حملات تسويقية حول المراكز المرتفعة، يستشهد الباحثون بالتصنيف في الأوراق الأكاديمية، يستخدمه الصحفيون كمرجع سريع عند تغطية الإطلاقات الجديدة. التأثير حقيقي — بغض النظر عن النقاشات حول المنهجية.

توضح قصة Arena مدى سرعة تشكل المؤسسات غير الرسمية للقوة في صناعة الذكاء الاصطناعي. لم يعين أحد هذا التصنيف معياراً — أصبح معياراً لأنه ملأ فراغاً. كان السوق يحتاج إلى تقييم مستقل، والأول الذي قدم آلية مقنعة حصل على تأثير غير متناسب.

السؤال هو كم من الوقت سيستمر هذا التوازن مع ارتفاع الحصص وازدياد وضوح تضارب المصالح.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…