Gemini 3 и блеф: пعنчему нейрعنمعети الآن играют في пعنкер
حان الوقت للاعتراف بالحقيقة الواضحة: معايير القياس التقليدية للشبكات العصبية تموت. عندما تُظهر نموذج دقة تبلغ 90% في اختبار MMLU، لا نعود نعرف ما إذا كان قد…
معالج بواسطة الذكاء الاصطناعي من Google AI Blog؛ بتحرير Hamidun News
حان الوقت للاعتراف بالحقيقة الواضحة: معايير القياس التقليدية للشبكات العصبية تموت. عندما تُظهر نموذج دقة تبلغ 90% في اختبار MMLU، لا نعود نعرف ما إذا كان قد أصبح أكثر ذكاءً بالفعل أم أنه ببساطة حفظ الإجابات من مجموعة التدريب. تبحث الصناعة بشكل يائس عن طرق لاختبار الذكاء "الحي"، وقررت Google أن أفضل طريقة للقيام بذلك هي إرسال الذكاء الاصطناعي إلى طاولة البوكر. يبدو توسيع منصة Game Arena بتخصصات جديدة مثل البوكر والذئب كمحاولة لأخذ النماذج أخيراً من الظروف المعقمة للمختبرات وإدخالها إلى فوضى التفاعلات الاجتماعية.
كانت قصة العلاقة بين الذكاء الاصطناعي والألعاب دائماً مقياساً للتقدم. أولاً جاء Deep Blue الذي هزم كاسباروف بالقوة الحسابية المحضة. ثم جاء AlphaGo، وأظهر الحدس في المواقف حيث يتجاوز عدد الحركات المحتملة الذرات في الكون. لكن الشطرنج والـ Go هما لعبتا معلومات كاملة. ترى كل شيء يراه خصمك. البوكر والذئب من دوري مختلف تماماً. هنا تحتاج إلى مراعاة البطاقات المخفية والمكاشفة والأهم من ذلك بناء نموذج لعقلية خصمك. إذا تمكن Gemini 3 Pro من إقناع مجموعة من الأشخاص أنه مواطن سلمي بينما يكون بالفعل "ذئباً"، فسيخبرنا ذلك عن قدراته المعرفية أكثر من أي اختبار أكاديمي.
تظهر النتائج الحالية في Game Arena أن عائلة Gemini 3 تشعر بالراحة في هذه البيئة. احتل النموذجان Pro و Flash بالفعل قمة قائمة الشطرنج، متفوقين على المنافسين في القدرة على التخطيط عدة خطوات للأمام. لكن الشطرنج بالنسبة لنماذج اللغة الكبيرة الحديثة مشكلة محلولة بالفعل. يبدأ التحدي الحقيقي الآن، عندما يتعين عليهم التعامل مع عدم عقلانية السلوك البشري في البوكر. هنا لا يكفي ببساطة حساب احتمالات الحصول على البطاقة الصحيحة. تحتاج إلى فهم سبب زيادة خصمك للرهان فجأة: هل لديه بالفعل رويال فلاش أم أنه يأمل أن تخاف؟
لماذا هذا مهم لنا وليس فقط لمحبي القمار؟ السبب هو أن المهارات المطلوبة للفوز في لعبة الذئب تُترجم مباشرة إلى العالم الحقيقي. المفاوضات حول العقود والدبلوماسية وإدارة الموظفين — كل هذه لعب بمعلومات غير كاملة وعناصر من المكاشفة. إذا نجحت Google في تدريب نماذج تتعامل بفعالية مع هذه المهام، فلن نحصل على مجرد برامج دردشة، بل وكلاء تفاوضيين حقيقيين. هذا مستوى جديد من الاستقلالية، حيث يفهم الذكاء الاصطناعي ليس فقط نص الطلب بل أيضاً الدوافع المخفية لمن كتبه.
بطبيعة الحال، ينشأ السؤال الأخلاقي. إذا دربنا شبكة عصبية على أن تكون كاذبة مقنعة في لعبة، كيف نجعلها صادقة تماماً في التقارير المالية أو الاستشارات القانونية؟ الخط بين "المناورة الإستراتيجية" والتضليل الصريح رقيق جداً. لم تقدم Google إجابات مباشرة حتى الآن، وتركز بدلاً من ذلك على الإنجازات التقنية. لكن مجرد وجود Gemini 3 على قمة تصنيفات الألعاب يشير إلى أن معمارية النموذج أصبحت مرنة بما يكفي للتكيف مع القواعد أثناء التنفيذ دون فقدان الأداء.
في المستقبل القريب، سنرى كيف سيضطر اللاعبون الآخرون في السوق — OpenAI و Anthropic — لقبول هذا التحدي. تنتهي حقبة الجداول الثابتة بالأرقام. يأتي وقت الساحات، حيث يثبت الذكاء بالعمل. وإذا أقنعك مساعدك الشخصي التالي بسهولة مريبة بشراء هذا الاشتراك بالذات، تذكر أنه ربما تدرب ببساطة جيداً على البوكر في الليل على خوادم Google.
الخلاصة: تنقل Google تقييم الذكاء الاصطناعي من مجال المعرفة الجافة إلى مجال الذكاء الاجتماعي. ما إذا كان بإمكان Gemini 3 أن يسبق خدعة الإنسان — هذا هو سؤال السنة.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.