MarkTechPost→ المصدر

Google DeepMind تمكّن نماذج اللغة من إعادة كتابة خوارزميات نظرية الألعاب والتفوق على الخبراء

طبقت Google DeepMind AlphaEvolve على خوارزميات للعب بمعلومات غير مكتملة، مثل البوكر. أعاد النظام المبني على نموذج اللغة كتابة الرمز لنهجين رئيسيين، CFR و…

معالج بواسطة الذكاء الاصطناعي من MarkTechPost؛ بتحرير Hamidun News
Google DeepMind تمكّن نماذج اللغة من إعادة كتابة خوارزميات نظرية الألعاب والتفوق على الخبراء
المصدر: MarkTechPost. كولاج: Hamidun News.
◐ استمع للمقال

أظهرت Google DeepMind أن نموذج اللغة لا يستطيع فقط مساعدة الباحثين على كتابة الأكواد، بل يمكنه البحث بشكل مستقل عن أفكار خوارزمية جديدة في نظرية اللعب وتجاوز الحلول التي صقلها البشر لسنوات. يتعلق الأمر بـ Multi-Agent Reinforcement Learning للألعاب ذات المعلومات غير الكاملة — الحالات التي يلعب فيها المشاركون بالتناوب ولا يستطيعون رؤية البيانات المخفية لبعضهم البعض، كما في لعبة البوكر. في مثل هذه المهام، غالباً ما يعتمد جودة الخوارزمية ليس فقط على النظرية الأساسية، بل على عدد لا يحصى من تفاصيل الهندسة: كيفية تراكم الندم، كيفية خصم الإشارات القديمة، متى تبدأ في حساب متوسط الاستراتيجية، وأي طريقة تستخدم للعثور على التوازن.

عادة ما يتم اختيار كل هذا يدويًا من خلال الحدس وسلسلة من الفرضيات والتجارب الطويلة. في ورقة بحثية نُشرت على arXiv في 18 فبراير 2026، اقترحت فريق DeepMind تفويض هذا العمل إلى AlphaEvolve — وكيل تطوري لإعادة كتابة الأكواد يستخدم LLM والتحقق التلقائي من الجودة لكل نسخة جديدة. في هذا العمل، تم تطبيق AlphaEvolve على عائلتين كلاسيكيتين من الخوارزميات: CFR، أي Counterfactual Regret Minimization، و PSRO، Policy Space Response Oracles.

للتجارب، استخدموا إطار عمل OpenSpiel، وتم تقييم الجودة بواسطة exploitability — مقياس يوضح مدى إمكانية استغلال الاستراتيجية المكتشفة من خلال أفضل رد فعل للخصم. نقطة مهمة: لم يقتصر الباحثون على ضبط معاملات التشعب. غيّر النظام منطق كود Python نفسه، الذي يتولى مسؤولية تراكم إشارة الندم وبناء السياسة الحالية وحساب متوسط الاستراتيجيات.

تشير الورقة مباشرة إلى Gemini 2.5 Pro باعتباره النموذج الذي تم بناء حلقة البحث هذه عليه. بالنسبة لعائلة CFR، وجد النظام متغيرًا جديدًا يسمى VAD-CFR، Volatility-Adaptive Discounted CFR.

فكرته أن الخوارزمية لا تستخدم قواعد ثابتة لنسيان المعلومات القديمة، بل تنظر إلى تقلبات التعلم وتخصم بقوة أكبر السجل خلال اللحظات غير المستقرة. بالإضافة إلى ذلك، أضافت AlphaEvolve تعزيزًا غير متماثل لإشارات الندم اللحظي الإيجابي بمعامل 1.1 وقاعدة غير متوقعة للحساب المتوسط: عدم البدء في تراكم متوسط السياسة حتى التكرار الخمسمائة.

هذا مثير للاهتمام بشكل خاص لأن أفق التقييم كان 1000 تكرار، والحد البالغ 500 تم اشتقاقه بواسطة النظام نفسه، دون تعليمات صريحة في التعليمات. في مجموعة كاملة من 11 لعبة، أظهرت VAD-CFR نتائج تساوي أو تتجاوز أفضل الحلول المعروفة في 10 من 11 حالة؛ الاستثناء الوحيد كان Kuhn Poker بأربعة لاعبين. بالنسبة لـ PSRO، كانت AlphaEvolve تبحث بالفعل ليس عن قواعد تحديث الندم، بل عن حل وسيط يحدد توزيع الاحتمالات على مجموعة من الاستراتيجيات.

أسفر هذا عن SHOR-PSRO، Smoothed Hybrid Optimistic Regret PSRO. يمزج هذا المتغير مطابقة الندم المتفائلة مع توزيع سلس على أفضل الاستراتيجيات النقية ويغير تدريجياً التوازن بين الاستكشاف والتقارب نحو التوازن أثناء التدريب. عمليًا، هذا يزيل جزءًا من الضبط اليدوي الذي كان إلزاميًا في السابق: لا يحتاج الباحثون بعد الآن إلى التخمين مقدمًا حول متى يجب أن يشجع النظام تنوع الاستراتيجية ومتى يجب أن يقترب بشكل أصرم من التوازن.

في مجموعة كاملة من 11 لعبة، كان SHOR-PSRO على مستوى أو فوق أفضل حلول الخط الأساسي اليدوي في 8 حالات. بشكل منفصل، من المهم أن DeepMind تحقق ليس فقط من المطابقة مع أمثلة التدريب. تطورت كلا الخطتين اللتين تم العثور عليهما أولاً على أربع ألعاب، بما فيها Kuhn Poker بثلاثة لاعبين وLeduc Poker بلاعبين اثنين و Goofspiel بأربع بطاقات و Liar's Dice بخمسة جوانب، ثم تم اختبارهما دون إعادة ضبط إضافية على متغيرات أكبر ولم تُشاهد سابقًا من نفس فئات المشاكل.

هذا أقوى من العرض النموذجي على بيئة لعبة واحدة أو اثنتين: فهو يُظهر على الأقل القدرة الأساسية للخوارزميات على التعميم خارج المجموعة المحددة التي تم إجراء البحث عليها. الخلاصة الرئيسية بسيطة: بدأت LLM في أتمتة ليس فقط كتابة الأكواد، بل تصميم الخوارزميات نفسها. بالنسبة للباحثين، هذا تحول في الدور — عددًا أقل من التعداد اليدوي للاستدلالات، والمزيد من تحديد المقاييس والقيود وأنظمة التحقق.

في الوقت نفسه، لا تثبت الورقة أن النموذج يمكنه الاختراع بشكل عام: يعتمد النجاح هنا على وظيفة تقييم واضحة ومجالات حيث يمكن التحقق من جودة الحل بدقة. لكن حتى مع هذا التحفظ، تبدو النتيجة خطيرة: أظهرت DeepMind أنه في المجالات الضيقة والقابلة للتشكيل رسميًا، يمكن للآلات بالفعل العثور على خطوات لم يكتشفها الخبراء يدويًا.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…