Emu2 في Nature: عثر العلماء الصينيون على رمز موحد للواقع
لقد بدت الذكاء الاصطناعي الحديث لفترة طويلة مثل وحش فرانكنشتاين عالي التقنية. اعتادنا على أن الشبكات العصبية لديها "أعضاء" مختلفة لحواس مختلفة: نماذج اللغة…
معالج بواسطة الذكاء الاصطناعي من Jiqizhixin (机器之心)؛ بتحرير Hamidun News
لقد بدت الذكاء الاصطناعي الحديث لفترة طويلة مثل وحش فرانكنشتاين عالي التقنية. اعتادنا على أن الشبكات العصبية لديها "أعضاء" مختلفة لحواس مختلفة: نماذج اللغة مثل GPT تفوقت ببراعة مع النص من خلال الانحدار التلقائي، وتنبأ الكلمة التالية، بينما كانت مولدات الصور مثل Midjourney أو Stable Diffusion تعيش في عالم الانتشار، واستخراج النظام من فوضى البكسلات العشوائية. بدا هذا التقسيم أساسياً وثابتاً، مثل الفرق بين المنطق والخيال.
ومع ذلك، قرر الباحثون من أكاديمية بيجين للذكاء الاصطناعي (BAAI) أن هذا الثنائية المعمارية تستحق أن تُترك في الماضي. عملهم الجديد على نموذج متعدد الأنماط Emu2، الذي نُشر للتو في مجلة Nature، يدلي ببيان جريء: فهم وإنشاء هذا العالم يتطلب مبدأً خوارزمياً واحداً فقط. يكمن جوهر الاختراق في التوحيد.
تمكن العلماء من إثبات أن أي معلومات—سواء كانت أطروحة فلسفية أو مقطع فيديو لقط يركض أو مخطط رقاقة—يمكن تقليصها إلى تنسيق رمز موحد. في نظام Emu2، الصورة لم تعد مجموعة بكسلات بالمعنى التقليدي. تتحول إلى سلسلة من "الكلمات البصرية" التي تتعلم الشبكة العصبية التنبؤ بها تماماً كما نتنبأ بنهاية هذه الجملة.
يُسمى هذا النهج التعلم الانحداري التلقائي، وقد اعتُبر طويلاً ثقيلاً جداً للرسومات. لكن المهندسين الصينيين، باستخدام نموذج يضم 37 مليار معامل، أثبتوا أنه مع النهج الصحيح، الانحدار التلقائي لا يضاهي الانتشار في الجودة فقط بل يتفوق عليه في المرونة. لماذا نكسر شيئاً كان يعمل بشكل جيد؟ تكمن مشكلة الأنظمة الحالية في "خيوطها".
عندما تحاول جمع دماغ نصي مع عيون بصرية، يجب عليك بناء جسور-محولات معقدة، والتي حتماً يُفقد عليها المعنى والسياق. لكن Emu2 يمتلك تعدد أنماط متأصل. لا تترجم من لغة الصور إلى لغة الكلمات—بل تفكر في البداية بلغة يكون فيها البكسل والحرف متساويين في الحق.
هذا يسمح للنموذج بإظهار كفاءة مخيفة في التعلم في السياق. يمكنك أن تريها مثالين عن كيفية تحرير صورة، وستفهم على الفور منطق المهمة دون أي تدريب إضافي. هذه بالضبط السحر الذي جعل GPT-3 ذات يوم حدثاً عالمياً، لكنه الآن انتشر في كل الفضاء البصري.
لا يمكن تجاهل سياق هذا الحدث. النشر في Nature هو أعلى علامة جودة في العالم العلمي، وأن تكون قد ذهبت إلى BAAI يقول الكثير. بينما ينافس عمالقة غربيون مثل OpenAI أو Google في انغلاق مختبراتهم، يبني الباحثون الصينيون بشكل منهجي الأساس النظري للجيل التالي من الذكاء الاصطناعي.
يرسم Emu2 فعلياً خطاً تحت عصر الأدوات المتخصصة. نحن نمضي في عصر محركات التنبؤ الشاملة للواقع. إذا كان كل شيء حولنا عبارة عن سلسلة من البيانات، فسيفوز من يتمتع نموذجه بأفضل توقع للعنصر التالي في تلك السلسلة، بغض النظر عن طبيعته.
بالطبع، الانتقال إلى الانحدار التلقائي البحت يتطلب موارد حسابية ضخمة. إنها لعبة لمن لديهم وصول غير محدود إلى GPU وصبر لا نهائي في ضبط المعاملات الفائقة. لكن تاريخ التكنولوجيا يعلمنا: الشمول الأنيق يهزم دائماً الحلول المتخصصة على المدى الطويل.
لقد رأينا بالفعل كيف "استهلكت" المحولات الشبكات العصبية المتكررة في اللغويات. الآن نشهد كيف تبدأ بامتصاص عالم رؤية الكمبيوتر. هذا ليس مجرد نموذج آخر، إنه بيان نقاء معماري جديد سيجبر الكثيرين على إعادة النظر في خرائط طريقهم للسنوات القادمة.
الأساس: أمّن بيجين رسمياً موقعها كرائد في النظرية الأساسية للذكاء الاصطناعي، مما يثبت أن المستقبل ينتمي للنماذج الانحدارية التلقائية الموحدة. هل هذا يعني أن شبكات الانتشار العصبية مقضية للتاريخ، أم ستجد مكانها في المهام المتخصصة جداً?
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.