KDnuggets→ المصدر

التحول متعدد الأنماط: كيف توقف الذكاء الاصطناعي عن أن يكون أعمى لماذا يهمنا

منذ بضع سنوات فقط، كنا ننبهر بحقيقة أن الشبكات العصبية يمكنها أن تصيغ رسالة مكتوبة بشكل جيد أو تكتب رموزاً برمجية. في ذلك الوقت، كانت الذكاء الاصطناعي تذكرنا…

معالج بواسطة الذكاء الاصطناعي من KDnuggets؛ بتحرير Hamidun News
التحول متعدد الأنماط: كيف توقف الذكاء الاصطناعي عن أن يكون أعمى لماذا يهمنا
المصدر: KDnuggets. كولاج: Hamidun News.
◐ استمع للمقال

منذ بضع سنوات فقط، كنا ننبهر بحقيقة أن الشبكات العصبية يمكنها أن تصيغ رسالة مكتوبة بشكل جيد أو تكتب رموزاً برمجية. في ذلك الوقت، كانت الذكاء الاصطناعي تذكرنا بناسك عبقري في غرفة مظلمة كان يتعلم عن العالم الخارجي حصراً من خلال ملاحظات تمرر تحت الباب. اليوم، هذه الاستعارة لم تعد تعمل. تم انتزاع الباب من مفصلاته، واستحوذ الناسك على عيون وآذان. أصبحت تعددية الأنماط المعيار الجديد للصناعة، وهذا أكثر خطورة بكثير من مجرد القدرة على طلب من برنامج أن يصف صورة لقطتك.

لفهم نطاق هذه التغييرات، نحتاج إلى استرجاع كيفية عمل كل شيء في السابق. استخدمت الأنظمة القديمة نهجاً متتالياً: نموذج واحد يحول الكلام إلى نص، والثاني يحلل هذا النص، والثالث يولد رداً. في كل مرحلة، كانت الفروق الدقيقة تضيع: النبرة، السخرية، الضوضاء الخلفية. تعمل الهياكل المعمارية الحديثة التي نراها في أحدث إصدارات من OpenAI و Google بشكل مختلف. فهي متعددة الأنماط بشكل أصلي. هذا يعني أنه بالنسبة للنموذج، لا فرق بين رمز نصي وجزء صورة. فهو يتعلم من مجموعة البيانات بأكملها في نفس الوقت، مما يؤسس روابط بين الصور البصرية والكلمات على مستوى أساسي.

لماذا يهم هذا للشركات والمستخدمين العاديين؟ أولاً، السرعة والسياق. عندما يحلل نموذج مباشرة تدفق الفيديو، يمكنه الاستجابة فوراً للتغييرات في الإطار، وهو أمر حاسم لأنظمة الأمان أو المركبات المستقلة. ثانياً، الدقة. في الطب، يمكن للذكاء الاصطناعي الآن ربط البيانات من السجلات الطبية مع صور الرنين المغناطيسي الحقيقية دون الاعتماد على الوصفات النصية للأطباء الأشعويين، التي قد تكون ذاتية. نحن ننتقل من أدوات تعرف عن الأشياء إلى أنظمة تفهم الأشياء.

يحل هذا التحول أيضاً مشكلة اختناق البيانات. الإنترنت النصي استُنزف عملياً — لقد قرأ الذكاء الاصطناعي بالفعل كل ما كتبته البشرية تقريباً. لكن عالم الفيديو والصوت وبيانات الحساسات أكبر بآلاف المرات. بتدريب النماذج على منصات الفيديو وأرشيفات الصور، تحصل الشركات على إمكانية الوصول إلى طبقات من المعرفة لم تُسجل أبداً في الكتب. على سبيل المثال، كيف تتحرك يد الحرفي بالضبط عند العمل مع الخشب، أو كيف تتغير تعابير وجه الشخص مع عواطف معينة. هذا هو الطريق المباشر لإنشاء روبوتات ذكية حقاً.

بالطبع، لهذه العملة جانب آخر. تتطلب النماذج متعددة الأنماط طاقة حسابية هائلة. معالجة ساعة واحدة من الفيديو في نافذة السياق مهمة بدت مستحيلة قبل وقت قريب. ومع ذلك، تظهر سباق التسلح في الأجهزة وتحسين الخوارزميات أن هذه الحواجز تنهار أسرع مما كان متوقعاً. نحن ندخل عصراً حيث ستصبح التفاعل مع أجهزة الكمبيوتر طبيعياً للغاية: تبين للحاسوب مشكلة فحسب، وسيحلها.

الأساس: لم يعد النص هو الواجهة الرئيسية للتواصل مع الذكاء الاصطناعي، بل أصبح أحد قنوات عديدة. هل نحن مستعدون لأن تفهم الخوارزميات إشارتنا غير اللفظية بشكل أفضل مما نفهمه بأنفسنا؟

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…