Jiqizhixin (机器之心)→ المصدر

SoulX-FlashTalk: تجعل منصة Soul App الصينية الأفاتار الرقمية تتحدث بدون تأخير

هل تتذكر تلك الأيام عندما كانت الصور الرمزية الرقمية تشبه الأفلام المدبلجة بشكل سيء من الثمانينات؟ كانت الشفاه لها حياتها الخاصة وتأخرت التعبيرات الوجهية…

معالج بواسطة الذكاء الاصطناعي من Jiqizhixin (机器之心)؛ بتحرير Hamidun News
SoulX-FlashTalk: تجعل منصة Soul App الصينية الأفاتار الرقمية تتحدث بدون تأخير
المصدر: Jiqizhixin (机器之心). كولاج: Hamidun News.
◐ استمع للمقال

هل تتذكر تلك الأيام عندما كانت الصور الرمزية الرقمية تشبه الأفلام المدبلجة بشكل سيء من الثمانينات؟ كانت الشفاه لها حياتها الخاصة وتأخرت التعبيرات الوجهية بثانية جيدة. قررت منصة Soul App الصينية أن الوقت قد حان لإنهاء ذلك وأطلقت SoulX-FlashTalk للوصول المفتوح. هذا نموذج لتوليد أشخاص رقميين في الوقت الفعلي يعد بمحو الحدود بين مكالمة فيديو مع صديق والتفاعل مع شبكة عصبية. في عالم أصبحت فيه الأكوان الافتراضية كلمة شتيمة، تستمر Soul App في دفع خط "الكون الافتراضي الاجتماعي" وتفعل ذلك بتعقيد تقني مفاجئ.

كان جوهر المشكلة دائماً هو التعقيد الحسابي. لجعل صورة أو نموذج ثلاثي الأبعاد يعبر بشكل واقعي عن تدفق صوتي وارد، كان يتطلب إما مزارع GPU ضخمة أو الاستسلام لتأخيرات ضخمة. يغير SoulX-FlashTalk قواعد اللعبة. طبق المطورون معمارية متسلسلة تقسم العملية إلى مراحل سريعة: تحليل الصوت والتنبؤ بنقاط الوجه الرئيسية والعرض النهائي للإطار. نتيجة لذلك، نحصل على فيديو سلس حيث يبدو تزامن الشفاه طبيعياً حتى مع الكلام السريع أو العاطفي. هذا ليس مجرد "رأس متحدث"، إنه أداة لإنشاء شريك محادثة حي لا يثير وادي الغرابة.

لماذا يحدث هذا الآن؟ سوق الصور الرمزية الذكية الصينية محموم، لكن معظم الحلول تبقى منتجات ملكية مغلقة من شركات كبرى مثل Tencent أو Baidu. بإطلاق SoulX-FlashTalk كمصدر مفتوح، تقوم Soul App بخطوة كلاسيكية: إذا كنت لا تستطيع هزيمة العمالقة بالميزانيات، فاهزمهم بالمجتمع. الآن يمكن لأي شركة ناشئة أن تأخذ هذا الأساس وتبني محترفها الافتراضي الخاص بها أو مساعدتها دون قضاء سنوات في البحث والتطوير. هذا تحدٍ مباشر للنظام القائم حيث كانت الأشخاص الرقميون ذوو الجودة لعبة للشركات الثرية.

تكمن الأناقة التقنية للنموذج في خفتها. تؤكد Soul App أن SoulX-FlashTalk مُحسّن للعمل في ظروف التفاعل الشبكي الحقيقية. هذا بالغ الأهمية لتطبيقهم الخاص، حيث يتواصل ملايين المستخدمين من خلال شخصيات افتراضية. إذا توقف الصورة الرمزية عن العمل، تختفي سحر التواصل. لذلك، لا يتم التركيز على الفوتوريالية على مستوى أفلام هوليوود الضخمة، بل على الاستجابة والدقة العاطفية. يعرف النموذج كيفية التقاط التنغيمات وعكسها في التعبيرات الوجهية، مما يجعل الحوار أكثر إنسانية بكثير.

بالنسبة للصناعة، هذا إشارة مهمة. نرى كيف ينقل تركيز التطوير من نماذج اللغة الضخمة إلى نماذج متخصصة من التفاعل. بعد كل شيء، ما فائدة نموذج GPT-5 ذكي إذا كان يتواصل معك من خلال حقل نص أو رسوم متحركة متقطعة؟ مستقبل الواجهات هو الصوت والوجه. وبينما يشغل الغرب نفسه بفيديو فائق الواقعية حسب الطلب، مُصيّر لدقائق، يستولي الشرق على فئة "هنا والآن". تضع Soul App فعلياً المعيار لكيف يجب أن تبدو واجهات اجتماعية المستقبل وتبدو.

النقطة الرئيسية: يحول SoulX-FlashTalk إنشاء أشخاص رقميين من مهمة هندسية معقدة إلى وظيفة يسهل الوصول إليها. هل يمكن لهذه الأداة أن تنقذ مفهوم الأكوان الافتراضية من الإغفال؟

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…