AvatarBox على HeyGen يحوّل الصور إلى فيديوهات ناطقة مباشرة داخل Telegram خلال دقيقتين
ظهر AvatarBox في Telegram، وهو بوت يعتمد على HeyGen API ويُنشئ فيديوهات talking-head من صورة واحدة ونص خلال 1–3 دقائق. يحمّل المستخدم صورة بورتريه، ويختار…
معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
يتوفر الآن في تطبيق تيليجرام AvatarBox — وهو برنامج بوت يعتمد على واجهة برمجية لـ HeyGen يحول صورة واحدة ونصًا قصيرًا إلى مقطع فيديو يتضمن شخصية رمزية ناطقة. يقوم المستخدمون بتحميل صورة شخصية واختيار صوت وتنسيق الإطار، ويصل الفيديو النهائي إلى الدردشة في حوالي 1-3 دقائق.
كيفية عمل AvatarBox
يعمل الخدمة كغلاف بسيط حول واجهة برمجية HeyGen: لا يقوم المستخدمون بإدخال حساب منفصل، ولا يجمعون المشاهد في محرر فيديو، ولا يقومون بتكوين المونتاج يدويًا. يتم تقليل كل المنطق إلى سيناريو بوت تيليجرام المألوف. أولاً، تقوم بإرسال صورة شخصية عالية الجودة، ثم تدرج النص الذي يجب على الشخصية الرمزية نطقه، وأخيرًا تختار صوتًا. يرسل البوت بعد ذلك مقطع فيديو talking-head منتهيًا حيث يتم مزامنة الوجه مع الكلام وتبدو تعابير الوجه طبيعية بما يكفي لمحتوى الشكل القصير.
تقدم الخدمة على الفور عدة خيارات عملية تجعلها ليست مجرد عرض توضيحي، بل أداة عمل فعلية لمقاطع الفيديو السريعة:
- أكثر من 2000 صوت باللغة الروسية والإنجليزية ومئات اللغات الأخرى
- ثلاثة تنسيقات للإطار: 9:16 و 1:1 و 16:9
- ضبط العاطفة والتعبيرية الكلامية
- الترجمات التلقائية في مقطع الفيديو النهائي
- الفيديو الأول مجاني وبدون ربط بطاقة
المرحلة الأكثر أهمية هنا هي إعداد المواد المصدرية. تعمل الصور الأمامية برؤية مباشرة للعين مع الكاميرا والخلفية المحايدة والإضاءة الجيدة بشكل أفضل. تنتج الصور الجماعية والملفات الشخصية والإطارات الداكنة والنظارات الشمسية والوجوه الضبابية نتائج سيئة. بالنسبة للنص، يوصي المؤلف البقاء في نطاق حوالي 80-150 كلمة: هذا كافٍ لـ 30-60 ثانية من الكلام. بعد ذلك، تختار صوتًا مناسبًا وتستمع إلى المعاينة وتنقر على الإنشاء. يعالج البوت الطلب ويعيد الفيديو بدون تسجيل على منصات خارجية.
حالات الاستخدام العملية
تم تصميم AvatarBox كأداة للمدونين، لكن في الممارسة العملية اتضح أن هناك المزيد من السيناريوهات. يعمل هذا التنسيق بشكل جيد لبطاقات العمل المرئية، عندما تحتاج إلى تقديم نفسك بسرعة لمتخصص توظيف أو عميل دون تصوير على الكاميرا. ينطبق الشيء نفسه على العروض التقديمية القصيرة والعروض التوضيحية والتدريب: بدلاً من مجموعة من الشرائح مع الرواية الصوتية، يمكنك إنشاء فيديو حيث يتحدث أفاتار عن النقاط الرئيسية ويحتفظ بالانتباه بشكل أفضل من النص العادي على الشاشة.
"اعتقدت أن الجمهور الرئيسي سيكون المدونين. اتضح أنه ليس كذلك."
فئة منفصلة من المهام تتضمن محتوى بدون ظهور شخصي على الشاشة. هذا مفيد لمن لا يريد أن يظهر وجهه ولكنه يريد إصدار مقاطع فيديو بانتظام لـ Telegram أو Shorts أو قنوات الشركات الداخلية. سيناريو آخر هو مقاطع الفيديو التعليمية حيث تحتاج إلى إنتاج شروحات متطابقة بسرعة بدون استوديو أو ميكروفون. هناك أيضًا حالات استخدام أخف: التحيات والميمات ومقاطع الفيديو الشخصية باستخدام صور الأصدقاء. غالبًا ما تصبح هذه التنسيقات الأكثر انتشارًا لأن الشخصنة أهم من جودة الإنتاج.
حيث توجد الحدود
المشكلة الرئيسية مع هذه الخدمات هي أنها تعمل بشكل جيد فقط في نطاق ضيق من المهام. مقاطع الفيديو الطويلة تكشف بسرعة عن أصلها الاصطناعي: بعد دقيقة، يبدأ الكلام والتعابير الوجهية تبدو رتيبة. العواطف المعقدة مثل المفاجأة الزاهية أو البكاء أو الغضب لا تزال تبدو غير مقنعة. اليدان والإيماءات أيضًا لا تنبض بالحياة لأن الرسوم المتحركة تُبنى حول الوجه وليس الجسم كله. إذا أظهرت الصورة الأصلية راحتي يدين أو وضعية نشطة، فمن المرجح أن تضر بدلاً من تحسين النتيجة.
هناك أيضًا قيود تقنية فيما يتعلق باستقرار الشخصية. قد تختلف كل جيل قليلاً عن السابق، لذا بالنسبة لسلسلة من مقاطع الفيديو من الأفضل استخدام نفس الصورة وعدم توقع التناسق المثالي. الغناء والعبارات الموسيقية صعبة أيضًا على الخدمة: المزامنة الشفاه معدّة للكلام العادي وليس الغناء. إذا كنت بحاجة إلى مضيف افتراضي خاص بك، فالنهج المنطقي هو توليد صورة شخصية واقعية أولاً في أي مولد صور، ثم استخدام هذا الإطار كأساس دائم لمقاطع الفيديو.
ما يعنيه هذا
تستمر حاجز الدخول لمقاطع الفيديو talking-head في الانخفاض. في السابق، كان هذا التنسيق يتطلب كاميرا وإضاءة وميكروفون ووقت تسجيل، لكن الآن كل ما تحتاجه هو صورة ونص وقليل من دقائق الانتظار في Telegram. بالنسبة لمنشئي المحتوى والتوظيف والتدريب الداخلي والعروض التقديمية السريعة، فهي أداة عمل بالفعل. ومع ذلك، فهو لا يحل محل الفيديو المباشر حتى الآن: فمتى ما احتاج السيناريو إلى خطاب طويل أو تعابير وجهية معقدة أو حركة جسدية، تصبح القيود واضحة جدًا.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.