MarkTechPost→ المصدر

أطلقت Alibaba مترجمًا بزمن تأخير يبلغ 2.8 ثانية عبر 60 لغة

قدّمت Alibaba نموذج Qwen3.5-LiveTranslate-Flash للترجمة المتزامنة للفيديو والصوت. يدعم 60 لغة إدخال و29 لغة إخراج بزمن تأخير يبلغ 2.8 ثانية. يستنسخ النموذج صوت

أطلقت Alibaba مترجمًا بزمن تأخير يبلغ 2.8 ثانية عبر 60 لغة
المصدر: MarkTechPost. كولاج: Hamidun News.
◐ استمع للمقال

أطلقت أليبابا Qwen3.5-LiveTranslate-Flash — نموذج للترجمة المتزامنة للكلام والفيديو في الوقت الفعلي. يترجم من 60 لغة إدخال وينتج النتائج في 29 لغة بتأخير قدره 2.8 ثانية فقط.

ما الذي يستطيع القيام به المترجم الجديد

الفرق الرئيسي عن المترجمين التقليديين — يعالج Qwen3.5-LiveTranslate-Flash الفيديو والصوت بشكل متزامن، مع مزامنة النتائج. يرى النموذج المتحدث على الشاشة ويسمع كلماته ويحولها إلى كلام باللغة المستهدفة، محافظاً على الصوت الطبيعي وجميع الانفعالات. لا يتعلق الأمر بمجرد ترجمة نصية إلى كلام.

يحلل النموذج تدفق الفيديو لمزامنة حركات شفاه الشخصية أو الصورة الرمزية المترجمة — وهذا أمر يُستخدم غالباً في دبلجة الأفلام وخدمات البث مثل Netflix. حالياً، النموذج متاح فقط كواجهة برمجية عبر Alibaba Cloud Model Studio. يتصل المطورون عبر بروتوكول WebSocket، مما يسمح بالعمل مع تدفقات البيانات في الوقت الفعلي بدون تأخر. الاستخدام التجاري يتطلب ترخيصاً مناسباً من أليبابا.

تكنولوجيا استنساخ الصوت

الابتكار الرئيسي لـ Qwen3.5 — استنساخ الصوت الديناميكي أثناء الترجمة. سيسمع النموذج اللكنة وسرعة الكلام والنبرة وحتى رنين صوت المتحدث الأصلي وسيعيد إنتاج هذه الخصائص في الترجمة. النتيجة تبدو مثل مترجم بنطق مثالي وحدس لغوي، وليس مثل روبوت بارد. كل هذا يعمل بفضل بنية متعددة الأنماط حيث تعالج الشبكة العصبية بشكل متزامن:

  • الإشارة الصوتية (النبرة والتنغيم والفواصل الزمنية والانفعالات وطاقة المتحدث)
  • تدفق الفيديو (حركات الشفاه والتعابير الوجهية والتعبير والإيماءات ولغة الجسد)
  • النص على الشاشة أو في الشرائح (لفهم أفضل للسياق والمصطلحات التقنية)
  • الكلمات الرئيسية القابلة للتخصيص (المصطلحات العلمية وأسماء العلامات التجارية والأسماء الخاصة والاختصارات)

يضمن هذا النهج أن تبقى الترجمة دقيقة وطبيعية، حتى لو كان المتحدث الأصلي يتحدث بسرعة كبيرة أو يستخدم اللغة العامية المحلية أو يسخر أو يستخدم تعبيرات متخصصة معقدة.

كيف سيتم استخدامه

في المعايير الدولية FLEURS و CoVoST2، تفوق Qwen3.5-LiveTranslate-Flash على الحلول التجارية الرئيسية من المنافسين. وقت الاستجابة البالغ 2.8 ثانية يجعله مناسباً للاستخدام المتزامن: البث المباشر والمؤتمرات العالمية ومكالمات الفيديو التجارية والعروض التقديمية للشركات. تختبر الشركات النسخ الأولى بالفعل للواجهات الصوتية والمساعدات الصوتية الذكية والدبلجة المتزامنة للمحتوى. سيتمكن منشئو الفيديو من تصدير الفيديو بترجمة تلقائية وتزامن الشفاه — حقاً، مثل في الفيلم. ستتمكن منصات البث من إطلاق محتوى في 29 لغة في غضون دقائق بدون معالجة لاحقة. هذا مثير للاهتمام بشكل خاص للتعليم والعلوم. يمكن لأستاذ أن يلقي محاضرة باللغة الروسية، والطلاب في اليابان سيسمعونها باللغة اليابانية بالنطق والنبرة الصحيحة للمتحدث.

ماذا يعني هذا للصناعة

تنتقل الترجمة المتزامنة من كبائن متخصصة إلى البرامج السحابية. في السابق، كانت الشركات بحاجة إلى مترجمين فوريين بسماعات رأس وكبائن ترجمة وأجهزة خاصة للبث الدولي. الآن يمكن لواجهة برمجية القيام بكل هذا في دقائق. هذه أداة قوية لعولمة المحتوى. يمكن لمدون من روسيا أن يتواصل مع الجمهور باللغة الصينية والإنجليزية والإسبانية، بدون لكنة وبدون توظيف مترجمين بشريين. يمكن إجراء المؤتمرات الشركاتية بالكامل مع ترجمة فورية في الوقت الفعلي بدون فواصل. وجودة النتيجة تتنافس بالفعل مع المترجمين المحترفين برواتب. تضع أليبابا هذا النموذج كأداة تجارية، لكن إمكاناته أوسع بكثير — من إمكانية الوصول إلى المحتوى للأشخاص ذوي الإعاقة إلى التبادل الثقافي بين الشعوب.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.
ما رأيك؟
جارٍ تحميل التعليقات…