MarkTechPost→ المصدر

تطلق Tencent Covo-Audio — نموذج 7B للحوارات الصوتية والتفكير الصوتي

أطلقت Tencent AI Lab كود مفتوح المصدر Covo-Audio — نموذج لغة صوتية كبير 7B لحوارات صوتية في الوقت الفعلي. يقبل النموذج تدفقات صوتية مستمرة ويعيد استجابات…

معالج بواسطة الذكاء الاصطناعي من MarkTechPost؛ بتحرير Hamidun News
تطلق Tencent Covo-Audio — نموذج 7B للحوارات الصوتية والتفكير الصوتي
المصدر: MarkTechPost. كولاج: Hamidun News.
◐ استمع للمقال

فتح فريق Tencent AI Lab كود Covo-Audio — نموذج لغة صوتية ضخم بـ 7 مليارات معامل مصمم للحوارات الصوتية في الوقت الفعلي. يجمع التطوير بين معالجة الكلام وفهم اللغة في معمارية end-to-end موحدة: يقبل النظام تدفقات صوتية مستمرة ويعيد الإجابات أيضًا بصيغة صوتية.

ما أطلقته Tencent

النقطة الأساسية في إطلاق Covo-Audio ليست مجرد نموذج جديد بسبعة مليارات معامل، بل محاولة لتوحيد الذكاء الصوتي في حلقة واحدة. بدلاً من السلسلة المألوفة للتعرف على الكلام ومعالجة النص وتركيب الكلام، تقترح Tencent منهجًا end-to-end حيث تتم معالجة الصوت المستمر ضمن نظام موحد. هذا التنسيق ضروري للحوارات الأكثر طبيعية: تحويلات وسيطة أقل وتأخيرات أقل ونقاط أقل حيث يتم فقدان النبرة والفترات الزمنية وسياق الكلام الحي.

بالإضافة إلى النموذج، فتح فريق Tencent AI Lab أيضًا كود خط أنابيب الاستدلال للسيناريوهات في الوقت الفعلي. هذا جزء مهم من الإطلاق، لأن أوزان النموذج وحدها نادرًا ما توفر مسارًا سريعًا للإنتاج. التركيز هنا محددًا على الاستخدام العملي: مساعدون صوتيون وواجهات حوارية ودعم العملاء والخدمات الأخرى حيث لا تقتصر الأهمية على دقة الإجابة بل أيضًا على سرعة الاستجابة. بالنسبة لنظام المصدر المفتوح، هذا أكثر فائدة من نشر عرض بحثي فقط.

كيف يعمل المنهج

في وصف Covo-Audio، تصف Tencent أربعة مكونات معمارية رئيسية ضرورية للتفاعل السلس بين منطق الصوت واللغة. الفكرة هي أن النموذج لا يقتصر على تحويل الصوت إلى نص، بل يعمل مع إشارة الكلام كحامل كامل المعنى. هذا مهم للمهام حيث يتم نقل المعنى ليس فقط من خلال الكلمات، بل أيضًا من خلال الإيقاع والفترات الزمنية والتشديد أو البنية العامة للحوار.

بشكل أساسي، ينتقل Covo-Audio نحو صيغة حيث يصبح تحليل الكلام والاستدلال وتوليد الإجابة أجزاءً من عملية واحدة. هذا لا يضمن تفوقًا تلقائيًا على الخط الكلاسيكي، لكنه يغير المقايضة الهندسية. لا تحتاج الفرق إلى لصق وحدات ASR و LLM و TTS المنفصلة بقوة، مما يعني أنها يمكن أن تجرب بسرعة أكبر مع منتجات صوتية جديدة وتختبر مدى جودة أداء نموذج صوتي موحد في حوار حقيقي.

  • 7 مليارات معامل في نموذج واحد
  • معالجة end-to-end للإدخال والإخراج الصوتي
  • التعامل مع الكلام المستمر وليس فقط الأجزاء المنفصلة
  • التركيز على الحوارات في الوقت الفعلي ومهام الاستدلال
  • نشر النموذج وأيضًا خط أنابيب الاستدلال

حيث يكمن القيمة العملية

بالنسبة لمطوري الواجهات الصوتية، الإطلاق مثير للاهتمام لعدة أسباب. أولاً، يمكن دراسة نموذج مصدر مفتوح من هذه الفئة وضبطه وتضمينه في خطوط أنابيب مخصصة دون انتظار واجهة برمجية مغلقة. ثانيًا، يتحرك السوق بوضوح نحو أنظمة يمكنها التحدث مباشرة، بدون طبقة نصية إضافية بين المستخدم والإجابة. هذا مهم بشكل خاص حيث يكون التأخير مسموعًا حرفيًا: في المساعدين والروبوتات الصوتية والمترجمين وخدمات الدعم.

تستحق القدرة على الاستدلال ذكرًا خاصًا. العديد من الأنظمة الصوتية بالفعل تتعرف على الكلام وتركب الصوت بشكل جيد، لكن الحال أصعب عندما يتعلق الأمر بالحفاظ على السياق والرد الذكي في محادثة حية. إذا كان Covo-Audio يجمع فعلاً بين إدراك الصوت والاستدلال اللغوي في معمارية موحدة، فهذا يجعله ملحوظًا ليس فقط كإطلاق بحثي بل أيضًا كمرجع للجيل القادم من أنظمة الذكاء الاصطناعي الحوارية. حتى بدون ادعاءات التكامل الشامل الفوري، اتجاه التطوير واضح هنا.

ماذا يعني هذا

تبين Tencent أن المنافسة في الذكاء الاصطناعي الصوتي تتحول من سلاسل بسيطة من "التعرف على النص — توليد النص — النطق" إلى نماذج صوتية أصلية تستمع وترد في تدفق واحد. بالنسبة للفرق التي تبني وكلاء صوتيين، هذا إشارة للنظر ليس فقط في جودة التعرف، بل أيضًا في التأخير وطبيعة الحوار وقدرة النموذج على الاستدلال مباشرة داخل القناة الصوتية.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…