MarkTechPost→ المصدر

أطلقت Google ‏WAXAL، مجموعة بيانات كلامية مفتوحة للغات الأفريقية

أتاحت Google ‏WAXAL، وهي مجموعة بيانات كلامية للغات الأفريقية يُفترض أن تسرّع تطوير التعرف على الكلام وتوليده في البيئات منخفضة الموارد. ولأغراض التعرف،…

معالج بواسطة الذكاء الاصطناعي من MarkTechPost؛ بتحرير Hamidun News
أطلقت Google ‏WAXAL، مجموعة بيانات كلامية مفتوحة للغات الأفريقية
المصدر: MarkTechPost. كولاج: Hamidun News.
◐ استمع للمقال

افتتحت Google مشروع WAXAL — مدونة صوتية كبيرة للغات الأفريقية، تم إنشاؤها كأساس لأنظمة التعرّف على الكلام وتوليد الصوت. يستهدف المشروع سوقاً تتطور فيه تقنيات الصوت بشكل بطيء ملحوظ بسبب نقص مزمن في البيانات المفتوحة عالية الجودة.

لماذا هذا مهم؟

لم تعد المشكلة الرئيسية في الذكاء الاصطناعي الصوتي في النماذج نفسها، بل في توزيع البيانات. بالنسبة للغة الإنجليزية والإسبانية والصينية، توجد مدونات ضخمة مفتوحة وتجارية، لذا تتطور أنظمة التعرّف على الكلام وتوليد الصوت بسرعة هناك. بالنسبة للعديد من الغات الأفريقية، الوضع معاكس: كلام معروّف قليل، تسجيلات عالية الجودة قليلة، رخص مفتوحة قليلة. لهذا السبب، الأشخاص الذين يتحدثون لغات يتحدثها ملايين الأشخاص يحصلون على أسوأ جودة في الإملاء والترجمة الآلية ومساعدي الصوت والتصويت للواجهات. يحاول WAXAL سد هذه الفجوة البنية التحتية بالذات.

من الملفت للنظر أن المشروع يبدو حياً بالفعل، وليس أرشيفاً ثابتاً. في الوصف التقني، يذكر الفريق 24 لغة ومجموعة بداية لمهام التعرّف على الكلام وتوليد الصوت. في مدونة إطلاق Google الصادرة في 6 مارس 2026، توجد بالفعل عملية تسليم بداية موسعة: 27 لغة، وأكثر من 1846 ساعة من البيانات للتعرّف على الكلام وأكثر من 565 ساعة للتوليد. أي أن Google لم تُطلق مجرد مجموعة بيانات، بل يبدو أنها تبني أساساً مفتوحاً طويل الأجل للغات التي تقع عادة خارج منصات الذكاء الاصطناعي الرئيسية.

كيفية عمل WAXAL

تم تقسيم WAXAL إلى جزأين مستقلين لأن التعرّف على الكلام وتوليد الصوت لهما متطلبات بيانات مختلفة. يحتاج الأول إلى متحدثين متنوعين وبيئة طبيعية وكلام عفوي بحيث يعمل النموذج بشكل أفضل في الظروف الحقيقية. يحتاج الثاني إلى صوت أنظف ونصوص متوازنة صوتياً وتسجيل محكوم السيطرة، وإلا يصعب الحصول على صوت طبيعي ومستقر. بهذا المعنى، لا يبدو WAXAL وكأنه "مجلد صوت" عام، بل كمجموعة بيانات مدروسة لنوعين مختلفين من المهام.

  • في جزء التعرّف على الكلام، طُلب من المشاركين وصف الصور بلغتهم الأم بدلاً من قراءة السيناريوهات المعدة مسبقاً.
  • تشير Google إلى أن مثل هذه الرسائل غطت أكثر من 50 موضوع واستخرجت بشكل أفضل الكلام الطبيعي، بما في ذلك الفروق اللحنية والتبديل بين اللغات.
  • في جزء التوليد، تم استخدام نصوص متوازنة صوتياً وظروف تسجيل أكثر محكوم السيطرة.
  • تم إطلاق مجموعة البيانات بموجب الترخيص المفتوح CC-BY-4.0 بحيث يمكن استخدامها في الأبحاث والمنتجات التطبيقية.

من جمع البيانات

جزء رئيسي من المشروع — ليس فقط الحجم، بل طريقة الجمع. لم تعمل Google وحدها، بل عملت مع الجامعات الأفريقية والمنظمات المحلية، بما في ذلك Makerere University و University of Ghana و Digital Umuganda و African Institute for Mathematical Sciences Senegal و Media Trust و Loud and Clear Communications. هذا التنسيق مهم لأن الفرق المحلية تفهم بشكل أفضل عادات الكلام والتبديل بين اللغات والأشكال الإقليمية للنطق والسياقات التي يتحدث فيها الناس بالفعل، وليس قراءة النصوص في صمت المختبر.

"تم إنشاء المدونة من قبل المجتمع وللمجتمع الذي يحتاج إليها."

تفاصيل الإنتاج مثيرة للاهتمام أيضاً. لجزء TTS، قام المشاركون بتحضير نصوص تتراوح من 10 إلى 20 ألف كلمة وعملوا في أزواج: قرأ أحدهما والآخر سجّل وتحقق من الجودة. للحصول على صوت أنظف، حتى أن بعض الفرق بنت صناديقها الاستوديوية الخاصة. تؤكد Google بشكل خاص على أن WAXAL يجب أن يساعد ليس فقط المقاييس الأكاديمية، بل السيناريوهات الحقيقية: الواجهات الصوتية المحلية، والإملاء الآلي، والنسخ التلقائي، وتصويت الخدمات والأنظمة الحوارية التي يجب أن تفهم الكلام الطبيعي، وليس فقط النص المقروء بشكل مثالي.

وفي الوقت نفسه، يكبر بالفعل نظام بيئي تطبيقي وبحثي حول المدونة. تذكر Google أعمالاً لجمع البيانات للأشخاص الذين يعانون من اضطرابات الكلام، ومدونة كبيرة منفصلة لخمس لغات غانية، ومقاييس لنماذج مثل Whisper و XLS-R و MMS و W2v-BERT على اللغات الأفريقية. هذا إشارة جيدة: WAXAL مفيد ليس فقط كأرشيف، بل كنقطة مرجعية مشتركة يمكن فيها مقارنة النماذج والعثور على نقاط الضعف وإحضار منتجات الصوت إلى الجودة الوظيفية بشكل أسرع.

ماذا يعني هذا؟

يخفض WAXAL حاجز الدخول للشركات الناشئة والباحثين والفرق المحلية التي تريد بناء ذكاء اصطناعي صوتي ليس فقط للغات العالمية. إذا استمرت هذه المدونات المفتوحة في النمو والتحديث بانتظام، ستحصل اللغات الأفريقية على فرصة للحاق بسرعة أكبر ببقية السوق في جودة الاستعراف والتوليد وإمكانية الوصول إلى الخدمات الرقمية.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…