MarkTechPost→ المصدر

أطلقت OpenMOSS MOSS-Audio — نموذج صوتي مفتوح يتفوق على البدائل الأكبر

أطلقت OpenMOSS MOSS-Audio — نموذج مفتوح لفهم الكلام والموسيقى والأصوات المحيطة في كومة واحدة. يتضمن الإصدار أربع نسخ بـ 4B و8B معاملات، والنموذج الرائد…

معالج بواسطة الذكاء الاصطناعي من MarkTechPost؛ بتحرير Hamidun News
أطلقت OpenMOSS MOSS-Audio — نموذج صوتي مفتوح يتفوق على البدائل الأكبر
المصدر: MarkTechPost. كولاج: Hamidun News.
◐ استمع للمقال

أطلقت OpenMOSS نموذج MOSS-Audio، وهو نموذج صوتي مفتوح يتفوق على البدائل الأكبر حجماً.

أطلقت OpenMOSS نموذج أساس صوتي جديد مفتوح المصدر يسمى MOSS-Audio. يتمتع هذا النموذج بالقدرة على حل مهام متعددة لفهم الصوت باستخدام بنية موحدة واحدة. حالياً، يتم التعامل مع معظم عمليات فهم الصوت من خلال نماذج منفصلة متخصصة في أغراض محددة: واحد للتعرف على الكلام، وآخر لتحليل العاطفة، وثالث للكشف عن الضوضاء الخلفية، وهكذا. يتبنى MOSS-Audio نهجاً مختلفاً — فهو يجمع كل هذه الإمكانيات في نموذج أساس واحد موحد.

ما الذي يمكن لـ MOSS-Audio القيام به

يتعامل MOSS-Audio مع مجموعة واسعة من مهام الصوت:

  • التعرف على الكلام — تحويل الصوت إلى نص
  • تحليل العاطفة — الكشف عن عاطفة المتحدث
  • الكشف عن الضوضاء الخلفية والأصوات — تحديد العناصر الصوتية
  • تحليل الموسيقى — فهم أسلوب الموسيقى والآلات والخصائص
  • الإجابة على الأسئلة بناءً على الطابع الزمني — الإجابة على الاستفسارات حول لحظات محددة في الصوت

معمارية النموذج

تتكون المعمارية من ثلاثة مكونات رئيسية:

1. محرر الصوت — يحول الصوت الخام إلى تمثيلات مدمجة 2. محول الطريقة — يربط بين فضاء تمثيل الصوت والنموذج اللغوي 3. النموذج اللغوي — يعالج التمثيلات المقابلة وينتج الردود

الابتكار التقني: حقن الميزات بين الطبقات DeepStack

الابتكار الرئيسي هو حقن الميزات بين الطبقات DeepStack. بدلاً من توفير تمثيلات الصوت فقط في طبقة الإدخال للنموذج اللغوي، يتم حقن الميزات الوسيطة من محرر الصوت مباشرة في الطبقات الأولى من النموذج اللغوي. يسمح هذا للنموذج بمعالجة معلومات الصوت بشكل أكثر فعالية وإنتاج ردود أكثر دقة.

التمثيل الحساس للوقت

الميزة الحرجة هي التمثيل الحساس للوقت مع رموز زمنية صريحة. الصوت بطبيعته موقوتي، ويقوم MOSS-Audio بالتقاطه من خلال:

  • استخدام رموز زمنية صريحة في التمثيل
  • الحفاظ على التعرف على الكلام مع محاذاة الوقت على مستوى الكلمات والعبارات
  • إنتاج إجابات تستند إلى الطابع الزمني مع الوعي الزمني
  • تحليل الأنماط الزمنية في الموسيقى

يتم حساب التمثيلات الزمنية بتردد 12.5 هرتز، مما يوفر معلومات زمنية دقيقة الحبيبات مع الحفاظ على الكفاءة الحسابية.

نتائج الاختبار المعياري

تُظهر تقييمات الاختبار المعياري أداءً تنافسياً:

  • التعرف على الكلام التلقائي (ASR) مع معدل خطأ الأحرف (CER) قابل للمقارنة مع النماذج المتخصصة
  • درجة محاذاة الصوت (AAS) لدقة الطابع الزمني
  • أداء قوية في مهام الكشف عن العواطف وتحليل الموسيقى

النماذج المفتوحة والموحدة

يعكس إطلاق MOSS-Audio اتجاهاً أوسع في تطوير الذكاء الاصطناعي مفتوح المصدر: الانتقال من نماذج متعددة متخصصة في أغراض محددة إلى نماذج أساس عالمية. هذا النهج أكثر كفاءة وأسهل في الصيانة وغالباً ما يوفر أداءً عاماً أفضل من النماذج المتخصصة، خاصة عندما تكون المهام مرتبطة أو تتطلب استدلالاً بين المهام.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…