أظهر STM32N6 من STMicroelectronics إمكانية التعرف على الكلام محليًا من دون سحابة عند 0.2 واط
تمكن المتحكم الدقيق STM32N6 المزود بوحدة NPU مدمجة من التعرف على كلام غير مقيّد مباشرة على الجهاز، من دون سحابة وباستهلاك يبلغ نحو 0.215 واط. وحتى الآن،…
معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
تدخل المتحكمات الدقيقة ذات وحدة معالجة الأعداد العصبية المدمجة إلى أراضٍ كانت تابعة سابقاً بالكامل تقريباً لخدمات التعرف على الكلام السحابية. أظهرت تجربة على STM32N6 أنه يمكن بالفعل تشغيل التعرف المحلي على الكلام العشوائي مباشرة على الجهاز — بدون إنترنت، وفي الوقت الفعلي تقريباً، واستهلاك طاقة حوالي 0.215 واط.
كيف يعمل النظام
نظم مؤلف المشروع التعرف على الكلام في ثلاث كتل: نموذج صوتي، ومفكك، وإعادة تسجيل. الجزء الأثقل هو الصوتيات: فهو يستقبل إشارة صوتية خام من الميكروفون ويحولها إلى سلسلة من الفونيمات. يجب على المفكك تجميع الكلمات من هذه الفونيمات، وكتلة إعادة التسجيل يجب أن تتحقق من النتيجة مع الأخذ في الاعتبار السياق.
في المرحلة الحالية، النموذج الصوتي يعمل بالفعل على STM32N6 — أي أنه الأساس الأساسي لكل النظام. من الناحية العملية، يبدو الأمر كهذا: الجهاز يستمع إلى الكلام في الوقت الفعلي، ويمرره عبر وحدة معالجة الأعداد العصبية، وينتج سلسلة من الفونيمات. في العرض التوضيحي أعلاه، تُعرض الكلمات والأرقام، بينما أسفلها الفونيمات "الخام" المتنبأ بها من قبل النموذج.
في الوقت الحالي، يتم تحويل الفونيمات إلى كلمات من خلال مطابقة صارمة بدلاً من مفكك لغة كامل. لهذا السبب، النظام لا يزال محدوداً، لكن الحقيقة البسيطة بأن النموذج الصوتي يعمل محلياً على متحكم دقيق أكثر أهمية من "الغلاف" الحالي حوله.
الأرقام والقيود
أقوى النتائج هي استهلاك الطاقة. أثناء التعرف على الكلام النشط، يستهلك النظام بأكمله حوالي 215 ميلي واط. من هذا، يذهب حوالي 160 ميلي واط إلى وحدة معالجة الأعداد العصبية ونواة Cortex-M55، و45 ميلي واط إضافياً إلى ذاكرة Flash و PSRAM الخارجية، حوالي 10 ميلي واط إلى الدبابيس الخارجية.
علاوة على ذلك، هذا ليس وضعاً بعد التحسين: النواة لا تزال تعمل بدون سكون عدواني، ووحدة معالجة الأعداد العصبية محملة فقط بنسبة 10.4%، لذا لا يزال هناك متسع لمزيد من تقليل الطاقة. من حيث الجودة، الصورة تبدو جادة أيضاً لهذا الفئة من الأجهزة.
يحتوي النموذج على 8.5 مليون معامل، وبعد التكمية إلى int8 لم تفقد تقريباً أي دقة، وأظهرت معدل خطأ الفونيم بنسبة 5.3% على dev_clean و14.
4% على dev_other على الجهاز المستهدف. كان وقت الاستدلال على وحدة معالجة الأعداد العصبية 52 ميلي ثانية لـ 500 ميلي ثانية من الصوت، والكمون الكامل كان 985 ميلي ثانية. يرتبط ما يقرب من نصف هذا التأخير ليس بالأجهزة، بل بـ "نافذة المستقبل" التي يستخدمها النموذج للتنبؤ الأكثر دقة بالفونيمات.
- حجم النموذج الصوتي — 8.5 مليون معامل
- استهلاك الطاقة أثناء التعرف — حوالي 0.215 واط
- وقت استدلال وحدة معالجة الأعداد العصبية — 52 ميلي ثانية لـ 500 ميلي ثانية من الصوت
- فقدان الجودة بعد التكمية إلى int8 — أقل من 0.5%
- استخدام الذاكرة — 18%، حمل وحدة معالجة الأعداد العصبية — 10.4%
من الجدير بالملاحظة مقارنة مع الأنظمة الأكبر. من حيث معدل خطأ الفونيم، تبين أن هذا النموذج قابل للمقارنة مع wav2vec 2.0 Base و HuBERT Base، على الرغم من أن تلك أكبر بحوالي 11 مرة وليست مصممة للعمل على المتحكمات الدقيقة. في الوقت نفسه، يصف المؤلف بصراحة حدود المشروع: هذا ليس حتى الآن بديلاً لالتقاط النصوص الكاملة، بل هو بالأحرى محرك محلي للأوامر والعبارات القصيرة حيث الاستقلالية وكفاءة الطاقة حاسمة.
حيث ستفوز المتحكمات الدقيقة
نقاط القوة في هذا النهج لا تتعلق بالعمومية بأي ثمن، بل بسد الفجوة بين كشف الكلمات الرئيسية البسيط والتعرف على الكلام السحابي الثقيل. واجهات الصوت المحلية العادية تتطلب مطابقة دقيقة للأوامر، لكن هنا يمكن للجهاز بالفعل تفسير صيغ مختلفة لنفس الطلب. بدلاً من عبارة واحدة صارمة، يمكن للمستخدم أن يقول "اجعله أدفأ" أو "أضف حوالي خمس درجات" أو "رفع درجة الحرارة" — والنظام سيفهم إجراءً واحداً.
هذا يفتح سيناريوهات عملية تماماً: المنازل الذكية بدون إرسال الصوت إلى الخارج، إدخال الأصوات للأرقام والمعاملات في منشآت التصنيع، العمل في المستودعات والأجهزة الطبية والنقل، حيث تكون الشبكة غير مستقرة أو غير موجودة على الإطلاق. فائدة أخرى هي مجال للنمو. حالياً، STM32N6 يستخدم فقط 18% من الذاكرة، ووحدة معالجة الأعداد العصبية مستخدمة في حوالي عُشر من قدرتها.
الخطوات التالية واضحة: إضافة مفكك فونيم، وموديل لغوي، وقمع الضوضاء. يجب أن تحول نموذجاً تقنياً مقنعاً إلى واجهة مستخدم حقيقية مفيدة.
ماذا يعني هذا
STM32N6 لا يلغي التعرف على الكلام السحابي، لكنه يظهر أن بعض المهام يمكن نقلها بثقة بالفعل إلى الحافة. حيث تكون الاستقلالية والخصوصية والتكلفة واستهلاك الطاقة المنخفض مهمة، تبدأ المتحكمات الدقيقة ذات وحدة معالجة الأعداد العصبية بدلاً من أن تبدو كتجربة، بل كفئة عملية جديدة من واجهات الصوت.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.