Habr AI→ المصدر

حصلت Repka-Pi 4 على تحويل محلي للنص إلى كلام باستخدام Piper وFastAPI من دون GPU وبدء تلقائي

جرى إعداد مركّب كلام محلي لـ Repka-Pi 4 بالاعتماد على Piper وFastAPI. يعمل النظام من دون GPU، ويستقبل طلبات HTTP من عملاء خارجيين، ويضع العبارات في قائمة…

معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
حصلت Repka-Pi 4 على تحويل محلي للنص إلى كلام باستخدام Piper وFastAPI من دون GPU وبدء تلقائي
المصدر: Habr AI. كولاج: Hamidun News.
◐ استمع للمقال

أظهرت Repka-Pi 4 سيناريو عملي لتركيب النطق المحلي باستخدام محرك الشبكة العصبية Piper. حتى على كمبيوتر لوحة واحدة بذاكرة 2 جيجابايت وبدون GPU، يمكن للوحة تركيب النص عبر HTTP والتشغيل التلقائي عند بدء النظام وخدمة الأجهزة الخارجية.

لماذا هذا مثير للاهتمام

القصة هنا لا تدور حول واجهة برمجة تطبيقات سحابية أخرى، بل حول نقل TTS مباشرة إلى جهاز كمبيوتر محلي صغير. يوضح المؤلف أن كمبيوتر اللوحة الواحدة الحديث يمكنه بالفعل التعامل ليس فقط مع البرامج النصية البسيطة، بل أيضاً مع تركيب النطق باللغة الروسية بجودة مقبولة. بالنسبة للسيناريوهات حيث تكون الخصوصية والاستقلالية والعمل بدون إنترنت مهمة، فهذا حرج: يمكن لأجهزة المنزل الذكي وأكشاك الصوت والألعاب والمساعدات المحلية ومنصات الاختبار التعليمية أن تتحدث بنفسها، دون إرسال النص إلى خدمات خارجية.

من المهم بشكل خاص مقارنة نهجين. eSpeak NG الخفيف يتطلب موارد قليلة جداً ويبدأ على الفور، لكنه يبدو ميكانيكياً جداً. Piper، من ناحية أخرى، يستخدم نموذج شبكة عصبية بصيغة ONNX ويوفر صوتاً أكثر طبيعية حتى بدون مسرع رسومات. هذا يجعل Repka-Pi 4 ليست مجرد لوحة للتجارب، بل أساساً لواجهات حقيقية حيث يجب أن يكون التركيب مفهوماً وقابلاً للتحمل للأذن، وليس مجرد وظيفي رسمياً.

مما تتكون الحل

يتم تجميع المخطط العملي من مكونات مفتوحة يمكن نشرها محلياً. كخيار أساسي، يستخدم المؤلف eSpeak NG، وللحصول على صوت أفضل — Piper TTS. يتم تثبيت Piper من خلال بيئة Python، وبعد ذلك يتم تحميل نموذج صوتي باللغة الروسية على اللوحة. بعد ذلك، يمكن بدء التركيب إما من سطر الأوامر أو مباشرة من Python، بتمرير النص إلى دفق وإرسال الصوت على الفور للتشغيل.

"هذا صوت روبوت من الثمانينات" — هكذا يصف المقال نتيجة eSpeak NG مقارنة بـ

Piper.

  • eSpeak NG — الخيار الأخف لللوحات ذات قيود الموارد الصارمة.
  • Piper TTS — تركيب الشبكة العصبية بناءً على VITS و ONNX مع كلام أكثر طبيعية بشكل ملحوظ.
  • خادم FastAPI — واجهة HTTP للعملاء الخارجيين الذين يرسلون النص للتركيب.
  • قائمة الانتظار والخيط المنفصل — آلية تمنع حجب العميل حتى اكتمال التركيب.
  • خدمة systemd — الإطلاق التلقائي لـ TTS بعد تشغيل اللوحة.

يناقش المقال بشكل منفصل طريقتي تشغيل Piper: من خلال تسجيل ملف WAV وعبر إخراج الدفق بدون ملف وسيط. الخيار الثاني مفيد بشكل خاص للسيناريوهات المضمنة لأنه يزيل عمليات القرص غير الضرورية ويسرع المسار من النص إلى الصوت. يوضح المؤلف أيضاً كيفية استخدام aplay و sounddevice، ويلاحظ أن التحذيرات حول نقص مخزن مؤقت للصوت أو غياب GPU على Repka-Pi 4 لا تمنع الحصول على نتيجة مناسبة للاستخدام العملي.

كيف يعمل الخادم

الجزء الرئيسي من المشروع هو خادم تركيب النطق المستند إلى FastAPI. يعمل على Repka-Pi 4 نفسها، ويستمع لطلبات HTTP، ويستقبل النص عبر مسار POST /say. بعد ذلك، لا يجعل الخادم العميل ينتظر حتى يتم تركيب الجملة بأكملها. بدلاً من ذلك، يتم وضع المهمة في قائمة انتظار، وخيط خلفي منفصل يتعامل مع استدعاء Piper وتجميع دفق PCM وإخراج الصوت عبر sounddevice. بالنسبة لأنظمة الأتمتة، هذا أكثر ملاءمة من استدعاء متزامن، الذي سيجمد منطق الجهاز بأكمله.

توجد أيضاً مسار خدمة GET /status: من خلاله يمكنك التحقق من ما إذا كان الخادم حراً، وإذا كان التشغيل يحدث حالياً، وعدد المهام التي تنتظر بالفعل. يتم تحميل النموذج مرة واحدة عند بدء التطبيق، لذلك لا يحتاج إلى التهيئة عند كل طلب. للتشغيل المستمر، يتم توفير ملف وحدة systemd: فهو يبدأ الخدمة بعد بدء النظام، ويفعل إعادة التشغيل عند الفشل، ويسمح بعرض السجلات عبر journalctl. وفقاً لوصف المؤلف، يتراوح التأخير قبل بدء التركيب من ثانية إلى عدة ثوان ويعتمد على طول النص.

ماذا يعني هذا

القيمة العملية لحالة الاستخدام هذه هي أن واجهة الصوت المحلية لم تعد تتطلب أجهزة باهظة الثمن أو اتصالية سحابية مستمرة. يمكن لـ Repka-Pi 4 بالفعل أن تُستخدم في أتمتة المنزل والمحطات والروبوتات والمشاريع التعليمية، ومع ظهور لوحات أكثر قوة، يجب أن نتوقع TTS دون اتصال أسرع وتوليفة من التركيب مع التعرف على الكلام ومساعدات روسية معروضة بالكامل على الجهاز. بالنسبة لسوق DIY الناطقة بالروسية، هذا مثال نادر لكيفية نقل مجموعة جاهزة بسرعة من مقال إلى نموذج عملي.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…