تعليم روبوت ريتشي ميني التحدث محليًا بدون الحوسبة السحابية
يمكن لروبوت ريتشي ميني الآن التحدث بالكامل بشكل محلي. المجموعة الكاملة - كشف نشاط الصوت (VAD)، تحويل الكلام إلى نص (STT)، نموذج اللغة (LLM)، وتحويل النص إلى…
معالج بواسطة الذكاء الاصطناعي من Hugging Face Blog؛ بتحرير Hamidun News
روبوت ريتشي ميني الإنساني من Pollen Robotics يمكنه الآن العمل بالكامل بشكل محلي. مجموعة معالجة الكلام بأكملها - من الصوت إلى الإجابة - يتم تنفيذها على الجهاز المحلي دون إرسال البيانات إلى السحابة. هذا أول مثال كامل على كيفية أن يكون روبوت الذكاء الاصطناعي مستقلاً تماماً عن الخدمات السحابية.
كيفية عمل المجموعة المحلية
يستخدم روبوت ريتشي ميني خط أنابيب متسلسل حيث ينقل كل مكون النتيجة إلى المكون التالي على الجهاز المحلي. عندما يتحدث شخص ما - كشف نشاط الصوت (VAD) يكتشف الكلام، وتحويل الكلام إلى نص (STT) يحوله إلى نص، ثم نموذج اللغة (LLM) يعالج النص ويولد إجابة، وأخيراً تحويل النص إلى كلام (TTS) ينطق النتيجة. قدمت Hugging Face مثالاً جاهزاً مع مكونات مفتوحة وواجهة برمجية WebSocket متوافقة مع معيار Realtime API، حتى يتمكن المطورون من البدء الفوري. يتطلب التشغيل الحد الأدنى: تثبيت نموذج لغة محلي عبر llama.cpp أو mlx (لأجهزة Apple Silicon) أو إطار عمل آخر، ثم تشغيل مكتبة تحويل الكلام إلى كلام. كل هذا سيستغرق بعض الأوامر في سطر الأوامر. يتصل الروبوت بالخادم الخلفي المحلي من خلال تطبيق واجهة المستخدم.
المكونات المدرجة في المجموعة
تتكون المجموعة المحلية من أربع وحدات يمكن استبدال كل منها:
- كشف نشاط الصوت (VAD) — Silero VAD v5 يكتشف بدقة عندما يبدأ الشخص والانتهاء من التحدث، ويتجاهل الضوضاء الخلفية
- تحويل الكلام إلى نص (STT) — Parakeet-TDT 0.6B v3 يحول الصوت إلى نص بأدنى تأخير
- نموذج اللغة (LLM) — Gemma و Llama أو أي نموذج آخر حسب الاختيار، يمكن أن يكون محليًا أو على خادم بعيد
- تحويل النص إلى كلام (TTS) — Qwen3-TTS ينطق إجابة الروبوت في الوقت الفعلي
يمكن للمطور استبدال أي مكون. على سبيل المثال، إذا كانت هناك حاجة لدعم لغة محددة، يمكن العثور على أفضل نموذج STT لهذه اللغة. إذا كانت المهمة تتطلب أقصى سرعة استجابة، يمكن تحسين VAD و LLM لتحقيق تأخير منخفض.
لماذا هذا مهم للمطورين والشركات
في السابق، كان روبوت الذكاء الاصطناعي مرتبطاً بموفر سحابي: أي نموذج تستخدمه OpenAI أو Google، تستخدم ذلك النموذج، وتدفع مقابل كل دقيقة، وتُرسل البيانات إلى خوادم الشركة. الآن سيختفي هذا التقيد.
تحل المجموعة المحلية ثلاث مشاكل رئيسية في نفس الوقت. أولاً، الخصوصية: تدفقات الصوت والنص لا تغادر الشبكة المحلية أبداً - وهذا حرج لسيناريوهات الإنتاج والطب والبيئات المؤسسية. ثانياً، الاقتصاد: لا توجد نفقات لواجهات برمجية سحابية، والتي يمكن أن تكون كبيرة جداً خلال جلسات طويلة. ثالثاً، السيطرة الكاملة: يختار المستخدم النماذج، ويمكنه تغييرها دون الارتباط بموفر سحابي.
"المتسلسلات هي الخيار الأكثر مرونة في النظام البيئي مفتوح المصدر اليوم," - كما كتب المؤلفون في منشور
Hugging Face، مع التأكيد على أن المكونات سهلة الدمج والاستبدال.
ماذا يعني هذا لمستقبل الروبوتات
هذه خطوة مهمة في جعل تكنولوجيا روبوتات الذكاء الاصطناعي في متناول الجميع. تصبح الروبوتات الإنسانية ليست مجرد خدمات سحابية بميكانيكا، بل أنظمة مستقلة كاملة يمكن لأي شخص تخصيصها لمهامه الخاصة. يمكن للباحثين الآن التركيز على الخوارزميات والتكامل، بدلاً من البنية الأساسية السحابية.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.