أظهرت NVIDIA كيف يعمل Gemma 4 بالصوت وكاميرا الويب على Jetson Orin Nano Super

Q: ما هو المصدر؟

نُشر أصلاً على Hugging Face Blog. يعالج Hamidun News المواد ويكيّفها بالذكاء الاصطناعي.

Q: متى نُشر؟

1 مايو 2026. وقت القراءة: 3 دقيقة.

أعدّت NVIDIA عرضًا توضيحيًا محليًا لـ Gemma 4 على Jetson Orin Nano Super: يستمع النموذج إلى الصوت، ويلجأ إلى كاميرا الويب بنفسه عند الحاجة، ويرد عبر TTS…

هيئة تحرير Hamidun News

رصد الذكاء الاصطناعي · Hugging Face Blog

1 مايو 2026· 3 د

معالج بواسطة الذكاء الاصطناعي من Hugging Face Blog؛ بتحرير Hamidun News

أظهرت NVIDIA كيف يعمل Gemma 4 بالصوت وكاميرا الويب على Jetson Orin Nano Super — المصدر: Hugging Face Blog. كولاج: Hamidun News.

◐ استمع للمقال

أظهرت NVIDIA كيفية عمل Gemma 4 مع الصوت وكاميرا الويب على Jetson Orin Nano Super

أظهرت NVIDIA عرضاً توضيحياً عملياً للحواف: يمكن لـ Gemma 4 الاستماع إلى سؤال والوصول إلى كاميرا الويب عند الحاجة والإجابة بصوت — كل ذلك محلياً على Jetson Orin Nano Super بذاكرة 8 جيجابايت. الدراسة الموضوعة في 22 أبريل 2026 مهمة ليس فقط من حيث الدرس نفسه، بل لأن وكيلاً متعدد الأنماط يعمل على لوحة مدمجة بدلاً من السحابة.

كيفية عمل الربط

يتم تجميع السيناريو كوكيل صوتي بسيط مع أداة بصرية واحدة. يضغط المستخدم على مفتاح المسافة ويسأل سؤالاً بصوت، وبعد ذلك يحول Parakeet محلياً الكلام إلى نص. ثم يتلقى Gemma 4 الطلب ويقرر بنفسه ما إذا كان يحتاج إلى النظر عبر كاميرا الويب. إذا كان الأمر كذلك، فإن البرنامج النصي يلتقط إطاراً ويمرره للنموذج، ثم يتم نطق الإجابة عبر Kokoro TTS. تؤكد المقالة بشكل خاص أن النموذج لا يصف الصورة على الإطلاق، بل يستخدم ما يراه فقط للإجابة على السؤال المحدد.

"صراحة، من المثير للإعجاب بالفعل أن هذا يعمل على

Jetson Orin Nano."

النقطة الأساسية هي عدم وجود محفزات صارمة أو منطق يدوي مثل "إذا كانت الكلمة كاميرا في السؤال". يفتح النص البرمجي أداة واحدة فقط لـ Gemma 4 — `look_and_answer`، الذي يأخذ صورة ويحلل المشهد. ما إذا كان يجب استدعاؤها أم لا، يقرر النموذج بنفسه. لهذا، تستخدم NVIDIA `llama-server` من `llama.cpp` مع العلم `--jinja`، الذي يفعل دعم استدعاء الأداة الأصلي. بشكل أساسي، هذا سيناريو VLA مدمج حيث لا يتم توصيل الرؤية إلا عند الحاجة الفعلية.

ما تحتاجه لتشغيله

العرض التوضيحي نفسه لا يبدو وكأنه سحر جاهز للاستخدام: إنه تعليمات مجمعة بشكل جيد للمتحمسين والمطورين الذين يريدون تكرار خط أنابيب متعدد الأنماط محلياً بأنفسهم. تصف NVIDIA ليس فقط تشغيل نص البرنامج Python، بل المكدس الكامل — من حزم النظام وبناء `llama.cpp` إلى إعداد الصوت والكاميرا وتحميل مُسقط الرؤية لـ Gemma 4.

Jetson Orin Nano Super بذاكرة 8 جيجابايت، كاميرا ويب، ميكروفون USB أو كاميرا بميكروفون مدمج، مكبرات صوت USB ولوحة مفاتيح
بيئة Python مع `opencv-python-headless` و `onnx_asr` و `kokoro-onnx` و `soundfile` و `huggingface-hub` و `numpy`
`llama.cpp` مبني محلياً مع CUDA، نموذج `gemma-4-E2B-it` في GGUF، وملف `mmproj` منفصل بدونه لا يستطيع Gemma 4 الرؤية
إعداد `MIC_DEVICE` و `SPK_DEVICE` و `WEBCAM` و `VOICE`، وبعد ذلك يعمل العرض التوضيحي بأمر واحد `python3 Gemma4_vla.py`
وضع نص منفصل عبر Docker إذا كنت تريد اختبار جزء LLM بسرعة بدون تكوين بصري كامل

تم التركيز الخاص على الذاكرة. تتعامل اللوحة ذات 8 جيجابايت معها، لكن المؤلف يوصي مباشرة بتحرير RAM وتعطيل العمليات غير الضرورية وحتى إضافة مساحة تبديل لتجنب OOM عند تحميل النموذج. الخيار الأساسي هو `Q4_K_M` الكمي، وتحت القيود الصارمة جداً يمكنك الانخفاض إلى `Q3`. هذا تفصيل مهم: هذا ليس منتجاً استهلاكياً مصقولاً، بل وصفة عملية حيث يؤثر كل جيجابايت فعلاً على النتيجة.

لماذا هذا مثير للاهتمام

الأخبار هنا ليست أن Gemma 4 يمكنه العمل على Jetson — هذا متوقع للبناءات الخفيفة. ما هو أكثر أهمية: تُظهر NVIDIA نمطاً عملياً لوكيل متعدد الأنماط محلي يجمع بين STT و LLM واستدعاء الأداة والرؤية و TTS بدون وصول إلزامي للسحابة. بالنسبة لأجهزة الحواف، هذه إشارة قوية.

سابقاً، كانت مثل هذه السيناريوهات غالباً ما تُرتبط إما بخادم أو عروض توضيحية مخفضة جداً حيث يرد النموذج على النص فقط. في الوقت نفسه، تُظهر التعليمات بصراحة الحدود. التشغيل الأول بطيء لأن النماذج يتم سحبها وملفات صوتية يتم إنشاؤها.

يتطلب وضع VLA الكامل بناءً أصلياً وسقاطة رؤية، بينما يناسب متغير Docker النص فقط. إذا لم يكن لدى النظام ذاكرة كافية، فعليك التنظيف يدوياً. كما لا توفر NVIDIA معايير الأداء للسرعة في المقالة أو تُظهر فيديو بتأخير فعلي، لذلك لا يزال هناك طريق طويل نحو مساعد جاهز للجميع.

لكن كعرض توضيحي للاتجاه، هذه حالة قوية جداً.

ماذا يعني هذا

تقترب وكلاء الذكاء الاصطناعي المحليون من الاستخدام العملي على أجهزة بأسعار معقولة. بالنسبة للمطورين، يعني هذا القدرة على بناء واجهات صوتية خاصة وأنماط متعددة الأنماط بدون بنية تحتية سحابية إلزامية. بالنسبة لسوق edge AI، فهي خطوة أخرى من العروض التقديمية الجميلة نحو الأنظمة التي يمكن حقاً إعدادها على طاولة واختبارها ودمجها في منتج.

Hamidun News

أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

قناة Telegram RSS hamidun.com

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

🎓 Academy — 7 أيام مجاناً استشارة مجانية