Hugging Face Blog→ original

NVIDIA a montré comment Gemma 4 avec voix et webcam fonctionne sur Jetson Orin Nano Super

NVIDIA a monté une démo locale de Gemma 4 pour Jetson Orin Nano Super : le modèle écoute la voix, sollicite lui-même la webcam si nécessaire et répond via…

Traité par IA depuis Hugging Face Blog ; édité par Hamidun News
NVIDIA a montré comment Gemma 4 avec voix et webcam fonctionne sur Jetson Orin Nano Super
Source : Hugging Face Blog. Collage: Hamidun News.
◐ Écouter l'article

NVIDIA Montre Comment Gemma 4 avec Voix et Webcam Fonctionne sur Jetson Orin Nano Super

NVIDIA a montré une démo pratique d'edge : Gemma 4 peut écouter une question, accéder à la webcam si nécessaire et répondre avec la voix — le tout localement sur Jetson Orin Nano Super avec 8 GB de RAM. La publication du 22 avril 2026 est intéressante non seulement pour le tutoriel lui-même, mais aussi parce qu'un agent multimodal s'exécute sur une carte compacte plutôt que dans le cloud.

Comment Ça Fonctionne

Le scénario est assemblé comme un simple agent vocal avec un outil visuel. L'utilisateur appuie sur la barre d'espace, pose une question verbalement, après quoi Parakeet convertit localement la parole en texte. Ensuite Gemma 4 reçoit la requête et décide elle-même si elle a besoin de regarder à travers la webcam. Si oui, le script capture une image, la transmet au modèle, et la réponse est ensuite vocalisée via Kokoro TTS. L'article souligne spécifiquement que le modèle ne décrit pas du tout l'image, mais utilise ce qu'il voit seulement pour répondre à la question spécifique.

«

Honnêtement, c'est déjà impressionnant que ça fonctionne sur Jetson Orin Nano. »

Le point clé est qu'il n'y a pas de déclencheurs rigides ni de logique manuelle comme « si la question contient le mot caméra ». Le script ouvre exactement un outil pour Gemma 4 — `look_and_answer`, qui prend une photo et analyse la scène. Que l'appeler ou non, c'est le modèle qui en décide. Pour cela, NVIDIA utilise `llama-server` de `llama.cpp` avec le flag `--jinja`, qui active le support natif du tool calling. Essentiellement, c'est un scénario VLA compact où la vision n'est connectée que lorsqu'elle est vraiment nécessaire.

Ce Dont Vous Avez Besoin Pour L'Exécuter

La démo elle-même ne ressemble pas à de la magie prête à l'emploi : c'est plutôt une instruction bien assemblée pour les enthousiastes et les développeurs qui veulent reproduire le pipeline multimodal local par eux-mêmes. NVIDIA décrit non seulement l'exécution du script Python, mais la totalité de la pile — des paquets système et la construction de `llama.cpp` jusqu'à la configuration de l'audio, la caméra et le chargement du vision projector pour Gemma 4.

  • Jetson Orin Nano Super avec 8 GB de RAM, webcam, microphone USB ou caméra avec microphone intégré, haut-parleurs USB et clavier
  • Environnement Python avec `opencv-python-headless`, `onnx_asr`, `kokoro-onnx`, `soundfile`, `huggingface-hub` et `numpy`
  • `llama.cpp` compilé localement avec CUDA, modèle `gemma-4-E2B-it` en GGUF, et fichier `mmproj` séparé sans lequel Gemma 4 ne peut pas voir
  • Configuration de `MIC_DEVICE`, `SPK_DEVICE`, `WEBCAM` et `VOICE`, après quoi la démo s'exécute avec une seule commande `python3 Gemma4_vla.py`
  • Mode texte séparé via Docker si vous voulez tester rapidement la partie LLM sans configuration visuelle complète

Un accent particulier a été mis sur la RAM. La carte avec 8 GB s'en sort, mais l'auteur recommande directement de libérer la RAM, de désactiver les processus inutiles, et même d'ajouter du swap pour éviter OOM lors du chargement du modèle. L'option basique est `Q4_K_M` quantisé, et sous des contraintes très strictes vous pouvez descendre à `Q3`. C'est un détail important : il ne s'agit pas d'un produit grand public poli, mais d'une recette de travail où chaque gigaoctet affecte vraiment le résultat.

Pourquoi C'est Intéressant

Les informations ici ne portent pas sur le fait que Gemma 4 peut s'exécuter sur Jetson — c'est attendu pour les compilations légères. Ce qui est plus important : NVIDIA montre un pattern pratique pour un agent multimodal local qui combine STT, LLM, tool calling, vision et TTS sans accès obligatoire au cloud. Pour les appareils edge, c'est un signal fort.

Auparavant, de tels scénarios étaient plus souvent associés soit à un serveur, soit à des démos fortement réduites où le modèle répond simplement au texte. En même temps, l'instruction montre honnêtement les limitations. La première exécution est lente car les modèles sont téléchargés et des fichiers vocaux sont générés.

Le mode VLA complet nécessite une compilation native et un vision projector, tandis que la variante Docker ne convient qu'au texte. Si le système n'a pas assez de mémoire, vous devez nettoyer manuellement. NVIDIA ne fournit pas non plus de benchmarks de vitesse dans l'article ni ne montre de vidéo avec une latence réelle, donc il y a encore un long chemin vers un assistant prêt pour tous.

Mais en tant que démonstration de la direction, c'est un cas très solide.

Ce Que Cela Signifie

Les agents AI locaux se rapprochent de l'utilisation pratique sur du matériel abordable. Pour les développeurs, cela signifie la capacité à construire des interfaces vocales privées et des prototypes multimodaux sans infrastructure cloud obligatoire. Pour le marché de l'edge AI, c'est un pas de plus loin des belles présentations vers des systèmes qui peuvent réellement être mis en place sur un bureau, testés et intégrés dans un produit.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…