Reachy Mini a appris à converser localement sans cloud
Le robot Reachy Mini peut désormais converser entièrement localement. Toute la pile — VAD, STT, LLM, TTS — fonctionne sans cloud ni API. Les utilisateurs…
Traité par IA depuis Hugging Face Blog ; édité par Hamidun News
Le robot humanoïde Reachy Mini de Pollen Robotics peut désormais fonctionner entièrement localement. Toute la pile de reconnaissance vocale — de la voix à la réponse — s'exécute sur l'appareil local sans envoyer de données vers le cloud. C'est le premier exemple complet de la façon dont un robot IA peut être totalement indépendant des services cloud.
Comment fonctionne exactement la pile locale ?
Reachy Mini utilise un pipeline en cascade, où chaque composant transmet le résultat au suivant sur l'appareil local. Une personne parle — VAD (Voice Activity Detection) détecte la parole, STT (Speech-to-Text) la convertit en texte, LLM traite le texte et génère une réponse, puis TTS (Text-to-Speech) énonce le résultat.
Hugging Face a fourni un exemple prêt à l'emploi avec des composants ouverts et une API WebSocket compatible avec la norme Realtime API, pour que les développeurs puissent commencer immédiatement. Le lancement nécessite un minimum : installer un LLM local via llama.cpp, mlx (pour Apple Silicon) ou un autre framework, puis lancer la bibliothèque speech-to-speech. Tout cela ne prendra que quelques commandes dans le terminal. Le robot se connecte au backend local via l'interface de l'application.
Quels composants composent la pile ?
La pile locale se compose de quatre modules, chacun pouvant être remplacé :
- VAD (Voice Activity Detection) — Silero VAD v5 détecte précisément quand une personne commence et finit de parler, en ignorant le bruit de fond
- STT (Speech-to-Text) — Parakeet-TDT 0.6B v3 convertit la parole en texte avec une latence minimale
- LLM (Language Model) — Gemma, Llama ou tout autre modèle de votre choix, peut être locale ou sur un serveur distant
- TTS (Text-to-Speech) — Qwen3-TTS énonce la réponse du robot en temps réel
Le développeur peut remplacer n'importe quel composant. Par exemple, si la prise en charge d'une langue spécifique est nécessaire, trouver le meilleur modèle STT pour cette langue. Si la tâche nécessite une vitesse de réponse maximale, optimiser VAD et LLM pour une faible latence.
Pourquoi c'est important pour les développeurs et les entreprises ?
Autrefois, le robot IA était lié au fournisseur de cloud : vous utilisiez le modèle qu'OpenAI ou Google utilisait, vous payiez à la minute, et les données étaient envoyées aux serveurs de l'entreprise. Maintenant, cette limitation disparaît.
La pile locale résout trois problèmes clés à la fois. Premièrement, la confidentialité : les flux audio et le texte ne quittent jamais le réseau local — c'est critique pour les scénarios de production, la médecine, les environnements d'entreprise. Deuxièmement, l'économie : aucun frais d'API cloud, qui peuvent être importants lors de longues sessions. Troisièmement, le contrôle total : l'utilisateur choisit les modèles, peut les modifier sans dépendre du fournisseur de cloud.
«
Les cascades sont l'option la plus flexible dans l'écosystème open-source d'aujourd'hui », écrivent les auteurs dans l'article de Hugging Face, soulignant que les composants se combinent et se remplacent facilement.
Que signifie cela pour l'avenir de la robotique ?
C'est une étape importante dans la démocratisation de la robotique IA. Les robots humanoïdes ne deviennent plus simplement des services cloud avec une mécanique, mais des systèmes indépendants à part entière que chacun peut personnaliser selon ses besoins. Les chercheurs peuvent désormais se concentrer sur les algorithmes et l'intégration, plutôt que sur l'infrastructure cloud.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.