Reachy Mini a appris à converser localement sans cloud

Q: Quelle est la source ?

Publication originale sur Hugging Face Blog. Hamidun News traite et adapte les contenus avec l'IA.

Q: Quand a-t-il été publié ?

29 mai 2026. Temps de lecture : 3 min.

Le robot Reachy Mini peut désormais converser entièrement localement. Toute la pile — VAD, STT, LLM, TTS — fonctionne sans cloud ni API. Les utilisateurs…

Rédaction de Hamidun News

Veille IA · Hugging Face Blog

29 mai 2026· 3 min

Traité par IA depuis Hugging Face Blog ; édité par Hamidun News

Reachy Mini a appris à converser localement sans cloud — Source : Hugging Face Blog. Collage: Hamidun News.

◐ Écouter l'article

Le robot humanoïde Reachy Mini de Pollen Robotics peut désormais fonctionner entièrement localement. Toute la pile de reconnaissance vocale — de la voix à la réponse — s'exécute sur l'appareil local sans envoyer de données vers le cloud. C'est le premier exemple complet de la façon dont un robot IA peut être totalement indépendant des services cloud.

Comment fonctionne exactement la pile locale ?

Reachy Mini utilise un pipeline en cascade, où chaque composant transmet le résultat au suivant sur l'appareil local. Une personne parle — VAD (Voice Activity Detection) détecte la parole, STT (Speech-to-Text) la convertit en texte, LLM traite le texte et génère une réponse, puis TTS (Text-to-Speech) énonce le résultat.

Hugging Face a fourni un exemple prêt à l'emploi avec des composants ouverts et une API WebSocket compatible avec la norme Realtime API, pour que les développeurs puissent commencer immédiatement. Le lancement nécessite un minimum : installer un LLM local via llama.cpp, mlx (pour Apple Silicon) ou un autre framework, puis lancer la bibliothèque speech-to-speech. Tout cela ne prendra que quelques commandes dans le terminal. Le robot se connecte au backend local via l'interface de l'application.

Quels composants composent la pile ?

La pile locale se compose de quatre modules, chacun pouvant être remplacé :

VAD (Voice Activity Detection) — Silero VAD v5 détecte précisément quand une personne commence et finit de parler, en ignorant le bruit de fond
STT (Speech-to-Text) — Parakeet-TDT 0.6B v3 convertit la parole en texte avec une latence minimale
LLM (Language Model) — Gemma, Llama ou tout autre modèle de votre choix, peut être locale ou sur un serveur distant
TTS (Text-to-Speech) — Qwen3-TTS énonce la réponse du robot en temps réel

Le développeur peut remplacer n'importe quel composant. Par exemple, si la prise en charge d'une langue spécifique est nécessaire, trouver le meilleur modèle STT pour cette langue. Si la tâche nécessite une vitesse de réponse maximale, optimiser VAD et LLM pour une faible latence.

Pourquoi c'est important pour les développeurs et les entreprises ?

Autrefois, le robot IA était lié au fournisseur de cloud : vous utilisiez le modèle qu'OpenAI ou Google utilisait, vous payiez à la minute, et les données étaient envoyées aux serveurs de l'entreprise. Maintenant, cette limitation disparaît.

La pile locale résout trois problèmes clés à la fois. Premièrement, la confidentialité : les flux audio et le texte ne quittent jamais le réseau local — c'est critique pour les scénarios de production, la médecine, les environnements d'entreprise. Deuxièmement, l'économie : aucun frais d'API cloud, qui peuvent être importants lors de longues sessions. Troisièmement, le contrôle total : l'utilisateur choisit les modèles, peut les modifier sans dépendre du fournisseur de cloud.

«

Les cascades sont l'option la plus flexible dans l'écosystème open-source d'aujourd'hui », écrivent les auteurs dans l'article de Hugging Face, soulignant que les composants se combinent et se remplacent facilement.

Que signifie cela pour l'avenir de la robotique ?

C'est une étape importante dans la démocratisation de la robotique IA. Les robots humanoïdes ne deviennent plus simplement des services cloud avec une mécanique, mais des systèmes indépendants à part entière que chacun peut personnaliser selon ses besoins. Les chercheurs peuvent désormais se concentrer sur les algorithmes et l'intégration, plutôt que sur l'infrastructure cloud.

Hamidun News

Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Canal Telegram RSS hamidun.com

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

🎓 Academy — 7 jours gratuits Consultation gratuite