Reachy Mini aprendió a hablar localmente sin la nube

Q: ¿Cuál es la fuente?

Publicado originalmente en Hugging Face Blog. Hamidun News procesa y adapta los materiales con IA.

Q: ¿Cuándo se publicó?

29 may 2026. Tiempo de lectura: 3 min.

El robot Reachy Mini ahora puede hablar completamente de forma local. Toda la pila —VAD, STT, LLM, TTS— funciona sin la nube ni API. Los usuarios eligen los…

Redacción de Hamidun News

Monitoreo de AI · Hugging Face Blog

29 may 2026· 3 min

Procesado por IA desde Hugging Face Blog; editado por Hamidun News

Reachy Mini aprendió a hablar localmente sin la nube — Fuente: Hugging Face Blog. Collage: Hamidun News.

◐ Escuchar artículo

El robot humanoide Reachy Mini de Pollen Robotics ahora puede funcionar completamente de forma local. Toda la pila de reconocimiento de voz —desde la voz hasta la respuesta— se ejecuta en el dispositivo local sin enviar datos a la nube. Este es el primer ejemplo completo de cómo un robot de IA puede ser completamente independiente de los servicios en la nube.

Cómo funciona exactamente la pila local

Reachy Mini utiliza un pipeline en cascada donde cada componente pasa su resultado al siguiente en el dispositivo local. Una persona habla —VAD (Voice Activity Detection) detecta el habla, STT (Speech-to-Text) la convierte en texto, LLM procesa el texto y genera una respuesta, luego TTS (Text-to-Speech) vocaliza el resultado. Hugging Face proporcionó un ejemplo listo con componentes abiertos y API WebSocket, compatible con el estándar Realtime API, para que los desarrolladores pudieran comenzar a usar inmediatamente.

La ejecución requiere lo mínimo: instalar un LLM local a través de llama.cpp, mlx (para Apple Silicon) u otro framework, luego ejecutar la biblioteca speech-to-speech. Todo esto tomará algunos comandos en la terminal.

El robot se conecta al backend local a través de la interfaz de usuario de la aplicación.

Qué componentes incluye la pila

La pila local consta de cuatro módulos, cada uno de los cuales se puede reemplazar:

VAD (Voice Activity Detection) — Silero VAD v5 detecta con precisión cuándo una persona comienza y termina de hablar, ignora el ruido de fondo
STT (Speech-to-Text) — Parakeet-TDT 0.6B v3 convierte voz en texto con latencia mínima
LLM (Language Model) — Gemma, Llama o cualquier otro modelo de su elección, puede ser local o en un servidor remoto
TTS (Text-to-Speech) — Qwen3-TTS vocaliza la respuesta del robot en tiempo real

El desarrollador puede reemplazar cualquier componente. Por ejemplo, si se necesita soporte para un idioma específico, encontrar el mejor modelo STT para ese idioma. Si la tarea requiere la máxima velocidad de respuesta, optimizar VAD y LLM para baja latencia.

Por qué es importante para desarrolladores y empresas

Anteriormente, el robot de IA estaba vinculado a un proveedor de nube: usabas el modelo que usa OpenAI o Google, pagabas por cada minuto, los datos se enviaban a los servidores corporativos. Ahora esa limitación desaparece. La pila local resuelve tres problemas clave simultáneamente. En primer lugar, privacidad: los flujos de audio y texto nunca abandonan la red local —esto es crítico para escenarios de producción, medicina, entornos corporativos. En segundo lugar, economía: sin gastos en API en la nube, que pueden ser sustanciales en sesiones largas. En tercer lugar, control total: el usuario elige los modelos, puede cambiarlos sin estar vinculado a un proveedor de nube.

«Las cascadas son la opción más flexible en el ecosistema de código abierto hoy», —escriben los autores en el post de

Hugging Face, destacando que los componentes se combinan y reemplazan fácilmente.

Qué significa esto para el futuro de la robótica

Este es un paso importante en la democratización de la robótica de IA. Los robots humanoides se convierten no solo en servicios en la nube con mecánica, sino en sistemas independientes completos que cada uno puede personalizar para sus tareas. Los investigadores ahora pueden enfocarse en algoritmos e integración, no en infraestructura en la nube.

Hamidun News

Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

Canal de Telegram RSS hamidun.com

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

🎓 Academy — 7 días gratis Consulta gratuita