El STM32N6 de STMicroelectronics demostró reconocimiento de voz local sin nube a 0,2 W

Q: ¿Cuál es la fuente?

Publicado originalmente en Habr AI. Hamidun News procesa y adapta los materiales con IA.

Q: ¿Cuándo se publicó?

2 may 2026. Tiempo de lectura: 3 min.

El microcontrolador STM32N6 con NPU integrado logró reconocer habla no restringida directamente en el dispositivo, sin nube y con un consumo de unos 0,215 W…

Redacción de Hamidun News

Monitoreo de AI · Habr AI

2 may 2026· 3 min

Procesado por IA desde Habr AI; editado por Hamidun News

El STM32N6 de STMicroelectronics demostró reconocimiento de voz local sin nube a 0,2 W — Fuente: Habr AI. Collage: Hamidun News.

◐ Escuchar artículo

Los microcontroladores con NPU integrada están entrando en territorio que anteriormente pertenecía casi en su totalidad a los servicios en la nube de reconocimiento de voz. Un experimento en el STM32N6 demostró que el reconocimiento local de voz arbitraria ya puede ejecutarse directamente en el dispositivo — sin internet, casi en tiempo real y con un consumo de energía de alrededor de 0,215 W.

Cómo funciona el sistema

El autor del proyecto organizó el reconocimiento de voz en tres bloques: modelo acústico, decodificador y rescoring. La parte más pesada es la acústica: recibe la señal de audio cruda del micrófono y la convierte en una secuencia de fonemas. El decodificador debe ensamblar palabras a partir de estos fonemas, y el bloque de rescoring debe verificar el resultado teniendo en cuenta el contexto.

En la etapa actual, el modelo acústico ya se está ejecutando en el STM32N6 — es decir, la base fundamental de todo el sistema. En la práctica, se ve así: el dispositivo escucha el habla en tiempo real, la pasa a través de la NPU y genera un flujo de fonemas. En la demostración anterior se muestran palabras y números, mientras que abajo están los fonemas "crudos" predichos por el modelo.

Por ahora, la conversión de fonemas en palabras se realiza mediante coincidencia dura en lugar de un decodificador de lenguaje completo. Debido a esto, el sistema sigue siendo limitado, pero el simple hecho de que el modelo acústico funcione localmente en un microcontrolador es más importante que el "envoltorio" actual a su alrededor.

Números y limitaciones

El resultado más fuerte es el consumo de energía. Durante el reconocimiento de voz activo, todo el sistema consume aproximadamente 215 mW. De estos, aproximadamente 160 mW van a la NPU y al núcleo Cortex-M55, otros 45 mW a la memoria Flash y PSRAM externa, aproximadamente 10 mW a los pines externos.

Además, esto no es un modo después de la optimización: el núcleo todavía funciona sin suspensión agresiva, y la NPU se carga solo al 10,4%, por lo que aún hay espacio para una reducción adicional del consumo de energía. En cuanto a calidad, la situación también se ve seria para esta clase de hardware. El modelo contiene 8,5 millones de parámetros y, después de la cuantificación a int8, apenas perdió precisión, mostrando un PER del 5,3% en dev_clean y del 14,4% en dev_other en el dispositivo objetivo.

El tiempo de inferencia en la NPU fue de 52 ms para 500 ms de audio, y la latencia total fue de 985 ms. Casi la mitad de este retraso está relacionado no con el hardware, sino con la "ventana futura" que el modelo utiliza para una predicción más precisa de fonemas.

Tamaño del modelo acústico — 8,5 millones de parámetros
Consumo de energía durante el reconocimiento — aproximadamente 0,215 W
Tiempo de inferencia de NPU — 52 ms para 500 ms de audio
Pérdida de calidad después de la cuantificación a int8 — menos del 0,5%
Uso de RAM — 18%, carga de NPU — 10,4%

Vale la pena hacer una comparación con sistemas más grandes. Por PER, este modelo resultó ser comparable con wav2vec 2.0 Base y HuBERT Base, aunque aquellos tienen aproximadamente 11 veces más tamaño y no están diseñados para ejecutarse en microcontroladores. Al mismo tiempo, el autor describe honestamente los límites del proyecto: esto aún no es un reemplazo para dictado completo, sino más bien un motor local para comandos y frases cortas donde la autonomía y la eficiencia energética son críticas.

Dónde ganará el microcontrolador

El punto fuerte de este enfoque no es la universalidad a cualquier costo, sino cerrar la brecha entre el simple keyword spotting y el ASR en la nube pesado. Las interfaces de voz locales ordinarias requieren una coincidencia exacta de comandos, pero aquí el dispositivo ya puede interpretar diferentes formulaciones de la misma solicitud. En lugar de una frase rígida, un usuario puede decir "hazlo más cálido", "sube unos cinco grados" o "sube la temperatura" — y el sistema entenderá una acción.

Esto abre escenarios bastante prácticos: casas inteligentes sin enviar voz hacia afuera, entrada de voz de números y parámetros en instalaciones de manufactura, trabajo en almacenes, dispositivos médicos y transporte, donde la red es inestable o no existe en absoluto. Otro plus es el espacio para crecer. Actualmente, el STM32N6 usa solo el 18% de RAM, y la NPU se utiliza aproximadamente en una décima parte de su capacidad.

Los siguientes pasos son claros: agregar un decodificador de fonemas, un modelo de lenguaje y supresión de ruido. Estos deberían convertir un prototipo técnico convincente en una interfaz de usuario realmente útil.

Qué significa esto

STM32N6 no cancela el reconocimiento de voz en la nube, pero muestra que algunas tareas ya pueden trasladarse con confianza al borde. Donde la autonomía, la privacidad, el costo y el bajo consumo de energía son importantes, los MCU con NPU comienzan a parecer no como un experimento, sino como una nueva clase práctica de interfaces de voz.

Hamidun News

Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

Canal de Telegram RSS hamidun.com

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

🎓 Academy — 7 días gratis Consulta gratuita