El STM32N6 de STMicroelectronics demostró reconocimiento de voz local sin nube a 0,2 W
El microcontrolador STM32N6 con NPU integrado logró reconocer habla no restringida directamente en el dispositivo, sin nube y con un consumo de unos 0,215 W…
Procesado por IA desde Habr AI; editado por Hamidun News
Los microcontroladores con NPU integrada están entrando en territorio que anteriormente pertenecía casi en su totalidad a los servicios en la nube de reconocimiento de voz. Un experimento en el STM32N6 demostró que el reconocimiento local de voz arbitraria ya puede ejecutarse directamente en el dispositivo — sin internet, casi en tiempo real y con un consumo de energía de alrededor de 0,215 W.
Cómo funciona el sistema
El autor del proyecto organizó el reconocimiento de voz en tres bloques: modelo acústico, decodificador y rescoring. La parte más pesada es la acústica: recibe la señal de audio cruda del micrófono y la convierte en una secuencia de fonemas. El decodificador debe ensamblar palabras a partir de estos fonemas, y el bloque de rescoring debe verificar el resultado teniendo en cuenta el contexto.
En la etapa actual, el modelo acústico ya se está ejecutando en el STM32N6 — es decir, la base fundamental de todo el sistema. En la práctica, se ve así: el dispositivo escucha el habla en tiempo real, la pasa a través de la NPU y genera un flujo de fonemas. En la demostración anterior se muestran palabras y números, mientras que abajo están los fonemas "crudos" predichos por el modelo.
Por ahora, la conversión de fonemas en palabras se realiza mediante coincidencia dura en lugar de un decodificador de lenguaje completo. Debido a esto, el sistema sigue siendo limitado, pero el simple hecho de que el modelo acústico funcione localmente en un microcontrolador es más importante que el "envoltorio" actual a su alrededor.
Números y limitaciones
El resultado más fuerte es el consumo de energía. Durante el reconocimiento de voz activo, todo el sistema consume aproximadamente 215 mW. De estos, aproximadamente 160 mW van a la NPU y al núcleo Cortex-M55, otros 45 mW a la memoria Flash y PSRAM externa, aproximadamente 10 mW a los pines externos.
Además, esto no es un modo después de la optimización: el núcleo todavía funciona sin suspensión agresiva, y la NPU se carga solo al 10,4%, por lo que aún hay espacio para una reducción adicional del consumo de energía. En cuanto a calidad, la situación también se ve seria para esta clase de hardware. El modelo contiene 8,5 millones de parámetros y, después de la cuantificación a int8, apenas perdió precisión, mostrando un PER del 5,3% en dev_clean y del 14,4% en dev_other en el dispositivo objetivo.
El tiempo de inferencia en la NPU fue de 52 ms para 500 ms de audio, y la latencia total fue de 985 ms. Casi la mitad de este retraso está relacionado no con el hardware, sino con la "ventana futura" que el modelo utiliza para una predicción más precisa de fonemas.
- Tamaño del modelo acústico — 8,5 millones de parámetros
- Consumo de energía durante el reconocimiento — aproximadamente 0,215 W
- Tiempo de inferencia de NPU — 52 ms para 500 ms de audio
- Pérdida de calidad después de la cuantificación a int8 — menos del 0,5%
- Uso de RAM — 18%, carga de NPU — 10,4%
Vale la pena hacer una comparación con sistemas más grandes. Por PER, este modelo resultó ser comparable con wav2vec 2.0 Base y HuBERT Base, aunque aquellos tienen aproximadamente 11 veces más tamaño y no están diseñados para ejecutarse en microcontroladores. Al mismo tiempo, el autor describe honestamente los límites del proyecto: esto aún no es un reemplazo para dictado completo, sino más bien un motor local para comandos y frases cortas donde la autonomía y la eficiencia energética son críticas.
Dónde ganará el microcontrolador
El punto fuerte de este enfoque no es la universalidad a cualquier costo, sino cerrar la brecha entre el simple keyword spotting y el ASR en la nube pesado. Las interfaces de voz locales ordinarias requieren una coincidencia exacta de comandos, pero aquí el dispositivo ya puede interpretar diferentes formulaciones de la misma solicitud. En lugar de una frase rígida, un usuario puede decir "hazlo más cálido", "sube unos cinco grados" o "sube la temperatura" — y el sistema entenderá una acción.
Esto abre escenarios bastante prácticos: casas inteligentes sin enviar voz hacia afuera, entrada de voz de números y parámetros en instalaciones de manufactura, trabajo en almacenes, dispositivos médicos y transporte, donde la red es inestable o no existe en absoluto. Otro plus es el espacio para crecer. Actualmente, el STM32N6 usa solo el 18% de RAM, y la NPU se utiliza aproximadamente en una décima parte de su capacidad.
Los siguientes pasos son claros: agregar un decodificador de fonemas, un modelo de lenguaje y supresión de ruido. Estos deberían convertir un prototipo técnico convincente en una interfaz de usuario realmente útil.
Qué significa esto
STM32N6 no cancela el reconocimiento de voz en la nube, pero muestra que algunas tareas ya pueden trasladarse con confianza al borde. Donde la autonomía, la privacidad, el costo y el bajo consumo de energía son importantes, los MCU con NPU comienzan a parecer no como un experimento, sino como una nueva clase práctica de interfaces de voz.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.