Habr AI→ original

Le STM32N6 de STMicroelectronics a montré une reconnaissance vocale locale sans cloud à 0,2 W

Le microcontrôleur STM32N6 avec NPU intégré a pu reconnaître de la parole non contrainte directement sur l'appareil — sans cloud et avec une consommation…

Traité par IA depuis Habr AI ; édité par Hamidun News
Le STM32N6 de STMicroelectronics a montré une reconnaissance vocale locale sans cloud à 0,2 W
Source : Habr AI. Collage: Hamidun News.
◐ Écouter l'article

Les microcontrôleurs avec NPU intégrée entrent sur un territoire qui appartenait auparavant presque entièrement aux services de reconnaissance vocale dans le cloud. Une expérience sur le STM32N6 a montré que la reconnaissance vocale locale d'une parole arbitraire peut déjà être lancée directement sur l'appareil — sans internet, presque en temps réel et avec une consommation d'environ 0,215 W.

Comment fonctionne le système

L'auteur du projet a organisé la reconnaissance vocale en trois blocs : modèle acoustique, décodeur et rescoring. La partie la plus lourde est l'acoustique : elle reçoit le signal audio brut du microphone et le convertit en une séquence de phonèmes. Le décodeur doit assembler les mots à partir de ces phonèmes, et le bloc de rescoring doit vérifier le résultat en tenant compte du contexte.

Au stade actuel, le modèle acoustique s'exécute déjà sur le STM32N6 — c'est-à-dire la base fondamentale de tout le système. En pratique, cela ressemble à ceci : l'appareil écoute la parole en temps réel, la traite à travers le NPU et produit un flux de phonèmes. Dans la démonstration ci-dessus, les mots et les chiffres sont affichés, tandis que ci-dessous se trouvent les phonèmes « bruts » prédits par le modèle.

Pour l'instant, la conversion des phonèmes en mots se fait par appariement rigide plutôt que par un décodeur de langage complet. Pour cette raison, le système est encore limité, mais le simple fait que le modèle acoustique fonctionne localement sur un microcontrôleur est plus important que le « wrapper » actuel autour de lui.

Chiffres et limitations

Le résultat le plus fort est la consommation d'énergie. Lors de la reconnaissance vocale active, l'ensemble du système consomme environ 215 mW. Parmi ceux-ci, environ 160 mW vont au NPU et au cœur Cortex-M55, 45 mW supplémentaires à la mémoire Flash et PSRAM externes, environ 10 mW aux broches externes.

De plus, ce n'est pas un mode après optimisation : le cœur fonctionne toujours sans sommeil agressif, et le NPU n'est chargé qu'à 10,4%, il y a donc encore de la place pour une réduction supplémentaire de la consommation. En termes de qualité, la situation semble aussi sérieuse pour cette classe de matériel. Le modèle contient 8,5 millions de paramètres et, après quantification en int8, a perdu presque aucune précision, montrant un PER de 5,3% sur dev_clean et 14,4% sur dev_other sur l'appareil cible.

Le temps d'inférence sur le NPU était de 52 ms pour 500 ms d'audio, et la latence totale était de 985 ms. Près de la moitié de ce délai est lié non au matériel, mais à la « fenêtre future » que le modèle utilise pour une prédiction plus précise des phonèmes.

  • Taille du modèle acoustique — 8,5 millions de paramètres
  • Consommation d'énergie lors de la reconnaissance — environ 0,215 W
  • Temps d'inférence NPU — 52 ms pour 500 ms d'audio
  • Perte de qualité après quantification en int8 — moins de 0,5%
  • Utilisation de RAM — 18%, charge NPU — 10,4%

Il convient de noter une comparaison avec les systèmes plus grands. En PER, ce modèle s'avère comparable à wav2vec 2.0 Base et HuBERT Base, bien que ceux-ci soient environ 11 fois plus volumineux et non conçus pour fonctionner sur des microcontrôleurs. En même temps, l'auteur décrit honnêtement les limites du projet : ce n'est pas encore un remplacement pour la dictée complète, mais plutôt un moteur local pour les commandes courtes et les phrases où l'autonomie et l'efficacité énergétique sont critiques.

Où le microcontrôleur gagnera

Le point fort de cette approche n'est pas l'universalité à tout prix, mais de combler le fossé entre la simple détection de mots-clés et la reconnaissance vocale cloud lourde. Les interfaces vocales locales ordinaires nécessitent une correspondance exacte des commandes, mais ici l'appareil peut déjà interpréter différentes formulations de la même demande. Au lieu d'une phrase rigide, un utilisateur peut dire « rends-le plus chaud », « ajoute environ cinq degrés » ou « monte la température » — et le système comprendra une action.

Cela ouvre des scénarios tout à fait pratiques : maisons intelligentes sans envoyer la voix à l'extérieur, entrée vocale de nombres et de paramètres dans les installations de fabrication, travail dans les entrepôts, les appareils médicaux et le transport, où le réseau est instable ou absent. Un autre avantage est la place pour la croissance. Actuellement, le STM32N6 n'utilise que 18% de la RAM, et le NPU est utilisé à environ un dixième de sa capacité.

Les prochaines étapes sont claires : ajouter un décodeur de phonèmes, un modèle de langage et la suppression du bruit. Ceux-ci devraient transformer un prototype technique convaincant en une interface utilisateur véritablement utile.

Ce que cela signifie

STM32N6 n'annule pas la reconnaissance vocale cloud, mais montre que certaines tâches peuvent déjà être transférées avec confiance vers le bord. Là où l'autonomie, la confidentialité, le coût et la faible consommation d'énergie sont importants, les MCU avec NPU commencent à ressembler non pas à une expérience, mais à une nouvelle classe pratique d'interfaces vocales.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…