STM32N6 da STMicroelectronics demonstrou reconhecimento de fala local sem nuvem a 0,2 W
O microcontrolador STM32N6 com NPU integrado conseguiu reconhecer fala não restrita diretamente no dispositivo — sem nuvem e com consumo de cerca de 0,215 W…
Processado por IA de Habr AI; editado por Hamidun News
Microcontroladores com NPU integrada estão entrando em território que anteriormente pertencia quase inteiramente aos serviços em nuvem de reconhecimento de fala. Um experimento no STM32N6 mostrou que o reconhecimento local de fala arbitrária já pode ser executado diretamente no dispositivo — sem internet, quase em tempo real e com consumo de potência em torno de 0,215 W.
Como o sistema funciona
O autor do projeto organizou o reconhecimento de fala em três blocos: modelo acústico, decodificador e rescoring. A parte mais pesada é a acústica: ela recebe o sinal de áudio bruto do microfone e o converte em uma sequência de fonemas. O decodificador deve montar palavras a partir desses fonemas, e o bloco de rescoring deve verificar novamente o resultado levando em conta o contexto.
No estágio atual, o modelo acústico já está em execução no STM32N6 — ou seja, a base fundamental de todo o sistema. Na prática, fica assim: o dispositivo escuta a fala em tempo real, a passa pelo NPU e produz um fluxo de fonemas. Na demonstração acima, palavras e números são exibidos, enquanto abaixo estão os fonemas "brutos" previstos pelo modelo.
Por enquanto, a conversão de fonemas em palavras é feita por correspondência rígida em vez de um decodificador de linguagem completo. Por isso, o sistema ainda é limitado, mas o simples fato de o modelo acústico funcionar localmente em um microcontrolador é mais importante do que o "wrapper" atual em torno dele.
Números e limitações
O resultado mais forte é o consumo de energia. Durante o reconhecimento de fala ativo, todo o sistema consome cerca de 215 mW. Desses, aproximadamente 160 mW vão para o NPU e o núcleo Cortex-M55, outros 45 mW para a memória Flash e PSRAM externa, cerca de 10 mW para pinos externos.
Além disso, isso não é um modo após otimização: o núcleo ainda está funcionando sem sono agressivo, e o NPU está carregado apenas em 10,4%, então ainda há espaço para redução adicional de potência. Em termos de qualidade, a situação também parece séria para essa classe de hardware. O modelo contém 8,5 milhões de parâmetros e, após quantização para int8, perdeu quase nenhuma precisão, apresentando PER de 5,3% em dev_clean e 14,4% em dev_other no dispositivo alvo.
O tempo de inferência no NPU foi de 52 ms para 500 ms de áudio, e a latência total foi de 985 ms. Quase metade dessa demora está relacionada não ao hardware, mas à "janela futura" que o modelo usa para prever fonemas com mais precisão.
- Tamanho do modelo acústico — 8,5 milhões de parâmetros
- Consumo de potência durante o reconhecimento — cerca de 0,215 W
- Tempo de inferência do NPU — 52 ms para 500 ms de áudio
- Perda de qualidade após quantização para int8 — menos de 0,5%
- Uso de RAM — 18%, carga do NPU — 10,4%
Vale a pena notar uma comparação com sistemas maiores. Por PER, este modelo se mostrou comparável ao wav2vec 2.0 Base e HuBERT Base, embora aqueles sejam cerca de 11 vezes maiores e não projetados para rodar em microcontroladores. Ao mesmo tempo, o autor honestamente delineia os limites do projeto: isso ainda não é um substituto para ditado completo, mas um motor local para comandos e frases curtas onde autonomia e eficiência energética são críticas.
Onde o microcontrolador vencerá
O ponto forte dessa abordagem não é universalidade a qualquer custo, mas fechar a lacuna entre simples keyword spotting e ASR pesado em nuvem. As interfaces de voz locais comuns requerem correspondência exata de comandos, mas aqui o dispositivo já pode interpretar diferentes formulações da mesma solicitação. Em vez de uma frase rígida, um usuário pode dizer "deixa mais quente", "aumenta uns cinco graus" ou "sobe a temperatura" — e o sistema entenderá uma ação.
Isso abre cenários bastante práticos: casas inteligentes sem enviar voz para fora, entrada de voz de números e parâmetros em instalações de manufatura, trabalho em armazéns, dispositivos médicos e transporte, onde a rede é instável ou inexistente. Outro plus é espaço para crescimento. Atualmente, o STM32N6 usa apenas 18% de RAM, e o NPU é utilizado em cerca de um décimo de sua capacidade.
Os próximos passos são claros: adicionar um decodificador de fonemas, um modelo de linguagem e supressão de ruído. Estes devem transformar um protótipo técnico convincente em uma interface de usuário verdadeiramente útil.
O que isso significa
STM32N6 não cancela o reconhecimento de fala em nuvem, mas mostra que algumas tarefas já podem ser movidas com confiança para a borda. Onde autonomia, privacidade, custo e baixo consumo de energia são importantes, MCUs com NPU começam a parecer não como um experimento, mas como uma nova classe prática de interfaces de voz.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.