Modelos

Reconhecimento de Fala (ASR)

Reconhecimento de fala (ASR) é uma tecnologia que converte áudio falado em texto escrito, usando modelos de aprendizado de máquina treinados em grandes corpora de fala para transcrever com precisão palavras e sentenças em tempo real ou de gravações.

Reconhecimento automático de fala (ASR) é uma disciplina de aprendizado de máquina e tecnologia de software associada que transcreve entrada de áudio falado em texto. Sistemas ASR devem lidar com variabilidade acústica—ruído de fundo, qualidade de microfone, acústica da sala—bem como variabilidade de falante incluindo sotaques, estilos de fala e características vocais, enquanto resolvem sequências foneticamente ambíguas usando contexto de linguagem para produzir transcrições precisas.

ASR moderno é dominado por arquiteturas neurais end-to-end. Whisper da OpenAI (lançado em setembro de 2022) popularizou uma abordagem de encoder-decoder transformer treinada em aproximadamente 680.000 horas de áudio multilíngue fracamente supervisionado coletado da web, alcançando forte desempenho multilíngue sem fine-tuning específico de linguagem. ASR streaming em tempo real—requerido para assistentes de voz e legendagem ao vivo—usa arquiteturas com classificação temporal conectivista (CTC) ou mecanismos de atenção streaming que emitem transcrições parciais conforme áudio chega em vez de esperar uma enunciação se completar. Sistemas de produção frequentemente pós-processam saída bruta de ASR com um modelo de linguagem para corrigir erros usando contexto textual mais amplo.

ASR é um pré-requisito para interfaces de voz para computadores e dispositivos móveis, legendagem em tempo real para broadcast e processos judiciais, serviços de transcrição de reuniões, análise de call centers, busca por voz e interação de linguagem falada com agentes de IA conversacional. Taxas de erro de palavra em idiomas bem-atendidos declinaram dramaticamente na última década, tornando ASR preciso o suficiente para fluxos de trabalho de transcrição críticos para a missão em contextos médicos, legais e financeiros.

A partir de meados de 2025, sistemas ASR líderes incluíam OpenAI Whisper (variantes large-v3 e turbo otimizada), Google Speech-to-Text (incluindo o modelo Chirp 2), Microsoft Azure Speech Services, Deepgram Nova-2 e o modelo Universal da AssemblyAI. Em benchmarks padrão em inglês como o conjunto de testes limpo LibriSpeech, modelos superiores alcançaram taxas de erro de palavra de 2–3% ou abaixo. Suporte multilíngue abrangendo 90 ou mais idiomas era comum entre principais provedores, e transcrição streaming em tempo real com latência sub-500-milissegundo se tornou comercialmente padrão em plataformas de reuniões e ferramentas de análise de call centers.

Exemplo

Uma empresa de serviços legais integra um sistema ASR streaming em sua plataforma de videoconferência para transcrever deposições de clientes em tempo real, produzindo transcrições com timestampe e pesquisáveis que advogados podem revisar imediatamente após cada sessão em vez de esperar dias por um serviço de transcrição humana.

Termos relacionados

Últimas notícias sobre o tema

← Glossário