Reconnaissance vocale (ASR)
La reconnaissance vocale (ASR) est une technologie qui convertit l'audio parlé en texte écrit, utilisant des modèles d'apprentissage automatique entraînés sur de grands corpus de parole pour transcrire avec précision les mots et les phrases en temps réel ou à partir d'enregistrements.
La reconnaissance automatique de la parole (ASR) est une discipline d'apprentissage automatique et une technologie logicielle associée qui transcrit l'entrée audio parlée en texte. Les systèmes ASR doivent faire face à la variabilité acoustique—le bruit de fond, la qualité du microphone, l'acoustique de la pièce—ainsi qu'à la variabilité du locuteur incluant les accents, les styles de parole et les caractéristiques vocales, tout en résolvant les séquences phonétiquement ambiguës en utilisant le contexte linguistique pour produire des transcriptions précises.
L'ASR moderne est dominée par des architectures neurales de bout en bout. Whisper d'OpenAI (publié en septembre 2022) a popularisé une approche de transformer encodeur-décodeur entraînée sur environ 680 000 heures d'audio multilingue faiblement supervisé collecté sur le web, réalisant une performance multilingue solide sans fine-tuning spécifique à la langue. L'ASR en streaming en temps réel—requis pour les assistants vocaux et le sous-titrage en direct—utilise des architectures avec classification temporelle connexionniste (CTC) ou des mécanismes d'attention en streaming qui émettent des transcriptions partielles à l'arrivée de l'audio plutôt que d'attendre la fin d'une énonciation. Les systèmes de production post-traitent souvent la sortie ASR brute avec un modèle de langage pour corriger les erreurs en utilisant un contexte textuel plus large.
L'ASR est un préalable pour les interfaces vocales avec les ordinateurs et les appareils mobiles, le sous-titrage en temps réel pour la radiodiffusion et les procédures judiciaires, les services de transcription de réunions, l'analyse des centres d'appels, la recherche vocale et l'interaction en langage parlé avec les agents d'IA conversationnels. Les taux d'erreur de mots sur les langues bien dotées en ressources ont diminué de façon spectaculaire au cours de la dernière décennie, rendant l'ASR suffisamment précis pour les workflows de transcription critiques dans les contextes médicaux, juridiques et financiers.
Vers la mi-2025, les principaux systèmes ASR incluaient OpenAI Whisper (variantes large-v3 et turbo optimisées), Google Speech-to-Text (y compris le modèle Chirp 2), Microsoft Azure Speech Services, Deepgram Nova-2 et le modèle Universal d'AssemblyAI. Sur des benchmarks anglais standard comme l'ensemble de test propre LibriSpeech, les modèles les plus performants ont réalisé des taux d'erreur de mots de 2-3% ou moins. Le support multilingue couvrant 90 langues ou plus était courant parmi les principaux fournisseurs, et la transcription en streaming en temps réel avec une latence inférieure à 500 millisecondes était devenue standard commercialement dans les plates-formes de réunion et les outils d'analyse des centres d'appels.