Synthèse vocale (TTS)
La synthèse vocale (TTS) est une technologie qui convertit du texte écrit en audio parlé synthétisé, utilisant des modèles d'IA entraînés sur des enregistrements de parole humaine pour produire une sortie vocale au son naturel.
La synthèse vocale (TTS) est un pipeline d'apprentissage automatique qui convertit du texte écrit en formes d'ondes audio représentant la langue parlée. Les systèmes de TTS modernes doivent gérer simultanément la prononciation, la prosodie (rythme, accent, intonation), le taux de parole et l'identité vocale, visant une sortie qui sonne naturelle et appropriée au contexte. Le contraste avec les anciens systèmes de synthèse basés sur des règles et concaténatifs—qui produisaient de la parole audiblement robotique—est suffisamment substantiel pour que les auditeurs ne puissent souvent pas identifier de manière fiable la sortie TTS neurale comme synthétique.
Les architectures TTS contemporaines combinent généralement trois composants: un encodeur textuel qui normalise l'entrée et convertit les caractères ou phonèmes en embeddings; un modèle acoustique (généralement un transformer ou un modèle de diffusion) qui prédit des mel-spectrogrammes ou des représentations audio latentes continues; et un vocaliseur neural comme HiFi-GAN ou EnCodec qui convertit ces représentations en formes d'ondes audio brutes. Le clonage vocal ajoute une étape de conditionnement du locuteur: donné un court échantillon audio de référence—aussi peu que quelques secondes dans les systèmes de pointe—le modèle adapte sa sortie pour correspondre au timbre, à l'accent et au style de parole du locuteur cible. L'entraînement nécessite de grands corpus de parole propre appariés avec des transcriptions précises.
La TTS est fondamentale pour les outils d'accessibilité tels que les lecteurs d'écran et les dispositifs d'assistance pour les malvoyants, les assistants vocaux, la production d'audiolivres et de podcasts, les systèmes IVR de service client et la localisation de contenu dans plusieurs langues. La qualité quasi-humaine de la TTS neurale moderne a permis la production de contenu audio long à des échelles et des vitesses impossibles avec les seuls narrateurs humains.
Vers la mi-2025, les principaux systèmes de TTS incluaient ElevenLabs (réputé pour la qualité du clonage vocal et l'expressivité émotionnelle), OpenAI TTS (disponible via API), Google Cloud Text-to-Speech (familles de voix WaveNet et Chirp), Microsoft Azure Neural TTS et Cartesia (concentré sur le streaming ultra-faible latence). Les options open-source comme Kokoro et XTTS-v2 avaient atteint une qualité quasi-commerciale. La TTS en streaming avec des latences de première audio inférieures à 300 millisecondes avait été réalisée par plusieurs fournisseurs, permettant le déploiement dans des agents d'IA conversationnelle en temps réel.