MarkTechPost→ original

Google a présenté Gemini 3.1 Flash TTS — modèle de parole avec contrôle, dialogues et 70+ langues

Google a lancé Gemini 3.1 Flash TTS — un nouveau modèle TTS en aperçu mettant l'accent sur la naturalité et le contrôle. Il supporte 70+ langues, génère…

Traité par IA depuis MarkTechPost ; édité par Hamidun News
Google a présenté Gemini 3.1 Flash TTS — modèle de parole avec contrôle, dialogues et 70+ langues
Source : MarkTechPost. Collage: Hamidun News.
◐ Écouter l'article

Google a lancé Gemini 3.1 Flash TTS en aperçu — un nouveau modèle de synthèse vocale qui mise non pas simplement sur la voix-off de texte, mais sur la direction vocale gérée. La différence clé de la version est que les développeurs peuvent définir l'intonation, le rythme, l'accent et même les changements émotionnels directement dans le prompt textuel, plutôt que de choisir le résultat à l'aveugle à travers un ensemble de paramètres fixes.

Pour le marché de l'IA vocale, c'est un changement notable : la synthèse de texte en parole semble de moins en moins une boîte noire et de plus en plus un outil de mise en scène. La version est déjà déployée en mode aperçu pour les développeurs via Gemini API et Google AI Studio, pour les clients d'entreprise via Vertex AI, et pour les utilisateurs de Workspace via Google Vids. Selon Google, Gemini 3.

1 Flash TTS a obtenu 1211 points Elo dans le classement Artificial Analysis TTS, basé sur des comparaisons en aveugle de la qualité vocale par les utilisateurs. L'entreprise appelle le modèle le plus naturel et expressif de sa gamme TTS. Google souligne également la combinaison d'une haute qualité et d'un coût relativement faible, c'est-à-dire que le modèle vise non seulement les scénarios de démonstration, mais aussi les cas d'utilisation de produits de masse.

La caractéristique clé de la mise à jour est les audio tags — des commandes textuelles intégrées qui permettent de contrôler exactement comment une phrase est prononcée. Les développeurs peuvent décrire une scène, attribuer un profil vocal à un personnage, ajouter des instructions de mise en scène sur le ton et le rythme, puis affiner des lignes individuelles ou même des parties d'une seule ligne via des balises inline entre crochets. En d'autres termes, la même phrase peut sonner calme, irritée, chuchotée ou accélérée sans basculer vers un pipeline différent.

Dans Google AI Studio, ils ont ajouté des contrôles configurables pour cela, et les paramètres prêts à l'emploi peuvent être exportés vers le code Gemini API pour maintenir un son cohérent entre les projets et les plateformes.

Le deuxième accent majeur est l'échelle mondiale. Gemini 3.1 Flash TTS prend en charge plus de 70 langues et mise non seulement sur la conversion formelle du texte en audio, mais aussi sur les caractéristiques vocales locales : accents, nuances dialectales et rythme de livraison.

Pour les équipes produit, c'est particulièrement important dans les scénarios de localisation, de doublage, d'assistant vocal, de podcasts, de vidéos éducatives et de livres audio. Une autre différence notable est le mode multi-locuteur natif. Le modèle peut générer un dialogue entre deux locuteurs dans une seule requête sans casser la conversation en appels API séparés.

Cela devrait fournir un rythme plus naturel et une cohérence des répliques par rapport au schéma classique, où chaque voix est synthétisée séparément puis assemblée du côté de l'application.

Google a également intégré des filigranes SynthID dans l'intégralité du flux audio généré. Ils ne doivent pas être perceptibles pour l'auditeur, mais permettent de déterminer de manière fiable que l'enregistrement a été créé par l'IA. Face à la croissance de la qualité de la parole synthétique, ce n'est plus une option supplémentaire, mais un élément de sécurité fondamental : plus la voix est convaincante, plus il est important de pouvoir vérifier son origine par machine.

En même temps, le modèle est actuellement en aperçu et a des limitations. Dans la documentation, Google note que TTS ici ne supporte pas le streaming, les réponses longues sur plusieurs minutes peuvent perdre en stabilité et en qualité, et dans de rares cas le service renvoie des tokens textuels au lieu d'audio, ce qui cause l'échec de la requête avec l'erreur 500. Une nuance distincte concerne les prompts : si l'instruction est vague, le modèle peut rejeter la requête ou prononcer littéralement les notes de mise en scène du service.

La conclusion ici est simple : Google essaie de transformer la synthèse vocale d'un outil API étroit en partie d'une plateforme Gemini véritablement multimodale. Gemini 3.1 Flash TTS est intéressant non seulement parce qu'il sonne mieux que les versions précédentes, mais aussi parce qu'il donne aux développeurs une interface plus claire et plus maniable pour travailler avec la voix. Si l'entreprise stabilise rapidement les générations longues et maintient l'équilibre prix-qualité, elle a de bonnes chances de s'établir non seulement dans la couche infrastructure, mais aussi dans les produits vocaux créatifs, où les services TTS spécialisés ont jusqu'à présent dominé.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…