MarkTechPost→ original

Alibaba lance un traducteur avec une latence de 2.8 secondes dans 60 langues

Alibaba a présenté Qwen3.5-LiveTranslate-Flash, un modèle de traduction simultanée de la vidéo et de l’audio. Il prend en charge 60 langues en entrée et 29 lang

Alibaba lance un traducteur avec une latence de 2.8 secondes dans 60 langues
Source : MarkTechPost. Collage: Hamidun News.
◐ Écouter l'article

Alibaba a lancé Qwen3.5-LiveTranslate-Flash — un modèle pour la traduction synchrone de la parole et de la vidéo en temps réel. Il traduit de 60 langues d'entrée et fournit les résultats dans 29 langues avec une latence de seulement 2,8 secondes.

Ce que le nouveau traducteur peut faire

La principale différence par rapport aux traducteurs conventionnels — Qwen3.5-LiveTranslate-Flash traite la vidéo et l'audio simultanément, en synchronisant les résultats. Le modèle voit le locuteur à l'écran, entend ses paroles et les transforme en parole dans la langue cible, préservant le son naturel et toutes les émotions. Ce n'est pas simplement une traduction de texte en parole.

Le modèle analyse le flux vidéo pour synchroniser les mouvements des lèvres du personnage ou avatar traduit — quelque chose souvent utilisé pour le doublage de films et les services de streaming comme Netflix. Actuellement, le modèle n'est disponible que comme une API via Alibaba Cloud Model Studio. Les développeurs se connectent via le protocole WebSocket, ce qui permet de travailler avec des flux de données en temps réel sans délai. L'utilisation commerciale nécessite une licence appropriée d'Alibaba.

Technologie avec clonage vocal

L'innovation principale de Qwen3.5 — le clonage vocal dynamique lors de la traduction. Le modèle entendra l'accent, le rythme de la parole, l'intonation et même le timbre du locuteur original et reproduira ces caractéristiques dans la traduction. Le résultat semble être un traducteur ayant une prononciation parfaite et une intuition linguistique, pas un robot froid. Tout cela fonctionne grâce à une architecture multimodale où le réseau neuronal traite simultanément:

  • Signal audio (ton, intonation, pauses, émotions, énergie du locuteur)
  • Flux vidéo (mouvements des lèvres, expressions faciales, expression, gestes et langage corporel)
  • Texte à l'écran ou dans les diapositives (pour une meilleure compréhension du contexte et des termes techniques)
  • Mots-clés personnalisables (termes scientifiques, noms de marques, noms propres et abréviations)

Cette approche garantit que la traduction reste précise et naturelle, même si le locuteur original parle très vite, utilise l'argot local, fait des plaisanteries ou utilise des expressions spécialisées complexes.

Comment il sera utilisé

Sur les points de référence internationaux FLEURS et CoVoST2, Qwen3.5-LiveTranslate-Flash a surpassé les principales solutions commerciales des concurrents. Un temps de réponse de 2,8 secondes le rend adapté à un usage synchrone: les diffusions en direct, les conférences mondiales, les appels vidéo professionnels, les présentations d'entreprise.

Les premières versions sont déjà testées par des entreprises pour les interfaces vocales, les assistants vocaux intelligents et le doublage de contenu synchrone. Les créateurs vidéo pourront exporter des vidéos avec traduction automatique et synchronisation labiale — vraiment, comme dans un film. Les plates-formes de streaming pourront lancer du contenu dans 29 langues en quelques minutes sans post-traitement.

C'est particulièrement intéressant pour l'éducation et la science. Un professeur peut donner un cours en russe, et les étudiants au Japon l'entendront en japonais avec la bonne prononciation et l'intonation correcte du locuteur.

Ce que cela signifie pour l'industrie

La traduction synchrone passe des cabines spécialisées aux logiciels en nuage. Auparavant, les entreprises avaient besoin d'interprètes simultanés avec des écouteurs, de cabines de traduction et d'équipements spéciaux pour les diffusions internationales. Maintenant, tout cela peut être fait par une API en quelques minutes.

C'est un outil puissant pour la mondialisation du contenu. Un blogueur de Russie peut communiquer avec un public en chinois, en anglais et en espagnol, sans accent et sans embaucher des traducteurs humains. Les conférences d'entreprise peuvent être menées entièrement avec traduction simultanée en temps réel sans pauses.

Et la qualité du résultat rivalise déjà avec celle des traducteurs professionnels salariés. Alibaba positionne ce modèle comme un outil professionnel, mais son potentiel est bien plus large — allant de l'accessibilité du contenu pour les personnes handicapées à l'échange culturel entre les peuples.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.
Qu'en pensez-vous ?
Chargement des commentaires…