Alibaba lanza un traductor con latencia de 2.8 segundos en 60 idiomas
Alibaba presentó Qwen3.5-LiveTranslate-Flash, un modelo para la traducción simultánea de video y audio. Funciona con 60 idiomas de entrada y 29 idiomas de salid

Alibaba lanzó Qwen3.5-LiveTranslate-Flash — un modelo para traducción síncrona de voz y vídeo en tiempo real. Traduce desde 60 idiomas de entrada y proporciona resultados en 29 idiomas con una latencia de solo 2,8 segundos.
Qué puede hacer el nuevo traductor
La principal diferencia respecto a los traductores convencionales — Qwen3.5-LiveTranslate-Flash procesa vídeo y audio simultáneamente, sincronizando resultados. El modelo ve al hablante en pantalla, oye sus palabras y las transforma en voz en el idioma de destino, preservando el sonido natural y todas las emociones. No es simplemente traducción de texto a voz.
El modelo analiza el flujo de vídeo para sincronizar los movimientos de los labios del personaje o avatar traducido — algo frecuentemente utilizado para el doblaje de películas y servicios de streaming como Netflix. Actualmente el modelo está disponible solo como una API a través de Alibaba Cloud Model Studio. Los desarrolladores se conectan a través del protocolo WebSocket, lo que permite trabajar con flujos de datos en tiempo real sin demoras. El uso comercial requiere una licencia correspondiente de Alibaba.
Tecnología con clonación de voz
La principal innovación de Qwen3.5 — clonación dinámica de voz durante la traducción. El modelo escuchará el acento, el ritmo del habla, la entonación e incluso el timbre del hablante original y reproducirá estas características en la traducción. El resultado suena como un traductor con pronunciación perfecta e intuición lingüística, no como un robot frío. Todo esto funciona gracias a una arquitectura multimodal donde la red neuronal procesa simultáneamente:
- Señal de audio (tono, entonación, pausas, emociones, energía del hablante)
- Flujo de vídeo (movimientos de labios, expresiones faciales, expresión, gestos y lenguaje corporal)
- Texto en pantalla o en diapositivas (para mejor comprensión del contexto y términos técnicos)
- Palabras clave personalizables (términos científicos, nombres de marcas, nombres propios y abreviaturas)
Este enfoque garantiza que la traducción sea precisa y natural, incluso si el hablante original habla muy rápido, utiliza jerga local, bromea o emplea expresiones especializadas complejas.
Cómo será utilizado
En los puntos de referencia internacionales FLEURS y CoVoST2, Qwen3.5-LiveTranslate-Flash superó las principales soluciones comerciales de competidores. Un tiempo de respuesta de 2,8 segundos lo hace adecuado para uso síncrono: transmisiones en directo, conferencias globales, videollamadas comerciales, presentaciones corporativas.
Las primeras versiones ya están siendo probadas por empresas para interfaces de voz, asistentes de voz inteligentes y doblaje de contenido síncrono. Los creadores de vídeo podrán exportar vídeo con traducción automática y sincronización labial — realmente, como en una película. Las plataformas de streaming podrán lanzar contenido en 29 idiomas en minutos sin postprocesamiento.
Esto es especialmente interesante para educación y ciencia. Un profesor puede impartir una clase en ruso, y los estudiantes en Japón la escucharán en japonés con la pronunciación e entonación correctas del hablante.
Qué significa esto para la industria
La traducción síncrona se está trasladando desde cabinas especializadas al software en nube. Anteriormente, las empresas necesitaban intérpretes simultáneos con auriculares, cabinas de traducción y equipos especiales para transmisiones internacionales. Ahora todo esto puede hacerlo una API en minutos.
Esta es una herramienta poderosa para la globalización de contenidos. Un bloguero de Rusia puede comunicarse con una audiencia en chino, inglés y español, sin acento y sin contratar traductores humanos. Las conferencias corporativas pueden realizarse completamente con traducción simultánea en tiempo real sin interrupciones.
Y la calidad del resultado ya compite con traductores profesionales asalariados. Alibaba posiciona este modelo como una herramienta empresarial, pero su potencial es mucho más amplio — desde la accesibilidad de contenidos para personas con discapacidades hasta el intercambio cultural entre pueblos.