Alibaba lança tradutor com latência de 2.8 segundos em 60 idiomas
A Alibaba apresentou o Qwen3.5-LiveTranslate-Flash, um modelo para tradução simultânea de vídeo e áudio. Ele suporta 60 idiomas de entrada e 29 idiomas de saída

A Alibaba lançou o Qwen3.5-LiveTranslate-Flash — um modelo para tradução síncrona de fala e vídeo em tempo real. Traduz de 60 idiomas de entrada e fornece resultados em 29 idiomas com uma latência de apenas 2,8 segundos.
O que o novo tradutor consegue fazer
A principal diferença em relação aos tradutores convencionais — o Qwen3.5-LiveTranslate-Flash processa vídeo e áudio simultaneamente, sincronizando os resultados. O modelo vê o falante na tela, ouve suas palavras e as transforma em fala no idioma-alvo, preservando o som natural e todas as emoções. Não é apenas tradução de texto em fala.
O modelo analisa o fluxo de vídeo para sincronizar os movimentos dos lábios do personagem ou avatar traduzido — algo frequentemente usado para dublagem de filmes e serviços de streaming como Netflix. Atualmente, o modelo está disponível apenas como uma API através do Alibaba Cloud Model Studio. Os desenvolvedores se conectam via protocolo WebSocket, o que permite trabalhar com fluxos de dados em tempo real sem atrasos. O uso comercial requer uma licença correspondente da Alibaba.
Tecnologia com clonagem de voz
A principal inovação do Qwen3.5 — clonagem dinâmica de voz durante a tradução. O modelo ouvirá o sotaque, o ritmo da fala, a entonação e até mesmo o timbre do falante original e reproduzirá essas características na tradução. O resultado soa como um tradutor com pronúncia perfeita e intuição linguística, não como um robô frio. Tudo isso funciona graças a uma arquitetura multimodal, onde a rede neural processa simultaneamente:
- Sinal de áudio (tom, entonação, pausas, emoções, energia do falante)
- Fluxo de vídeo (movimentos dos lábios, expressões faciais, expressão, gestos e linguagem corporal)
- Texto na tela ou nos slides (para melhor compreensão do contexto e termos técnicos)
- Palavras-chave personalizáveis (termos científicos, nomes de marcas, nomes próprios e abreviaturas)
Essa abordagem garante que a tradução permaneça precisa e natural, mesmo que o falante original fale muito rápido, use gíria local, faça piadas ou use expressões especializadas complexas.
Como será utilizado
Nos benchmarks internacionais FLEURS e CoVoST2, o Qwen3.5-LiveTranslate-Flash superou as principais soluções comerciais de concorrentes. Um tempo de resposta de 2,8 segundos o torna adequado para uso síncrono: transmissões ao vivo, conferências globais, videochamadas comerciais, apresentações corporativas.
As primeiras versões já estão sendo testadas por empresas para interfaces de voz, assistentes de voz inteligentes e dublagem de conteúdo síncrono. Criadores de vídeo poderão exportar vídeos com tradução automática e sincronização labial — realmente, como em um filme. Plataformas de streaming poderão lançar conteúdo em 29 idiomas em poucos minutos sem pós-processamento.
Isso é especialmente interessante para educação e ciência. Um professor pode dar uma aula em russo, e os alunos no Japão a ouvirão em japonês com a pronúncia e entonação corretas do falante.
O que isso significa para a indústria
A tradução síncrona está se movendo de cabines especializadas para software em nuvem. Anteriormente, as empresas precisavam de intérpretes simultâneos em fones de ouvido, cabines de tradução e equipamentos especiais para transmissões internacionais. Agora tudo isso pode ser feito por uma API em minutos.
Esta é uma ferramenta poderosa para globalização de conteúdo. Um blogueiro da Rússia pode se comunicar com uma audiência em chinês, inglês e espanhol, sem sotaque e sem contratar tradutores humanos. Conferências corporativas podem ser realizadas completamente com tradução em tempo real síncrona sem pausas.
E a qualidade do resultado já compete com tradutores profissionais em folha de pagamento. A Alibaba posiciona este modelo como uma ferramenta de negócios, mas seu potencial é muito mais amplo — desde acessibilidade de conteúdo para pessoas com deficiência até intercâmbio cultural entre povos.