Alibaba lança tradutor com latência de 2.8 segundos em 60 idiomas

Q: Источник материала?

Оригинальная публикация на MarkTechPost. Hamidun News обрабатывает и адаптирует материалы с помощью AI.

Q: Когда опубликовано?

2026-05-21. Время чтения: 3 мин.

A Alibaba apresentou o Qwen3.5-LiveTranslate-Flash, um modelo para tradução simultânea de vídeo e áudio. Ele suporta 60 idiomas de entrada e 29 idiomas de saída

Redação da Hamidun News

Monitoramento de AI · MarkTechPost

2026-05-21· 2 min

Alibaba lança tradutor com latência de 2.8 segundos em 60 idiomas — Fonte: MarkTechPost. Colagem: Hamidun News.

◐ Ouvir artigo

A Alibaba lançou o Qwen3.5-LiveTranslate-Flash — um modelo para tradução síncrona de fala e vídeo em tempo real. Traduz de 60 idiomas de entrada e fornece resultados em 29 idiomas com uma latência de apenas 2,8 segundos.

O que o novo tradutor consegue fazer

A principal diferença em relação aos tradutores convencionais — o Qwen3.5-LiveTranslate-Flash processa vídeo e áudio simultaneamente, sincronizando os resultados. O modelo vê o falante na tela, ouve suas palavras e as transforma em fala no idioma-alvo, preservando o som natural e todas as emoções. Não é apenas tradução de texto em fala.

O modelo analisa o fluxo de vídeo para sincronizar os movimentos dos lábios do personagem ou avatar traduzido — algo frequentemente usado para dublagem de filmes e serviços de streaming como Netflix. Atualmente, o modelo está disponível apenas como uma API através do Alibaba Cloud Model Studio. Os desenvolvedores se conectam via protocolo WebSocket, o que permite trabalhar com fluxos de dados em tempo real sem atrasos. O uso comercial requer uma licença correspondente da Alibaba.

Tecnologia com clonagem de voz

A principal inovação do Qwen3.5 — clonagem dinâmica de voz durante a tradução. O modelo ouvirá o sotaque, o ritmo da fala, a entonação e até mesmo o timbre do falante original e reproduzirá essas características na tradução. O resultado soa como um tradutor com pronúncia perfeita e intuição linguística, não como um robô frio. Tudo isso funciona graças a uma arquitetura multimodal, onde a rede neural processa simultaneamente:

Sinal de áudio (tom, entonação, pausas, emoções, energia do falante)
Fluxo de vídeo (movimentos dos lábios, expressões faciais, expressão, gestos e linguagem corporal)
Texto na tela ou nos slides (para melhor compreensão do contexto e termos técnicos)
Palavras-chave personalizáveis (termos científicos, nomes de marcas, nomes próprios e abreviaturas)

Essa abordagem garante que a tradução permaneça precisa e natural, mesmo que o falante original fale muito rápido, use gíria local, faça piadas ou use expressões especializadas complexas.

Como será utilizado

Nos benchmarks internacionais FLEURS e CoVoST2, o Qwen3.5-LiveTranslate-Flash superou as principais soluções comerciais de concorrentes. Um tempo de resposta de 2,8 segundos o torna adequado para uso síncrono: transmissões ao vivo, conferências globais, videochamadas comerciais, apresentações corporativas.

As primeiras versões já estão sendo testadas por empresas para interfaces de voz, assistentes de voz inteligentes e dublagem de conteúdo síncrono. Criadores de vídeo poderão exportar vídeos com tradução automática e sincronização labial — realmente, como em um filme. Plataformas de streaming poderão lançar conteúdo em 29 idiomas em poucos minutos sem pós-processamento.

Isso é especialmente interessante para educação e ciência. Um professor pode dar uma aula em russo, e os alunos no Japão a ouvirão em japonês com a pronúncia e entonação corretas do falante.

O que isso significa para a indústria

A tradução síncrona está se movendo de cabines especializadas para software em nuvem. Anteriormente, as empresas precisavam de intérpretes simultâneos em fones de ouvido, cabines de tradução e equipamentos especiais para transmissões internacionais. Agora tudo isso pode ser feito por uma API em minutos.

Esta é uma ferramenta poderosa para globalização de conteúdo. Um blogueiro da Rússia pode se comunicar com uma audiência em chinês, inglês e espanhol, sem sotaque e sem contratar tradutores humanos. Conferências corporativas podem ser realizadas completamente com tradução em tempo real síncrona sem pausas.

E a qualidade do resultado já compete com tradutores profissionais em folha de pagamento. A Alibaba posiciona este modelo como uma ferramenta de negócios, mas seu potencial é muito mais amplo — desde acessibilidade de conteúdo para pessoas com deficiência até intercâmbio cultural entre povos.

Hamidun News

Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Canal do Telegram RSS hamidun.com