Alibaba lança Qwen3.5-Omni — modelo multimodal nativo para texto, áudio e vídeo

Q: Qual é a fonte?

Publicado originalmente em MarkTechPost. O Hamidun News processa e adapta os materiais com IA.

Q: Quando foi publicado?

30 de abr. de 2026. Tempo de leitura: 3 min.

A Alibaba apresentou Qwen3.5-Omni — um novo modelo omnimodal que funciona com texto, imagens, áudio e vídeo sem unir módulos separados. A série inclui…

Redação da Hamidun News

Monitoramento de AI · MarkTechPost

30 de abr. de 2026· 3 min

Processado por IA de MarkTechPost; editado por Hamidun News

Alibaba lança Qwen3.5-Omni — modelo multimodal nativo para texto, áudio e vídeo — Fonte: MarkTechPost. Colagem: Hamidun News.

◐ Ouvir artigo

A Alibaba apresentou Qwen3.5-Omni — um modelo omnimídia nativo que compreende texto, imagens, áudio e vídeo em uma única arquitetura e consegue responder com voz em tempo real.

Como o modelo é estruturado

A ideia principal por trás do Qwen3.5-Omni é que não se trata de um conjunto de modelos separados conectados em cima de um núcleo de texto, mas de um sistema unificado projetado desde o início para múltiplos tipos de dados. A Alibaba contrasta essa abordagem com o formato multimodal antigo, onde visão ou som eram simplesmente "enxertados" em um LLM através de codificadores externos. Para desenvolvedores, a diferença importa: a arquitetura nativa típicamente mantém melhor contexto entre canais, conecta mais precisamente fala com imagens e escala mais facilmente para cenários do mundo real como chamadas, análise de vídeo e assistentes de voz.

No relatório técnico, Qwen3.5-Omni é descrito como um modelo omnimídia com arquitetura Hybrid Attention Mixture-of-Experts para dois circuitos — Thinker e Talker. O primeiro é responsável por compreensão e raciocínio, o segundo por respostas de voz em streaming. A Qwen afirma que o modelo foi treinado em pares texto-imagem heterogêneos e mais de 100 milhões de horas de dados audiovisuais. A janela de contexto anunciada é de 256 mil tokens, significando que uma única sessão pode incluir conversas muito longas, gravações de reuniões, palestras, capturas de tela e clipes de vídeo sem ser dividida em dezenas de pequenas solicitações.

A série vem em várias variantes: Plus, Flash e Light. Isso sugere uma lógica familiar de linha de produtos — máxima qualidade para tarefas complexas, modo rápido para cenários interativos e uma versão mais leve para economizar computação. A Alibaba enfatiza separadamente a operação em tempo real: Qwen3.5-Omni consegue fazer streaming de respostas em texto e fala natural, e o mecanismo ARIA é responsável por geração de voz mais estável e suave, que alinha dinamicamente unidades de texto e fala.

Principais capacidades do lançamento

De acordo com o relatório técnico, Qwen3.5-Omni-Plus mostra os melhores resultados em 215 tarefas e benchmarks relacionados a compreensão de áudio e audiovisual, raciocínio e interação. A Qwen nota separadamente que o modelo supera Gemini 3.1 Pro em tarefas-chave de áudio e está em nível comparável em compreensão audiovisual abrangente. Para a Alibaba, esse é um sinal importante ao mercado: a competição no segmento de modelos multimodais poderosos não se limita mais a OpenAI e Google, e laboratórios chineses reivindicam liderança precisamente nos modos mais complexos — voz, vídeo e diálogo ao vivo.

Janela de contexto de 256k
Mais de 10 horas de áudio em uma sessão
Mais de 400 segundos de vídeo 720p a 1 FPS
Variantes Plus, Flash e Light
Legendas estruturadas com cenas e timestamps

Outra parte forte do lançamento é trabalhar com descrições de áudio e vídeo. O relatório discute legendas estruturadas em nível de cena: o modelo consegue construir descrições detalhadas com sincronização temporal precisa e segmentação automática de cenas. Isso é útil não apenas para arquivos de mídia, mas também para busca de vídeo, análise de chamadas, treinamento, cenários de acessibilidade e controle de qualidade de conteúdo.

Em essência, a Alibaba está empurrando Qwen3.5-Omni em direção a uma camada de compreensão universal para qualquer formato de mídia, em vez de apenas um "chatbot que também ouve". Separadamente, pesquisadores notam o surgimento de uma nova capacidade chamada Audio-Visual Vibe Coding.

Isso envolve codificação direta a partir de instruções audiovisuais: o modelo consegue interpretar não apenas um pedido de texto, mas também uma explicação de voz junto com contexto visual. Por enquanto, isso é mais um sinal de pesquisa do que um produto de massa pronto, mas a direção é reveladora. Se tais modos se consolidarem, um desenvolvedor poderia evitar reescrever um relatório de bug em texto manualmente, e simplesmente mostrar a interface, descrever o problema verbalmente e obter um esboço de solução funcional.

O que isso significa

Qwen3.5-Omni mostra que o próximo estágio da corrida da IA não é sobre mais um chatbot de texto, mas sobre modelos que funcionam igualmente com confiança com som, imagens, vídeo e fala em um único fluxo. Para negócios, isso abre o caminho para produtos mais coesos: agentes de voz, análise de reuniões, busca de mídia e interfaces que entendem não apenas texto, mas tudo que o usuário mostra e diz.

Hamidun News

Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Canal do Telegram RSS hamidun.com

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

🎓 Academy — 7 dias grátis Consultoria grátis