Alibaba lança Qwen3.5-Omni — modelo multimodal nativo para texto, áudio e vídeo
A Alibaba apresentou Qwen3.5-Omni — um novo modelo omnimodal que funciona com texto, imagens, áudio e vídeo sem unir módulos separados. A série inclui…
Processado por IA de MarkTechPost; editado por Hamidun News
A Alibaba apresentou Qwen3.5-Omni — um modelo omnimídia nativo que compreende texto, imagens, áudio e vídeo em uma única arquitetura e consegue responder com voz em tempo real.
Como o modelo é estruturado
A ideia principal por trás do Qwen3.5-Omni é que não se trata de um conjunto de modelos separados conectados em cima de um núcleo de texto, mas de um sistema unificado projetado desde o início para múltiplos tipos de dados. A Alibaba contrasta essa abordagem com o formato multimodal antigo, onde visão ou som eram simplesmente "enxertados" em um LLM através de codificadores externos. Para desenvolvedores, a diferença importa: a arquitetura nativa típicamente mantém melhor contexto entre canais, conecta mais precisamente fala com imagens e escala mais facilmente para cenários do mundo real como chamadas, análise de vídeo e assistentes de voz.
No relatório técnico, Qwen3.5-Omni é descrito como um modelo omnimídia com arquitetura Hybrid Attention Mixture-of-Experts para dois circuitos — Thinker e Talker. O primeiro é responsável por compreensão e raciocínio, o segundo por respostas de voz em streaming. A Qwen afirma que o modelo foi treinado em pares texto-imagem heterogêneos e mais de 100 milhões de horas de dados audiovisuais. A janela de contexto anunciada é de 256 mil tokens, significando que uma única sessão pode incluir conversas muito longas, gravações de reuniões, palestras, capturas de tela e clipes de vídeo sem ser dividida em dezenas de pequenas solicitações.
A série vem em várias variantes: Plus, Flash e Light. Isso sugere uma lógica familiar de linha de produtos — máxima qualidade para tarefas complexas, modo rápido para cenários interativos e uma versão mais leve para economizar computação. A Alibaba enfatiza separadamente a operação em tempo real: Qwen3.5-Omni consegue fazer streaming de respostas em texto e fala natural, e o mecanismo ARIA é responsável por geração de voz mais estável e suave, que alinha dinamicamente unidades de texto e fala.
Principais capacidades do lançamento
De acordo com o relatório técnico, Qwen3.5-Omni-Plus mostra os melhores resultados em 215 tarefas e benchmarks relacionados a compreensão de áudio e audiovisual, raciocínio e interação. A Qwen nota separadamente que o modelo supera Gemini 3.1 Pro em tarefas-chave de áudio e está em nível comparável em compreensão audiovisual abrangente. Para a Alibaba, esse é um sinal importante ao mercado: a competição no segmento de modelos multimodais poderosos não se limita mais a OpenAI e Google, e laboratórios chineses reivindicam liderança precisamente nos modos mais complexos — voz, vídeo e diálogo ao vivo.
- Janela de contexto de 256k
- Mais de 10 horas de áudio em uma sessão
- Mais de 400 segundos de vídeo 720p a 1 FPS
- Variantes Plus, Flash e Light
- Legendas estruturadas com cenas e timestamps
Outra parte forte do lançamento é trabalhar com descrições de áudio e vídeo. O relatório discute legendas estruturadas em nível de cena: o modelo consegue construir descrições detalhadas com sincronização temporal precisa e segmentação automática de cenas. Isso é útil não apenas para arquivos de mídia, mas também para busca de vídeo, análise de chamadas, treinamento, cenários de acessibilidade e controle de qualidade de conteúdo.
Em essência, a Alibaba está empurrando Qwen3.5-Omni em direção a uma camada de compreensão universal para qualquer formato de mídia, em vez de apenas um "chatbot que também ouve". Separadamente, pesquisadores notam o surgimento de uma nova capacidade chamada Audio-Visual Vibe Coding.
Isso envolve codificação direta a partir de instruções audiovisuais: o modelo consegue interpretar não apenas um pedido de texto, mas também uma explicação de voz junto com contexto visual. Por enquanto, isso é mais um sinal de pesquisa do que um produto de massa pronto, mas a direção é reveladora. Se tais modos se consolidarem, um desenvolvedor poderia evitar reescrever um relatório de bug em texto manualmente, e simplesmente mostrar a interface, descrever o problema verbalmente e obter um esboço de solução funcional.
O que isso significa
Qwen3.5-Omni mostra que o próximo estágio da corrida da IA não é sobre mais um chatbot de texto, mas sobre modelos que funcionam igualmente com confiança com som, imagens, vídeo e fala em um único fluxo. Para negócios, isso abre o caminho para produtos mais coesos: agentes de voz, análise de reuniões, busca de mídia e interfaces que entendem não apenas texto, mas tudo que o usuário mostra e diz.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.