36Kr (36氪)→ original

Ant Group apresenta Ming-flash-omni 2.0: um avanço multimodal aberto

A Ant Group apresentou o Ming-flash-omni 2.0, um poderoso modelo multimodal de código aberto. A novidade lidera em compreensão de dados visuais e geração de…

Processado por IA de 36Kr (36氪); editado por Hamidun News
Ant Group apresenta Ming-flash-omni 2.0: um avanço multimodal aberto
Fonte: 36Kr (36氪). Colagem: Hamidun News.
◐ Ouvir artigo

O Ant Group abriu o código-fonte do modelo multimodal mais ambicioso de seu portfólio — Ming-flash-omni 2.0. A empresa afirma que sua criação não apenas rivaliza com o Gemini 2.5 Pro do Google, mas também o supera em vários testes críticos. A principal diferença, porém, está em outro lugar: Ming-flash-omni 2.0 é a primeira da indústria a aprender a gerar áudio de forma síncrona — fala, ruído de fundo e música simultaneamente em uma única faixa. Isso não é meramente uma conquista técnica, mas uma transição para um novo nível de trabalho multimídia.

O surgimento de um modelo multimodal aberto de uma gigante fintech chinesa parece fazer parte de uma estratégia mais ampla. Enquanto os líderes de mercado ocidentais — OpenAI, Google, Anthropic — mantêm seus sistemas mais poderosos fechados, empresas como Ant Group estão começando a entender que a abertura pode se tornar uma vantagem competitiva. Ming-flash-omni 2.0, lançada com código-fonte aberto, ganha acesso instantâneo a uma comunidade de desenvolvedores que pode adaptar o modelo às necessidades locais, otimizá-lo para seus dispositivos e criar aplicações especializadas. Isso é especialmente significativo para os mercados asiáticos, onde a localização e a adaptação cultural são críticas.

Quanto às especificações técnicas, o modelo demonstra resultados impressionantes. Em testes de compreensão visual-linguística e geração de imagens com edição, Ming-flash-omni 2.0 mostra resultados que competem com Gemini 2.5 Pro, e em certos benchmarks até o superam. Mas visuais e texto já são território familiar para modelos grandes modernos. A verdadeira inovação está na funcionalidade de áudio. Até agora, ao sintetizar fala, os desenvolvedores ou geravam a voz separadamente ou adicionavam sons de fundo e música como camadas separadas em pós-produção. Ming-flash-omni 2.0 muda o jogo: pode criar simultaneamente todos os três componentes, compreendendo o contexto e garantindo sua interação natural em um único fluxo temporal.

Isso abre portas para casos de uso completamente novos. Para produção de mídia, significa acelerar a criação de dublagem para conteúdo de vídeo, documentários e podcasts. O sistema pode gerar não apenas a fala de um ator, mas também enriquecer a paisagem sonora com detalhes atmosféricos. Para desenvolvimento de aplicações de IA, a capacidade de geração de áudio unificada permite construir sistemas interativos mais complexos — desde assistentes inteligentes que soam como pessoas reais no mundo real, até cenários de jogos com design sonoro completo criado em tempo real.

O lançamento de Ming-flash-omni 2.0 com código-fonte aberto simboliza uma mudança na geopolítica da IA. Enquanto antes as inovações em multimodalidade eram dominadas por gigantes ocidentais, as empresas chinesas agora demonstram que podem não apenas acompanhar o ritmo, mas também avançar em direções específicas. O acesso aberto amplificará esse efeito, permitindo que desenvolvedores em todo o mundo experimentem e melhorem o modelo. A questão é apenas se a indústria ocidental consegue se adaptar rapidamente à nova realidade, onde as melhores ferramentas frequentemente estão em acesso aberto e disponíveis para todos, não apenas para aqueles que podem pagar pela computação em nuvem Tier-1 de grandes empresas.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…