Habr AI→ original

Sber lança Kandinsky 6.0 Image Pro — modelo unificado para geração e edição de imagens

Sber atualizou a linha Kandinsky e lançou 6.0 Image Pro — modelo unificado para geração e edição de imagens. De acordo com a empresa, funciona no nível do…

Processado por IA de Habr AI; editado por Hamidun News
Sber lança Kandinsky 6.0 Image Pro — modelo unificado para geração e edição de imagens
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

Sber lançou o Kandinsky 6.0 Image Pro — um novo modelo unificado que combina geração e edição de imagens. A empresa enfatiza não apenas a qualidade da geração de texto para imagem, mas principalmente os cenários de edição precisa e complexa.

O que foi atualizado

A nova versão combina geração de imagens a partir de texto e edição em um único modelo. Esta é uma mudança importante em comparação com a linha anterior Kandinsky 5, onde a ênfase era distribuída entre vários modos e variantes de modelos separados. O cenário do usuário fica mais curto: a mesma ferramenta pode ser usada tanto para a primeira renderização quanto para ajustes subsequentes da cena.

Agora Sber está promovendo um produto principal para ambas as tarefas — desde criar uma imagem do zero até substituir objetos, estilizar fotos e editar localmente um quadro finalizado. De acordo com as comparações internas da empresa, Kandinsky 6.0 Image Pro mostra um nível comparável ao Flux 2 Max e supera GPT Image 1.

5. Sber enfatiza separadamente que o modelo ficou mais estável na geração de texto para imagem, mas o foco principal do lançamento é a edição. Para isso, a arquitetura foi movida para MoE, a inferência foi paralelizada e o mecanismo de atenção foi otimizado.

Como resultado, de acordo com a empresa, a nova versão funciona mais de 40% mais rápido que a anterior.

De acordo com resultados de comparações,

Kandinsky 6.0 Image Pro funciona no nível do Flux 2 Max e supera GPT Image 1.5.

Por que Image RAG é necessário

Uma das principais atualizações é a integração de Image RAG. Para simplificar, quando um usuário faz uma solicitação, o sistema busca referências visuais apropriadas na base de conhecimento e as adiciona ao contexto do modelo, se necessário. Graças a isso, o gerador compreende melhor não apenas estilos e objetos gerais, mas também detalhes culturais, históricos e locais mais específicos, que geralmente são mais difíceis para modelos universais.

Essa abordagem deve aumentar a precisão onde modelos generativos comuns ficam confusos com detalhes ou substituem características locais por imagens mais padronizadas. O benefício prático é que o conhecimento do modelo pode ser expandido sem retreinamento completo. No artigo, Sber fornece exemplos com objetos do código cultural russo: o modelo reproduz corretamente a pintura Mezenian, um kartuz (barrete tradicional russo) e outros detalhes visuais específicos.

O mesmo mecanismo funciona também em modo de edição. Por exemplo, um usuário pode se inserir em uma cena com seu personagem de filme favorito se o sistema encontrar contexto visual relevante e o incorporar corretamente na imagem.

Onde será útil

Os casos de uso para Kandinsky 6.0 Image Pro são bastante práticos. Não se trata apenas de gerar belas imagens a partir de um prompt, mas de editar imagens finalizadas sem mexer manualmente em um editor gráfico e sem perda notável da integridade da cena. Ou seja, o modelo está sendo transformado de uma rede neural de demonstração em uma ferramenta de trabalho para designers, profissionais de marketing, equipes de comércio eletrônico, arquitetos e todos que regularmente fazem edições visuais rápidas.

  • Remoção de objetos, pichações e texto preservando o fundo
  • Substituição de objetos considerando o estilo do quadro original
  • Estilização de retratos preservando características faciais
  • Restauração e colorização de fotografias antigas
  • Geração de exteriores e interiores a partir de descrição ou layout de sala

O artigo também mostra casos onde o modelo ajuda a mudar iluminação, fundo, penteado, maquiagem, roupas e até expressão facial. Há também menção separada da integração com o serviço "Regimento Imortal Online", onde Kandinsky é usado para restaurar fotografias de arquivo de veteranos. Isso já não é apenas uma função de vitrine para promoção, mas um cenário prático onde a edição cuidadosa e resultados previsíveis são importantes.

Para o mercado local, este é um dos exemplos mais óbvios de aplicação prática de tecnologia. Atualmente, Kandinsky 6.0 Image Pro está disponível nas plataformas GigaChat: no Telegram, no mensageiro Max, no site giga.

chat e no aplicativo Android. Nas próximas atualizações, Sber promete adicionar edição com três referências e um modo pincel mais detalhado, onde os usuários poderão literalmente apontar para uma seção da imagem para especificar exatamente o que precisa ser adicionado ou removido. Isso aproxima o produto da lógica mais familiar de trabalho em editores, mas com um modelo generativo embaixo do capô.

O que isso significa

Os modelos generativos de imagens russos estão se movendo cada vez mais da categoria "assista a uma demonstração" para a categoria de ferramentas de trabalho. Se Kandinsky 6.0 Image Pro realmente mantiver a velocidade e qualidade reivindicadas no uso em massa, o mercado local terá outra ferramenta forte para design, marketing, comércio eletrônico e restauração de fotos de arquivo — especialmente onde o contexto visual russo é importante.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…