Sber lanza Kandinsky 6.0 Image Pro — modelo unificado para generación y edición de imágenes
Sber actualizó la línea Kandinsky y lanzó 6.0 Image Pro — modelo unificado para generación y edición de imágenes. Según la empresa, funciona al nivel de Flux…
Procesado por IA desde Habr AI; editado por Hamidun News
Sber ha lanzado Kandinsky 6.0 Image Pro — un nuevo modelo unificado que combina generación y edición de imágenes. La empresa enfatiza no solo la calidad de la generación de texto a imagen, sino principalmente escenarios de edición precisa y compleja.
Qué se actualizó
La nueva versión combina generación de imágenes a partir de texto y edición en un único modelo. Este es un cambio importante en comparación con la línea anterior Kandinsky 5, donde el énfasis se distribuyó entre varios modos y variantes de modelos separados. El escenario del usuario se vuelve más corto: la misma herramienta se puede usar tanto para el primer render como para ajustes posteriores de la escena.
Ahora Sber está promoviendo un producto principal para ambas tareas — desde crear una imagen desde cero hasta reemplazar objetos, estilizar fotos y editar localmente un fotograma terminado. Según las comparaciones internas de la empresa, Kandinsky 6.0 Image Pro muestra un nivel comparable al Flux 2 Max y supera GPT Image 1.
5. Sber enfatiza por separado que el modelo se volvió más estable en la generación de texto a imagen, pero el enfoque principal de la versión es la edición. Para esto, la arquitectura se trasladó a MoE, se paralelizó la inferencia y se optimizó el mecanismo de atención.
Como resultado, según la empresa, la nueva versión funciona más del 40% más rápido que la anterior.
Según los resultados de comparaciones,
Kandinsky 6.0 Image Pro funciona al nivel de Flux 2 Max y supera GPT Image 1.5.
Por qué se necesita Image RAG
Una de las actualizaciones clave es la integración de Image RAG. Para simplificar, cuando un usuario realiza una solicitud, el sistema busca referencias visuales apropiadas en la base de conocimiento y las agrega al contexto del modelo si es necesario. Gracias a esto, el generador entiende mejor no solo estilos y objetos generales, sino también detalles culturales, históricos y locales más específicos, que generalmente son más difíciles para los modelos universales.
Este enfoque debería aumentar la precisión donde los modelos generativos ordinarios se confunden con los detalles o reemplazan características locales con imágenes más genéricas. El beneficio práctico es que el conocimiento del modelo se puede expandir sin reentrenamiento completo. En el artículo, Sber proporciona ejemplos con objetos del código cultural ruso: el modelo reproduce correctamente la pintura Mezenian, un kartuz (gorra tradicional rusa) y otros detalles visuales específicos.
El mismo mecanismo funciona también en modo edición. Por ejemplo, un usuario puede insertarse a sí mismo en una escena con su personaje de película favorito si el sistema encuentra contexto visual relevante e lo incorpora correctamente en la imagen.
Dónde será útil
Los casos de uso para Kandinsky 6.0 Image Pro son bastante prácticos. Ya no se trata solo de generar hermosas imágenes a partir de un prompt, sino de editar imágenes terminadas sin manipulación manual en un editor gráfico y sin pérdida notable de la integridad de la escena. Es decir, el modelo se está transformando de una red neuronal de demostración en una herramienta de trabajo para diseñadores, especialistas en marketing, equipos de comercio electrónico, arquitectos y todos los que regularmente realizan ediciones visuales rápidas.
- Eliminación de objetos, grafitis y texto preservando el fondo
- Reemplazo de objetos considerando el estilo del fotograma original
- Estilización de retratos preservando características faciales
- Restauración y colorización de fotografías antiguas
- Generación de exteriores e interiores a partir de descripción o layout de habitación
El artículo también muestra casos donde el modelo ayuda a cambiar iluminación, fondo, peinado, maquillaje, ropa e incluso expresión facial. También hay una mención separada de la integración con el servicio "Regimiento Inmortal en Línea", donde Kandinsky se utiliza para restaurar fotografías de archivo de veteranos. Esto ya no es solo una función de exhibición para promoción, sino un escenario práctico donde la edición cuidadosa y los resultados predecibles son importantes.
Para el mercado local, este es uno de los ejemplos más evidentes de aplicación práctica de la tecnología. Actualmente, Kandinsky 6.0 Image Pro está disponible en plataformas GigaChat: en Telegram, en el mensajero Max, en el sitio giga.
chat y en la aplicación Android. En próximas actualizaciones, Sber promete agregar edición con tres referencias y un modo pincel más detallado, donde los usuarios podrán literalmente señalar una sección de la imagen para especificar exactamente qué necesita ser agregado o eliminado. Esto acerca el producto a la lógica más familiar de trabajar en editores, pero con un modelo generativo debajo del capó.
Lo que significa
Los modelos generativos de imágenes rusos se están moviendo cada vez más de la categoría "ver una demostración" a la categoría de herramientas de trabajo. Si Kandinsky 6.0 Image Pro realmente mantiene la velocidad y calidad reclamadas en uso masivo, el mercado local tendrá otra herramienta sólida para diseño, marketing, comercio electrónico y restauración de fotos de archivo — especialmente donde el contexto visual ruso es importante.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.