Sber lance Kandinsky 6.0 Image Pro — modèle unifié pour la génération et l'édition d'images
Sber a mis à jour la gamme Kandinsky et lancé 6.0 Image Pro — modèle unifié pour la génération et l'édition d'images. Selon l'entreprise, il fonctionne au…
Traité par IA depuis Habr AI ; édité par Hamidun News
Sber a lancé Kandinsky 6.0 Image Pro — un nouveau modèle unifié qui combine génération et édition d'images. L'entreprise met l'accent non seulement sur la qualité de la génération de texte à image, mais surtout sur les scénarios d'édition précise et complexe.
Qu'est-ce qui a été mis à jour
La nouvelle version combine génération d'images à partir de texte et édition dans un seul modèle. C'est un changement important par rapport à la gamme précédente Kandinsky 5, où l'accent était réparti entre plusieurs modes et variantes de modèles séparés. Le scénario utilisateur devient plus court : le même outil peut être utilisé à la fois pour le premier rendu et pour les ajustements ultérieurs de la scène.
Maintenant, Sber promeut un produit principal pour les deux tâches — de la création d'une image à partir de zéro au remplacement d'objets, la stylisation de photos et l'édition locale d'une image terminée. Selon les comparaisons internes de l'entreprise, Kandinsky 6.0 Image Pro affiche un niveau comparable à Flux 2 Max et surpasse GPT Image 1.
5. Sber souligne séparément que le modèle est devenu plus stable dans la génération de texte à image, mais l'accent principal de la version est l'édition. Pour cela, l'architecture a été passée à MoE, l'inférence a été parallélisée et le mécanisme d'attention a été optimisé.
En conséquence, selon l'entreprise, la nouvelle version fonctionne plus de 40% plus rapidement que la précédente.
Selon les résultats des comparaisons,
Kandinsky 6.0 Image Pro fonctionne au niveau de Flux 2 Max et dépasse GPT Image 1.5.
Pourquoi Image RAG est nécessaire
L'une des mises à jour clés est l'intégration de Image RAG. Pour simplifier, lorsqu'un utilisateur fait une demande, le système recherche des références visuelles appropriées dans la base de connaissances et les ajoute au contexte du modèle si nécessaire. Grâce à cela, le générateur comprend mieux non seulement les styles et objets généraux, mais aussi les détails culturels, historiques et locaux plus étroits, qui sont généralement plus difficiles pour les modèles universels.
Cette approche devrait augmenter la précision où les modèles génératifs ordinaires sont confus par les détails ou remplacent les caractéristiques locales par des images plus génériques. L'avantage pratique est que les connaissances du modèle peuvent être élargies sans réentraînement complet. Dans l'article, Sber donne des exemples d'objets du code culturel russe : le modèle reproduit correctement la peinture Mezenian, un kartuz (bonnet traditionnel russe) et autres détails visuels spécifiques.
Le même mécanisme fonctionne également en mode édition. Par exemple, un utilisateur peut s'insérer lui-même dans une scène avec son personnage de film préféré si le système trouve un contexte visuel pertinent et le l'intègre correctement dans l'image.
Où cela sera utile
Les cas d'usage pour Kandinsky 6.0 Image Pro sont tout à fait pratiques. Il ne s'agit plus seulement de générer de belles images à partir d'une requête, mais d'éditer des images finies sans manipulation manuelle dans un éditeur graphique et sans perte notable de l'intégrité de la scène. Autrement dit, le modèle est transformé d'un réseau de neurones de démonstration en un outil de travail pour les designers, les spécialistes du marketing, les équipes de commerce électronique, les architectes et tous ceux qui effectuent régulièrement des éditions visuelles rapides.
- Suppression d'objets, de graffitis et de texte en préservant l'arrière-plan
- Remplacement d'objets en tenant compte du style du cadre original
- Stylisation de portraits en préservant les traits du visage
- Restauration et colorisation de vieilles photographies
- Génération d'extérieurs et d'intérieurs à partir d'une description ou d'une disposition de pièce
L'article montre également des cas où le modèle aide à changer l'éclairage, le fond, la coiffure, le maquillage, les vêtements et même l'expression faciale. Il y a aussi une mention séparée de l'intégration au service "Régiment Immortel en Ligne", où Kandinsky est utilisé pour restaurer des photographies d'archive de vétérans. Ce n'est plus seulement une fonction de vitrine pour la promotion, mais un scénario pratique où l'édition soignée et les résultats prévisibles sont importants.
Pour le marché local, c'est l'un des exemples les plus évidents d'application pratique de la technologie. Actuellement, Kandinsky 6.0 Image Pro est disponible sur les plateformes GigaChat : sur Telegram, dans le messager Max, sur le site giga.
chat et dans l'application Android. Dans les mises à jour à venir, Sber promet d'ajouter l'édition avec trois références et un mode pinceau plus détaillé, où les utilisateurs pourront littéralement pointer vers une section de l'image pour spécifier exactement ce qui doit être ajouté ou supprimé. Cela rapproche le produit de la logique plus familière de travail dans les éditeurs, mais avec un modèle génératif sous le capot.
Ce que cela signifie
Les modèles génératifs d'images russes passent de plus en plus de la catégorie « regarder une démo » à la catégorie des outils de travail. Si Kandinsky 6.0 Image Pro maintient réellement la vitesse et la qualité revendiquées dans une utilisation massive, le marché local aura un autre outil puissant pour la conception, le marketing, le commerce électronique et la restauration de photos d'archive — en particulier là où le contexte visuel russe est important.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.