Google présente Gemini Omni Flash — un modèle pour créer des vidéos à partir de texte et d'images

Q: Quelle est la source ?

Publication originale sur DeepMind Blog. Hamidun News traite et adapte les contenus avec l'IA.

Q: Quand a-t-il été publié ?

21 mai 2026. Temps de lecture : 3 min.

Google a lancé Gemini Omni Flash — un nouveau modèle de génération vidéo à partir de texte, d'images et d'enregistrements audio. Il comprend la physique…

Rédaction de Hamidun News

Veille IA · DeepMind Blog

21 mai 2026· 2 min

Traité par IA depuis DeepMind Blog ; édité par Hamidun News

Google présente Gemini Omni Flash — un modèle pour créer des vidéos à partir de texte et d'images — Source : DeepMind Blog. Collage: Hamidun News.

◐ Écouter l'article

Google présente Gemini Omni Flash — un nouveau modèle d'intelligence artificielle qui crée des vidéos de haute qualité à partir d'une combinaison de texte, d'images, d'enregistrements audio et d'autres vidéos simultanément. C'est la première étape majeure vers la génération vidéo complète, où l'IA devient un réalisateur numérique, un scénariste et un monteur en une seule entité.

La physique et la logique dans une seule fenêtre

Gemini Omni Flash traite plusieurs types de données d'entrée en parallèle et les transforme en contenu vidéo. Le modèle se distingue particulièrement par sa simulation précise de la physique : il modélise correctement la gravité, l'énergie cinétique, la dynamique des fluides et l'interaction des objets dans l'espace tridimensionnel. Cela signifie que les mouvements paraissent naturels — les objets tombent correctement, le liquide s'écoule logiquement, le tissu se plie de manière réaliste, les cheveux flottent dans l'air.

Autrefois, ces détails nécessitaient le travail manuel d'artistes 3D et de spécialistes de la simulation. Maintenant, l'IA s'en charge à la volée, en traitant votre idée en temps réel. Pour la production vidéo, cela signifie que les réalisateurs peuvent expérimenter des idées beaucoup plus rapidement.

L'innovation majeure est que le modèle raisonne sur ce qui devrait se passer ensuite. Il ne se contente pas de générer une séquence mécanique d'images, comme le faisaient les premiers générateurs vidéo. Au lieu de cela, Omni comprend le contexte et la connaissance mondiale intégrée de Google : qui est où, ce qui se passera logiquement dans une scène donnée, comment les personnages doivent se déplacer les uns par rapport aux autres et à l'environnement.

Édition par conversation

La deuxième fonctionnalité révolutionnaire est l'édition vidéo via le langage naturel. Vous n'ouvrez pas le montage final, vous ne recherchez pas le clip nécessaire dans la bibliothèque, vous ne placez pas manuellement les effets. Vous écrivez simplement : « ajoute plus de gens en arrière-plan », « change la couleur de la robe du personnage du bleu au rouge », « rends la scène plus ensoleillée et joyeuse ».

Le modèle comprend ces demandes et édite la vidéo sans exportation intermédiaire, reconversion et réimportation. Toute la dynamique, la cohérence des personnages, l'éclairage sont conservés — seuls les changements nécessaires sont apportés. Cela économise des heures de travail routinier.

Toutes les vidéos sont automatiquement marquées avec un filigrane SynthID invisible — une signature invisible à l'œil humain mais lisible par les machines. C'est critique pour la vérification : on peut prouver de manière définitive que la vidéo a été créée par l'IA et non filmée à la caméra. De cette manière, la désinformation est prévenue et les deepfakes sont identifiés au premier coup d'œil.

Où c'est lancé et ensuite

Application Gemini — web et application mobile
Google Flow — assistant numérique personnel
YouTube Shorts — gratuit pour tous les utilisateurs
Abonnements Google AI Plus, Pro et Ultra

Les développeurs et les entreprises auront accès via l'API plus tard. Google note qu'il travaille toujours sur le déploiement sécurisé des fonctionnalités d'édition audio et de synthèse vocale. Une prudence accrue est nécessaire ici — la voix est un attribut de personnalité plus sensible.

Ce que cela signifie

Le contenu vidéo devient aussi rapidement créable que le texte ou les e-mails. Autrefois, pour une vidéo professionnelle, il fallait des connaissances spéciales en montage vidéo, des logiciels coûteux comme Adobe Premiere, et des heures de travail routinier dans les interfaces. Maintenant, une idée créative se transforme en un message textuel, et voilà une belle vidéo prête en quelques minutes.

Cela accélèrera radicalement la création de contenu pour le marketing, la formation, le divertissement et la communication interne des entreprises. Les petites entreprises pourront rivaliser avec les grandes en matière de qualité des matériels vidéo. Il est probable que des normes de marquage obligatoire du contenu vidéo apparaîtront bientôt, et celui qui s'adaptera en premier au travail avec la génération vidéo aura un avantage concurrentiel.

Hamidun News

Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Canal Telegram RSS hamidun.com

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

🎓 Academy — 7 jours gratuits Consultation gratuite