Google présente Gemini Omni — un éditeur vidéo multimodal

Q: Quelle est la source ?

Publication originale sur @demishassabis. Hamidun News traite et adapte les contenus avec l'IA.

Q: Quand a-t-il été publié ?

25 mai 2026. Temps de lecture : 3 min.

Google a présenté Gemini Omni — un modèle pour travailler avec des photos, vidéos et audio. Il crée de nouvelles scènes basées sur le contenu téléchargé…

Rédaction de Hamidun News

Veille IA · @demishassabis

25 mai 2026· 3 min

Traité par IA depuis @demishassabis ; édité par Hamidun News

Google présente Gemini Omni — un éditeur vidéo multimodal — Source : @demishassabis. Collage: Hamidun News.

◐ Écouter l'article

Google a présenté Gemini Omni — un modèle de nouvelle génération qui fait un bond qualitatif dans la compréhension et l'édition de contenu multimodal. Contrairement à ses prédécesseurs, Omni fonctionne nativement avec des photographies, vidéos et audio simultanément, créant de nouvelles scènes à partir du matériau téléchargé.

Ce que peut faire Gemini Omni

La principale différence d'Omni est qu'elle fonctionne avec plusieurs types de contenu simultanément. L'utilisateur peut télécharger une vidéo, ajouter une photo ou un enregistrement audio — le modèle comprend et transforme le matériau en une nouvelle scène. Demis Hassabis, PDG de DeepMind, l'a appelé un « bond significatif dans la compréhension du monde et l'édition multimodale ».

À ce stade actuel, la sortie principale est la vidéo. Mais Google prévoit d'étendre les capacités : avec le temps, le système pourra générer et éditer du contenu dans n'importe quel format — texte, audio, images, modèles 3D. Ceci diffère des outils actuels, qui se spécialisent dans un seul type de contenu.

Comment fonctionne l'édition

Le processus ne suppose pas une création à partir de zéro. Au lieu de cela, l'utilisateur télécharge son matériau — vidéo, photo, audio — et Omni le transforme en une nouvelle version. Cela peut être un changement d'éclairage, l'ajout de nouveaux objets à la scène, le repositionnement de personnes ou la transformation de l'atmosphère du cadre. Le système comprend le contexte et préserve le sens du contenu original, mais permet d'itérer sur les idées.

Téléchargement de vidéo dans n'importe quel format et qualité
Modification des éléments de la scène via des descriptions textuelles
Ajout de nouveaux objets et personnages au cadre
Amélioration itérative à travers plusieurs cycles d'édition
Support des invites multimodales (texte, photo, audio)

Application dans l'industrie

Pour les créateurs de contenu, cela simplifie radicalement le flux de travail. Au lieu d'utiliser des outils séparés pour la vidéo, l'audio et les images, on peut travailler dans un écosystème unifié. C'est particulièrement important pour les créateurs indépendants avec un budget logiciel limité.

Dans l'industrie cinématographique professionnelle, Gemini Omni peut accélérer la post-production. Les monteurs pourront rapidement générer des variations de scènes, et les réalisateurs pourront expérimenter différentes versions du cadre sans reprendre les prises. Pour le marketing et la publicité, cela signifie une adaptation plus rapide du contenu pour différentes plates-formes et audiences.

Ce que cela signifie

L'émergence de systèmes véritablement multimodaux est une transition des outils IA étroitement spécialisés vers des assistants universels. Google se dirige vers un modèle qui voit, entend et comprend le monde comme les humains et peut recréer ou éditer ce monde à la volée. C'est une étape intermédiaire vers une IA plus générale, capable de travailler avec n'importe quel type d'information simultanément.

Hamidun News

Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Canal Telegram RSS hamidun.com

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

🎓 Academy — 7 jours gratuits Consultation gratuite