Google présente Gemini Omni — un éditeur vidéo multimodal
Google a présenté Gemini Omni — un modèle pour travailler avec des photos, vidéos et audio. Il crée de nouvelles scènes basées sur le contenu téléchargé…
Traité par IA depuis @demishassabis ; édité par Hamidun News
Google a présenté Gemini Omni — un modèle de nouvelle génération qui fait un bond qualitatif dans la compréhension et l'édition de contenu multimodal. Contrairement à ses prédécesseurs, Omni fonctionne nativement avec des photographies, vidéos et audio simultanément, créant de nouvelles scènes à partir du matériau téléchargé.
Ce que peut faire Gemini Omni
La principale différence d'Omni est qu'elle fonctionne avec plusieurs types de contenu simultanément. L'utilisateur peut télécharger une vidéo, ajouter une photo ou un enregistrement audio — le modèle comprend et transforme le matériau en une nouvelle scène. Demis Hassabis, PDG de DeepMind, l'a appelé un « bond significatif dans la compréhension du monde et l'édition multimodale ».
À ce stade actuel, la sortie principale est la vidéo. Mais Google prévoit d'étendre les capacités : avec le temps, le système pourra générer et éditer du contenu dans n'importe quel format — texte, audio, images, modèles 3D. Ceci diffère des outils actuels, qui se spécialisent dans un seul type de contenu.
Comment fonctionne l'édition
Le processus ne suppose pas une création à partir de zéro. Au lieu de cela, l'utilisateur télécharge son matériau — vidéo, photo, audio — et Omni le transforme en une nouvelle version. Cela peut être un changement d'éclairage, l'ajout de nouveaux objets à la scène, le repositionnement de personnes ou la transformation de l'atmosphère du cadre. Le système comprend le contexte et préserve le sens du contenu original, mais permet d'itérer sur les idées.
- Téléchargement de vidéo dans n'importe quel format et qualité
- Modification des éléments de la scène via des descriptions textuelles
- Ajout de nouveaux objets et personnages au cadre
- Amélioration itérative à travers plusieurs cycles d'édition
- Support des invites multimodales (texte, photo, audio)
Application dans l'industrie
Pour les créateurs de contenu, cela simplifie radicalement le flux de travail. Au lieu d'utiliser des outils séparés pour la vidéo, l'audio et les images, on peut travailler dans un écosystème unifié. C'est particulièrement important pour les créateurs indépendants avec un budget logiciel limité.
Dans l'industrie cinématographique professionnelle, Gemini Omni peut accélérer la post-production. Les monteurs pourront rapidement générer des variations de scènes, et les réalisateurs pourront expérimenter différentes versions du cadre sans reprendre les prises. Pour le marketing et la publicité, cela signifie une adaptation plus rapide du contenu pour différentes plates-formes et audiences.
Ce que cela signifie
L'émergence de systèmes véritablement multimodaux est une transition des outils IA étroitement spécialisés vers des assistants universels. Google se dirige vers un modèle qui voit, entend et comprend le monde comme les humains et peut recréer ou éditer ce monde à la volée. C'est une étape intermédiaire vers une IA plus générale, capable de travailler avec n'importe quel type d'information simultanément.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.