Habr AI→ original

Google a lancé Gemini Embedding 2 pour le RAG multimodal avec vidéo, audio et PDF

Google a mis à jour sa gamme d’embeddings et a lancé Gemini Embedding 2, un modèle capable de fonctionner non seulement avec du texte, mais aussi avec des…

Traité par IA depuis Habr AI ; édité par Hamidun News
Google a lancé Gemini Embedding 2 pour le RAG multimodal avec vidéo, audio et PDF
Source : Habr AI. Collage: Hamidun News.
◐ Écouter l'article

Google a lancé Gemini Embedding 2 — un modèle d'embedding qui traduit non seulement du texte, mais aussi des images, de l'audio, des vidéos et des PDF dans un unique espace vectoriel. Pour la RAG multimodale, c'est une étape importante : une seule requête peut maintenant trouver à la fois un article dans une base de connaissances et le fragment nécessaire d'une vidéo de formation.

Ce

Qui a Changé Auparavant, la recherche sur les types de contenu mixtes était construite à travers une longue chaîne de transformations. Les vidéos devaient être divisées en images, l'audio devait être transcrit, les images devaient être décrites à l'aide d'un modèle de vision, puis tout cela devait être réassemblé en texte avant d'être envoyé au modèle d'embedding. Cette approche fonctionnait, mais perdait des détails à chaque étape.

Si la reconnaissance vocale faisait une erreur ou qu'une description d'image s'avérait trop générique, la qualité de la recherche chutait immédiatement, et les développeurs devaient maintenir un pipeline encombrant de plusieurs services. Avec Gemini Embedding 2, une partie de cette complexité disparaît. Le modèle peut accepter des fichiers bruts directement et construire des représentations pour différents formats dans un espace unifié.

Cela signifie qu'une requête textuelle comme « comment configurer l'autorisation » peut correspondre non seulement avec la documentation, mais aussi avec un fragment vidéo pertinent, une image d'interface ou une instruction PDF. Pour les équipes qui stockent les connaissances dans des formats dispersés, cela élimine l'une des principales limitations de la RAG classique.

Comment

Construire un Système Mais le modèle d'embedding lui-même ne rend pas la RAG multimodale utile automatiquement. Un grand modèle de langage ne peut pas simplement « lire » un MP4 ou une image de la façon dont il lit du contexte textuel. C'est pourquoi une architecture fonctionnelle est construite sur deux canaux : l'un gère la recherche en utilisant les embeddings natifs, l'autre prépare une description textuelle de l'objet trouvé, qui peut ensuite être transmise au LLM pour la génération de réponses. C'est précisément cette combinaison de canaux qui transforme une jolie démo en un produit fonctionnel.

  • Indexer les fichiers bruts en mode natif, sans transformations inutiles Stocker les descriptions textuelles, les transcriptions et les métadonnées à proximité Effectuer une recherche dans un espace vectoriel unifié pour tous les types de contenu * Transmettre au LLM non le fichier, mais sa représentation textuelle et son contexte En implémentation pratique, cela s'intègre bien avec la pile RAG standard : Python pour le pipeline, Gemini API pour les embeddings et la génération de descriptions, Supabase ou une autre base de données vectorielle pour stocker les index. Cette approche vous permet de rechercher simultanément dans une base de connaissances, des captures d'écran, des présentations et des vidéos internes sans forcer l'utilisateur à réfléchir au format dans lequel se trouve la réponse dont il a besoin. Au niveau du produit, ce n'est plus simplement une recherche de documents, mais un unique point d'accès aux connaissances de l'entreprise.

Se Trouvent les Goulots d'Étranglement La limitation principale n'a pas disparu : l'objet multimédia trouvé doit toujours être expliqué au modèle et à l'utilisateur. Si le système retourne une vidéo mais ne sait pas quel fragment exact contient la réponse, l'utilisateur obtient toujours un résultat faible. C'est pourquoi la qualité de la RAG multimodale dépend maintenant non seulement des embeddings, mais aussi de la façon dont la segmentation, l'annotation et la liaison attentive de la couche de texte au fichier source sont construites.

Une requête comme « comment configurer l'autorisation » peut retourner à la fois un article et le fragment vidéo nécessaire.

Cela entraîne des exigences d'ingénierie : vous devez réfléchir au chunking pour la vidéo et l'audio, à la mise à jour des descriptions lors du changement de fichiers, au stockage des codes temporels et au contrôle des coûts. La recherche multimodale native réduit la perte d'informations, mais n'élimine pas le besoin de bonnes données. Si les descriptions sont faibles, le LLM ne pourra pas assembler une réponse avec assurance même avec un match de recherche exact. C'est pourquoi la valeur principale de Gemini Embedding 2 se révèle là où l'équipe est prête à construire un index complet, plutôt que de simplement charger des fichiers et d'attendre la magie.

Ce

Que Cela Signifie Pour les bases de connaissances d'entreprise, le support, l'intégration et les plateformes de formation, c'est un changement notable. Google rapproche la RAG d'un scénario où le texte, les éléments visuels et la vidéo deviennent des sources égales de réponses. Les gagnants ne seront pas ceux qui ont le plus de fichiers, mais ceux qui combinent correctement la recherche multimodale avec une couche de texte claire pour le LLM.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…