Hugging Face Explique le Fine-tuning des Embeddings Multimodaux et des Modèles Reranker
Hugging Face a détaillé comment entraîner et affiner les modèles d'embedding et reranker multimodaux dans Sentence Transformers. En utilisant Visual Document…
Traité par IA depuis Hugging Face Blog ; édité par Hamidun News
Hugging Face a démontré quelque chose d'important pour l'IA pratique : les modèles de recherche multimodal n'ont pas nécessairement besoin d'être remplacés par des versions plus grandes pour obtenir des améliorations notables de qualité. Dans un nouveau guide pour Sentence Transformers, l'équipe a expliqué comment entraîner et ajuster les modèles d'embedding et de reranker qui fonctionnent non seulement avec du texte, mais aussi avec des images, de l'audio et de la vidéo. L'idée principale est simple : si une entreprise dispose déjà d'un checkpoint multimodal général, il peut être adapté à sa tâche spécifique et produire de meilleurs résultats que de basculer vers un modèle universel plus lourd.
Comme exemple pratique, les auteurs ont abordé la tâche de Visual Document Retrieval, où vous devez trouver la bonne page d'un document sous forme de capture d'écran en fonction d'une requête textuelle. C'est un scénario où le modèle doit comprendre non seulement les mots, mais aussi la structure de la page, les tableaux, les graphiques, les légendes et la mise en page visuelle. Pour l'expérience, ils ont utilisé le modèle Qwen3-VL-Embedding-2B et l'ont ajusté sur un sous-ensemble en anglais de l'ensemble de données LlamaIndex.
L'ensemble de données original contient environ 500 mille paires multilingues requête-image, et la version préparée pour l'expérience a conservé 53.512 exemples en anglais. Ils ont utilisé les 10 mille premiers enregistrements pour l'entraînement et les 300 suivants pour l'évaluation.
Le pipeline lui-même diffère peu de l'entraînement textuel standard en Sentence Transformers. L'article souligne que l'entraîneur, les arguments d'entraînement et le chargement des données restent identiques, tandis que les différences clés proviennent de la multimodalité : le modèle est chargé avec processor_kwargs et model_kwargs pour contrôler la qualité du traitement des images, la précision computationnelle et l'implémentation de l'attention ; les données peuvent contenir du texte, des images, de l'audio, de la vidéo ou des dictionnaires avec plusieurs modalités ; et le prétraitement est effectué automatiquement via model.preprocess().
Pour la tâche principale, l'auteur a utilisé CachedMultipleNegativesRankingLoss avec mini_batch_size=1 pour travailler avec un grand modèle VLM sans débordement de mémoire, tout en préservant les avantages d'une grande taille de batch effective par gradient caching. L'accent particulier est mis sur MatryoshkaLoss. Ce wrapper autour de la fonction de loss de base enseigne au modèle à concentrer les informations utiles dans les dimensions initiales de l'embedding.
En pratique, cela permet de réduire la taille du vecteur lors du déploiement sans une chute nette de la qualité de recherche. Pour Qwen3-VL, la taille complète de l'embedding est 2048 dimensions, mais après un tel entraînement le modèle retient la qualité presque inchangée même lorsqu'il est réduit à 512 dimensions. De plus, la configuration de la version finale a été enregistrée avec truncate_dim=1024, ce qui signifie qu'elle retourne des vecteurs deux fois plus compacts que la taille complète par défaut et réduit ainsi les exigences de stockage et d'index.
Les résultats semblent convaincants même sans longs avertissements. Après une époque, la version ajustée a obtenu NDCG@10 de 0.947 sur l'ensemble d'évaluation, tandis que le baseline Qwen3-VL-Embedding-2B a montré 0.
888. Dans le tableau de comparaison, ce modèle de 2 milliards de paramètres a dépassé non seulement la version originale, mais aussi des systèmes plus grands, notamment Qwen3-VL-Embedding-8B avec un score de 0.923 et plusieurs autres solutions multimodal actuelles.
De plus, l'auteur a montré qu'à 512 dimensions le modèle ajusté atteint 0.945, restant presque au sommet, et même à 64 dimensions il conserve plus de 92% de la qualité maximale. Pour les équipes qui considèrent le coût d'index et la latence, ce n'est pas un détail mais un argument assez pratique en faveur de cette approche.
À la fin, Hugging Face note spécifiquement que la même pile permet également d'entraîner les modèles de reranker multimodal. Cela utilise CrossEncoderTrainer et des fonctions de loss spécialisées, et dans l'exemple any-to-any reranker, le modèle est entraîné pour décider si une image correspond au texte en retournant un score binaire. C'est important car dans les systèmes de recherche réels, retriever et reranker travaillent souvent en paire : le premier sélectionne rapidement les candidats, le second retrie précisément les résultats.
Ce que cela signifie : l'ère de « prendre le plus grand checkpoint multimodal et espérer le meilleur » se termine. Hugging Face démontre un chemin plus pragmatique — prenez un modèle déjà disponible, ajustez-le sur votre domaine, maintenez la compatibilité avec le pipeline familier de Sentence Transformers, et si nécessaire, réduisez même les embeddings sans dégradation notable. Pour les équipes construisant une recherche sur des documents, des catalogues, des archives médias ou des bases de connaissances internes, c'est un signal direct : la qualité de la recherche multimodal est maintenant de plus en plus déterminée non pas par la taille du modèle en soi, mais par la qualité de l'ajustement spécifique au domaine.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.