Whisper et Gemma 3 reliés par apprentissage contrastif pour ajouter une saisie vocale à bas coût aux LLM

Q: Quelle est la source ?

Publication originale sur Habr AI. Hamidun News traite et adapte les contenus avec l'IA.

Q: Quand a-t-il été publié ?

30 avr. 2026. Temps de lecture : 3 min.

Ajouter de la voix à un LLM à moindre coût s'est révélé plus difficile que ne le suggèrent les papers. L'auteur a relié Whisper Medium et Gemma 3 4B via un…

Rédaction de Hamidun News

Veille IA · Habr AI

30 avr. 2026· 3 min

Traité par IA depuis Habr AI ; édité par Hamidun News

Whisper et Gemma 3 reliés par apprentissage contrastif pour ajouter une saisie vocale à bas coût aux LLM — Source : Habr AI. Collage: Hamidun News.

◐ Écouter l'article

Ajouter l'entrée vocale à un LLM de manière économique s'est avéré plus complexe que ne le promettent les articles sur la multimodalité. L'auteur de l'expérience a tenté de connecter le codeur audio Whisper et le modèle de langage Gemma 3 via un projecteur compact, et après une série d'échecs, est arrivé à une configuration fonctionnelle utilisant l'apprentissage contrastif.

Comment la Pile a Été Construite

L'idée était simple : plutôt que d'entraîner un système multimodal coûteux à partir de zéro, prendre un codeur audio prêt à l'emploi, un LLM prêt à l'emploi et les connecter avec un « traducteur » entre les espaces d'intégration. Whisper Medium a été choisi comme codeur car ses représentations internes sont mieux accordées pour la reconnaissance vocale que les alternatives auto-supervisées. Du côté du texte, ils ont utilisé Gemma 3 4B, et un projecteur MLP à deux couches a servi de pont, comprimant et traduisant les vecteurs audio dans l'espace d'intégration du LLM.

Pour éviter d'entraîner le modèle uniquement sur l'anglais de studio propre, le flux d'entraînement a été assemblé à partir de plusieurs ensembles de données et mélangé dynamiquement. Cela a permis au système de gérer immédiatement différentes paroles en termes de qualité, de langue et de style de prononciation. L'article souligne séparément que ce mélange est nécessaire non pour de belles statistiques, mais pour que le système ne s'habitue pas à un seul environnement acoustique et une seule langue dès les premières épodes. Sinon, tout écart — bruit, pause ou fragment en russe — casserait immédiatement la reconnaissance.

LibriSpeech train.360 comme base du corpus
LibriSpeech train.100 comme anglais propre supplémentaire
Russian LibriSpeech pour la parole russe
DisfluencySpeech avec pauses, balbutiements et bégaiement

Pourquoi Tout S'est Cassé

La première tentative s'appuyait sur la recette la plus évidente : teacher forcing et cross-entropy standard sur les transcriptions. Le LLM recevait en entrée une instruction, des vecteurs audio et le texte correct, la perte étant calculée uniquement sur les tokens de réponse. En pratique, le schéma entendait à peine l'enregistrement : le modèle produisait des fragments incohérents et WER pouvait se coincer autour de 300%. Même après l'ajout de LoRA, il est devenu clair que le problème était plus profond — le projecteur n'amenait pas le signal audio là où le modèle de langage pouvait le lire. Gemma conservait un a priori trop fort sur la géométrie familière des tokens de texte.

Ensuite est venu une série de corrections ciblées. L'auteur a ajouté une phase zéro où Gemma a d'abord appris simplement à réécrire du texte en suivant les instructions, car une version non accordée aux instructions était utilisée. Ensuite sont venus des expériences avec la quantification et les régularisations : commitment loss était censé maintenir les sorties du projecteur près des intégrations connues, SWD aligner les distributions des vecteurs audio et texte, entropy loss forcer le système à utiliser plus de codes, et VICReg empêcher l'effondrement des coordonnées individuelles.

Les visualisations t-SNE ont aidé à identifier deux problèmes principaux : l'effondrement de la représentation et un écart géométrique entre les espaces audio et texte. Mais chaque nouvel ajustement ne traitait qu'un seul symptôme. SWD a amélioré la forme de la distribution sans améliorer le contenu. L'entropy loss a étendu l'utilisation des codes mais l'a fait arbitrairement. VICReg a augmenté la variance, mais les vecteurs se sont dispersés de manière chaotique. Le système a repéré encore et encore une contournement où les métriques paraissaient localement meilleures tandis que la reconnaissance réelle n'émergeait pas.

Cela est devenu la leçon principale de la phase de régularisation : avec un signal primaire faible, le modèle optimise les mathématiques plutôt que le sens.

Ce Qui a Réellement Fonctionné

Le tournant a été d'abandonner l'idée que l'alignement pourrait être réalisé uniquement par des pénalités indirectes. L'auteur a fait de l'apprentissage contrastif le signal primaire et est passé à InfoNCE symétrique : un vecteur audio doit être plus proche de sa transcription qu'à tous les autres textes du lot, et vice versa. Contrairement aux régularisateurs précédents, cette perte spécifie non pas des statistiques générales mais des relations spécifiques par paires.

Avec un grand lot, cela a fonctionné nettement mieux : la courbe de perte a chuté régulièrement sans sauts brusques, et WER est tombé à 35%. Le résultat ne correspond pas encore aux systèmes ASR commerciaux, mais ce n'est plus du bruit aléatoire. Dans les logs, le modèle a commencé à commettre des erreurs phonétiquement plausibles : il captait les sons des mots et les confondait plus comme une personne avec une mauvaise audition qu'un générateur de texte cassé. Pour une première passe, cela importe plus que le nombre absolu WER : le système a cessé de simuler des réponses et a commencé à réellement utiliser le son.

C'est ce que l'auteur considère comme le principal signe de progrès.

« Mais l'essentiel est qu'elle entend déjà. »

Ce Que Cela Signifie

Ce cas démontre bien que la modalité audio bon marché pour les LLMs locaux est possible, mais pas par le projecteur MLP « magique » des articles. Un simple appairage d'un codeur prêt à l'emploi et d'un LLM commence à fonctionner seulement lorsqu'un signal d'alignement fort apparaît entre eux. Pour les développeurs, c'est une conclusion importante : si vous voulez ajouter la voix à votre propre modèle sans entraînement coûteux à partir de zéro, une étape contrastive peut s'avérer être non pas une option mais un fondement obligatoire.

Hamidun News

Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Canal Telegram RSS hamidun.com

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

🎓 Academy — 7 jours gratuits Consultation gratuite