Whisper y Gemma 3 unidos con aprendizaje contrastivo para entrada de voz de bajo costo en LLMs

Q: ¿Cuál es la fuente?

Publicado originalmente en Habr AI. Hamidun News procesa y adapta los materiales con IA.

Q: ¿Cuándo se publicó?

30 abr 2026. Tiempo de lectura: 3 min.

Añadir voz a un LLM de forma económica resultó ser más difícil de lo que sugieren los papers. El autor unió Whisper Medium y Gemma 3 4B mediante un proyector…

Redacción de Hamidun News

Monitoreo de AI · Habr AI

30 abr 2026· 3 min

Procesado por IA desde Habr AI; editado por Hamidun News

Whisper y Gemma 3 unidos con aprendizaje contrastivo para entrada de voz de bajo costo en LLMs — Fuente: Habr AI. Collage: Hamidun News.

◐ Escuchar artículo

Añadir entrada de voz a un LLM de manera económica resultó ser más complejo de lo que prometen los artículos sobre multimodalidad. El autor del experimento intentó conectar el codificador de audio Whisper y el modelo de lenguaje Gemma 3 a través de un proyector compacto y, después de una serie de fallos, llegó a una configuración funcional usando aprendizaje contrastivo.

Cómo se Construyó la Pila

La idea era simple: en lugar de entrenar desde cero un sistema multimodal costoso, tomar un codificador de audio listo, un LLM listo y conectarlos con un "traductor" entre espacios de incrustación. Whisper Medium fue elegido como el codificador porque sus representaciones internas están mejor sintonizadas para el reconocimiento de voz que las alternativas autosupervisadas. En el lado del texto, usaron Gemma 3 4B, y un proyector MLP de dos capas sirvió como puente, comprimiendo y traduciendo vectores de audio al espacio de incrustación del LLM.

Para evitar entrenar el modelo solo con inglés de estudio limpio, el flujo de entrenamiento se ensambló a partir de múltiples conjuntos de datos y se mezcló dinámicamente. Esto permitió al sistema manejar inmediatamente diferentes hablas en términos de calidad, idioma y estilo de pronunciación. El artículo enfatiza por separado que esta mezcla es necesaria no para bonitas estadísticas, sino para que el sistema no se acostumbrara a un único entorno acústico e idioma desde las primeras épocas. De lo contrario, cualquier desviación — ruido, pausa o fragmento en ruso — inmediatamente rompería el reconocimiento.

LibriSpeech train.360 como base del corpus
LibriSpeech train.100 como inglés limpio adicional
Russian LibriSpeech para discurso en ruso
DisfluencySpeech con pausas, titubeos y tartamudez

Por Qué Todo Se Rompía

El primer intento se basaba en la receta más obvia: teacher forcing y cross-entropy estándar en transcripciones. El LLM recibía como entrada una instrucción, vectores de audio y el texto correcto, con pérdida computada solo en los tokens de respuesta. En la práctica, el esquema apenas escuchaba la grabación: el modelo producía fragmentos incoherentes y WER podía quedarse atrapado alrededor del 300%. Incluso después de añadir LoRA, quedó claro que el problema era más profundo — el proyector no estaba llevando la señal de audio a donde el modelo de lenguaje podía leerla. Gemma mantenía un prior demasiado fuerte en la geometría familiar de los tokens de texto.

Luego vino una serie de correcciones dirigidas. El autor añadió una fase cero donde Gemma primero simplemente aprendió a reescribir texto siguiendo instrucciones, ya que se estaba usando una versión no sintonizada para instrucciones. Después vinieron experimentos con cuantización y regularizaciones: commitment loss debería mantener las salidas del proyector cerca de incrustaciones conocidas, SWD alinear distribuciones de vectores de audio y texto, entropy loss forzar al sistema a usar más códigos, y VICReg evitar que las coordenadas individuales colapsaran.

Las visualizaciones t-SNE ayudaron a identificar dos problemas principales: colapso de representación y una brecha geométrica entre espacios de audio y texto. Pero cada nuevo ajuste trataba solo un síntoma. SWD mejoró la forma de la distribución sin mejorar el contenido. Entropy loss expandió el uso de códigos pero lo hizo arbitrariamente. VICReg aumentó la varianza, pero los vectores se dispersaron caóticamente. El sistema repetidamente encontraba una alternativa donde las métricas se veían localmente mejor mientras el reconocimiento real no emergía.

Esto se convirtió en la lección principal de la fase de regularización: con una señal primaria débil, el modelo optimiza la matemática en lugar del significado.

Qué Realmente Funcionó

El punto de inflexión fue abandonar la idea de que la alineación podría lograrse solo a través de penalizaciones indirectas. El autor hizo del aprendizaje contrastivo la señal primaria y cambió a InfoNCE simétrico: un vector de audio debe estar más cerca de su transcripción que de todos los otros textos en el lote, y viceversa. A diferencia de los regularizadores anteriores, esta pérdida especifica no estadísticas generales sino relaciones específicas por pares.

Con un lote grande esto funcionó notablemente mejor: la curva de pérdida cayó suavemente sin saltos bruscos, y WER bajó al 35%. El resultado aún no coincide con sistemas ASR comerciales, pero ya no es ruido aleatorio. En los logs, el modelo comenzó a cometer errores fonéticamente plausibles: captaba sonidos de palabras y las confundía más como una persona con audición deficiente que como un generador de texto roto. Para un primer paso, esto importa más que el número absoluto de WER: el sistema dejó de simular respuestas y comenzó genuinamente a usar sonido.

Esto es lo que el autor considera la principal señal de progreso.

"Pero lo principal es que ya está escuchando."

Qué Significa Esto

Este caso demuestra bien que la modalidad de audio barata para LLMs locales es posible, pero no a través del proyector MLP "mágico" de los artículos. Un simple emparejamiento de un codificador listo y un LLM comienza a funcionar solo cuando una señal de alineación fuerte aparece entre ellos. Para los desarrolladores, esta es una conclusión importante: si desea añadir voz a su propio modelo sin entrenar costosamente desde cero, una etapa contrastiva puede resultar no ser una opción sino un fundamento obligatorio.

Hamidun News

Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

Canal de Telegram RSS hamidun.com

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

🎓 Academy — 7 días gratis Consulta gratuita