Habr AI→ original

Rutube Pasó de Piloto Whisper a Plataforma Propia de Subtítulos y Reconocimiento de Voz

Rutube demostró por qué simplemente lanzar Whisper fue insuficiente para subtítulos de vídeos de usuarios. Después del piloto, el servicio tuvo que manejar…

Procesado por IA desde Habr AI; editado por Hamidun News
Rutube Pasó de Piloto Whisper a Plataforma Propia de Subtítulos y Reconocimiento de Voz
Fuente: Habr AI. Collage: Hamidun News.
◐ Escuchar artículo

Rutube describió cómo lanzó subtítulos automáticos para vídeos generados por usuarios: primero a través de un piloto rápido en Whisper, luego a través de su propia plataforma ASR. El equipo llegó a esto después de darse cuenta de que reconocer voz en una demostración y procesar de manera estable un flujo completo de contenido son dos tareas muy diferentes.

Por Qué Whisper No Fue Suficiente

Al principio, Whisper resultó ser una opción conveniente para probar la hipótesis. Permitió construir rápidamente el primer servicio, poner subtítulos en producción y entender que los usuarios realmente necesitaban esta función. Pero después del lanzamiento, surgieron limitaciones que son difíciles de notar en la fase piloto: la plataforma recibe millones de nuevos vídeos, algunos durando hasta 24 horas, el audio puede ser ruidoso y el idioma es desconocido de antemano. A esto se suman requisitos de calidad de texto y restricciones estrictas de velocidad de procesamiento, porque los subtítulos deben aparecer no en algún momento después, sino en el ritmo operativo del servicio.

Entre "reconocer voz" y "proporcionar subtítulos para todo el contenido" hay una enorme cantidad de trabajo.

Esta brecha fue precisamente la conclusión principal del equipo.

Para vídeo generado por usuarios, no es suficiente simplemente pasar la pista de audio a través de un modelo listo y guardar el resultado. Necesitas toda la infraestructura alrededor del reconocimiento: procesamiento de archivos largos, robustez ante audio deficiente, control de calidad del texto, gestión de colas y rendimiento predecible bajo carga pesada. De lo contrario, incluso un buen modelo ASR se convierte en un cuello de botella que no puede soportar tráfico a escala industrial.

En Qué Se Convirtió el Sistema

Al final, la tarea dejó de ser "otro servicio basado en ASR" y se convirtió en una plataforma de subtitulado completa. Rutube escribe que para lograrlo, tuvieron que pasar a una arquitectura de microservicios y su propio sistema de reconocimiento de voz. Este enfoque era necesario no por moda de pilas tecnológicas, sino por separación de responsabilidades: una parte del sistema se encarga de la ingesta y preparación de vídeo, otra del reconocimiento en sí, y una tercera del ensamblaje y entrega de resultados. A escala, esto es crítico porque permite escalar componentes individuales de forma independiente y evita que todo el pipeline se desmorone por una sobrecarga en un lugar.

Para tal plataforma, varios requisitos son importantes simultáneamente:

  • Aceptar un flujo de millones de nuevos vídeos sin intervención manual
  • Procesar vídeos de hasta 24 horas sin colapso del pipeline
  • Trabajar con idiomas desconocidos y audio ruidoso generado por usuarios
  • Mantener la calidad del texto suficiente para publicación
  • Mantenerse dentro de los límites de velocidad y costo de procesamiento

La transición a ASR propio tiene sentido en este contexto. Cuando un producto funciona en UGC masivo, un modelo externo universal te ayuda a comenzar, pero no es adecuado para ajustar a datos reales, restricciones de infraestructura y métricas objetivo. Tu propio sistema te da más control sobre velocidad, calidad, recursos y cómo se comporta el reconocimiento en casos extremos que se convierten en norma para una plataforma de vídeo, no excepción.

Cómo Lograron la Velocidad

El número más notable en la historia de Rutube es un rendimiento de alrededor de 1200 vídeos por hora por instancia ASR. Este es un parámetro importante porque en producción, la calidad del reconocimiento no puede verse por separado del rendimiento. Si el sistema produce buen texto pero encola miles de vídeos, el usuario obtiene poco beneficio. Si el pipeline funciona rápido pero es inestable en vídeos largos o audio deficiente, el producto se rompe en operación real. Entonces, la arquitectura aquí es tan importante como el modelo en sí.

Detrás de este número no hay un único algoritmo exitoso, sino una serie de soluciones de ingeniería: cómo cortar y alimentar audio, cómo distribuir tareas, cómo evitar perder tiempo en etapas ineficientes y cómo mantener recursos bajo control. El aspecto económico también es importante. Cuanto mayor sea el rendimiento por instancia ASR, más fácil será escalar el servicio sin un crecimiento explosivo de costos de infraestructura. Para plataformas con un flujo constante de UGC, esto ya no es una cuestión de conveniencia sino economía básica del producto.

Qué Significa Esto

La historia de Rutube ilustra bien el límite entre un prototipo de IA rápido y un producto maduro. Un modelo listo como Whisper te ayuda a lanzar rápidamente, pero un servicio a escala masiva requiere su propia arquitectura, control de calidad y optimización para cargas del mundo real. Para todos los que construyen características de IA sobre contenido generado por usuarios, esta es una señal clara: el cuello de botella generalmente no está en un modelo, sino en todo el pipeline alrededor.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…