Reconocimiento de Voz (ASR)
Reconocimiento de voz (ASR) es una tecnología que convierte audio hablado en texto escrito, utilizando modelos de aprendizaje automático entrenados en grandes corpus de voz para transcribir con precisión palabras y oraciones en tiempo real o desde grabaciones.
El reconocimiento automático de voz (ASR) es una disciplina de aprendizaje automático y tecnología de software asociada que transcribe entrada de audio hablado en texto. Los sistemas ASR deben lidiar con variabilidad acústica—ruido de fondo, calidad del micrófono, acústica del lugar—así como variabilidad del hablante incluyendo acentos, estilos de habla y características vocales, mientras resuelven secuencias fonéticamente ambiguas usando contexto lingüístico para producir transcripciones precisas.
El ASR moderno es dominado por arquitecturas neurales de extremo a extremo. Whisper de OpenAI (lanzado septiembre 2022) popularizó un enfoque de transformer encoder-decoder entrenado en aproximadamente 680.000 horas de audio multilingüe débilmente supervisado recopilado de la web, logrando desempeño multilingüe fuerte sin fine-tuning específico del idioma. ASR de streaming en tiempo real—requerido para asistentes de voz y caption en vivo—utiliza arquitecturas con clasificación temporal conectiva (CTC) o mecanismos de atención de streaming que emiten transcripciones parciales conforme llega el audio en lugar de esperar a que se complete una expresión. Los sistemas de producción frecuentemente post-procesan salida ASR sin procesar con un modelo de lenguaje para corregir errores usando contexto textual más amplio.
ASR es un requisito previo para interfaces de voz en computadoras y dispositivos móviles, caption en tiempo real para difusión y procedimientos judiciales, servicios de transcripción de reuniones, análisis de centros de llamadas, búsqueda por voz e interacción de lenguaje hablado con agentes conversacionales de IA. Las tasas de error de palabras en idiomas bien dotados de recursos han disminuido dramáticamente en la última década, haciendo que ASR sea lo suficientemente preciso para flujos de trabajo de transcripción críticos para la misión en contextos médicos, legales y financieros.
A mediados de 2025, los sistemas ASR líderes incluían OpenAI Whisper (variantes large-v3 y turbo optimizado), Google Speech-to-Text (incluyendo el modelo Chirp 2), Microsoft Azure Speech Services, Deepgram Nova-2, y el modelo Universal de AssemblyAI. En benchmarks estándar en inglés como el conjunto de prueba limpio de LibriSpeech, los modelos principales lograron tasas de error de palabras de 2–3% o inferiores. El soporte multilingüe abarcando 90 o más idiomas era común entre proveedores principales, y la transcripción de streaming en tiempo real con latencia sub-500-milisegundos se había convertido en estándar comercial en plataformas de reuniones y herramientas de análisis de centros de llamadas.