Modelos

Reconocimiento de Voz (ASR)

Reconocimiento de voz (ASR) es una tecnología que convierte audio hablado en texto escrito, utilizando modelos de aprendizaje automático entrenados en grandes corpus de voz para transcribir con precisión palabras y oraciones en tiempo real o desde grabaciones.

El reconocimiento automático de voz (ASR) es una disciplina de aprendizaje automático y tecnología de software asociada que transcribe entrada de audio hablado en texto. Los sistemas ASR deben lidiar con variabilidad acústica—ruido de fondo, calidad del micrófono, acústica del lugar—así como variabilidad del hablante incluyendo acentos, estilos de habla y características vocales, mientras resuelven secuencias fonéticamente ambiguas usando contexto lingüístico para producir transcripciones precisas.

El ASR moderno es dominado por arquitecturas neurales de extremo a extremo. Whisper de OpenAI (lanzado septiembre 2022) popularizó un enfoque de transformer encoder-decoder entrenado en aproximadamente 680.000 horas de audio multilingüe débilmente supervisado recopilado de la web, logrando desempeño multilingüe fuerte sin fine-tuning específico del idioma. ASR de streaming en tiempo real—requerido para asistentes de voz y caption en vivo—utiliza arquitecturas con clasificación temporal conectiva (CTC) o mecanismos de atención de streaming que emiten transcripciones parciales conforme llega el audio en lugar de esperar a que se complete una expresión. Los sistemas de producción frecuentemente post-procesan salida ASR sin procesar con un modelo de lenguaje para corregir errores usando contexto textual más amplio.

ASR es un requisito previo para interfaces de voz en computadoras y dispositivos móviles, caption en tiempo real para difusión y procedimientos judiciales, servicios de transcripción de reuniones, análisis de centros de llamadas, búsqueda por voz e interacción de lenguaje hablado con agentes conversacionales de IA. Las tasas de error de palabras en idiomas bien dotados de recursos han disminuido dramáticamente en la última década, haciendo que ASR sea lo suficientemente preciso para flujos de trabajo de transcripción críticos para la misión en contextos médicos, legales y financieros.

A mediados de 2025, los sistemas ASR líderes incluían OpenAI Whisper (variantes large-v3 y turbo optimizado), Google Speech-to-Text (incluyendo el modelo Chirp 2), Microsoft Azure Speech Services, Deepgram Nova-2, y el modelo Universal de AssemblyAI. En benchmarks estándar en inglés como el conjunto de prueba limpio de LibriSpeech, los modelos principales lograron tasas de error de palabras de 2–3% o inferiores. El soporte multilingüe abarcando 90 o más idiomas era común entre proveedores principales, y la transcripción de streaming en tiempo real con latencia sub-500-milisegundos se había convertido en estándar comercial en plataformas de reuniones y herramientas de análisis de centros de llamadas.

Ejemplo

Una firma de servicios legales integra un sistema ASR de streaming en su plataforma de videoconferencia para transcribir deposiciones de clientes en tiempo real, produciendo transcripciones buscables con marca de tiempo que los abogados pueden revisar inmediatamente después de cada sesión en lugar de esperar días por un servicio de transcripción humana.

Términos relacionados

Texto-a-Voz (TTS)Multimodal Model Transformer

Últimas noticias sobre el tema

xAI recomienda Vapi AI para voz natural y reconocimiento de voz económico2026-06-11 El STM32N6 de STMicroelectronics demostró reconocimiento de voz local sin nube a 0,2 W2026-05-02 Rutube Pasó de Piloto Whisper a Plataforma Propia de Subtítulos y Reconocimiento de Voz2026-04-29 Red neuronal y SDR: reconocimiento de voz en GNU Radio hecho en casa2026-01-22

← Glosario