Modelos

Texto-a-Voz (TTS)

Texto-a-voz (TTS) es una tecnología que convierte texto escrito en audio de voz sintetizada, utilizando modelos de IA entrenados en grabaciones de voz humana para producir salida de voz de sonido natural.

Texto-a-voz (TTS) es un pipeline de aprendizaje automático que convierte texto escrito en formas de onda de audio que representan lenguaje hablado. Los sistemas TTS modernos deben manejar pronunciación, prosodia (ritmo, acento, entonación), velocidad del habla e identidad de voz simultáneamente, apuntando a una salida que suene natural y contextualmente apropiada. El contraste con sistemas más antiguos basados en reglas y síntesis concatenativa—que producían habla audiblemente robótica—es lo suficientemente sustancial que los oyentes frecuentemente no pueden identificar confiablemente la salida TTS neural como sintética.

Las arquitecturas TTS contemporáneas típicamente combinan tres componentes: un codificador de texto que normaliza la entrada y convierte caracteres o fonemas en embeddings; un modelo acústico (comúnmente un transformer o modelo de difusión) que predice espectrogramas mel o representaciones de audio latente continuo; y un vocoder neural como HiFi-GAN o EnCodec que convierte esas representaciones en formas de onda de audio sin procesar. La clonación de voz añade un paso de acondicionamiento de hablante: dado una muestra de audio de referencia corta—tan pocas como unos pocos segundos en sistemas líderes—el modelo adapta su salida para coincidir con el timbre, acento y estilo de habla del hablante objetivo. El entrenamiento requiere grandes corpus de habla limpia emparejada con transcripciones precisas.

TTS es fundamental para herramientas de accesibilidad como lectores de pantalla y dispositivos asistivos para personas con discapacidad visual, asistentes de voz, producción de audiolibros y podcasts, sistemas IVR de servicio al cliente y localización de contenido en varios idiomas. La calidad casi humana del TTS neuronal moderno ha permitido la producción de contenido de audio de larga duración en escalas y velocidades imposibles solo con narradores humanos.

A mediados de 2025, los sistemas TTS líderes incluían ElevenLabs (reconocido por calidad de clonación de voz y expresividad emocional), OpenAI TTS (disponible vía API), Google Cloud Text-to-Speech (familias de voces WaveNet y Chirp), Microsoft Azure Neural TTS, y Cartesia (enfocado en streaming de latencia ultra-baja). Opciones de código abierto como Kokoro y XTTS-v2 habían alcanzado calidad casi comercial. TTS de streaming con latencias de primer audio por debajo de 300 milisegundos había sido logrado por varios proveedores, permitiendo el despliegue en agentes conversacionales de IA en tiempo real.

Ejemplo

Un editor utiliza ElevenLabs para clonar la voz de un autor a partir de una grabación de estudio de 30 minutos, luego genera automáticamente una narración de audiolibro completo de 10 horas a partir del texto del manuscrito, produciendo audio que coincide con la cadencia y acento del autor sin sesiones de grabación adicionales.

Términos relacionados

Reconocimiento de Voz (ASR)Multimodal Model Deepfake

← Glosario