AWS Machine Learning Blog→ original

Loka creó un agente de voz en Amazon Nova 2 Sonic con latencia inferior a un segundo

Loka publicó la arquitectura de un agente de voz basado en Amazon Nova 2 Sonic, un modelo de voz de AWS que evita la cadena clásica ASR→LLM→TTS y responde a…

Procesado por IA desde AWS Machine Learning Blog; editado por Hamidun News
Loka creó un agente de voz en Amazon Nova 2 Sonic con latencia inferior a un segundo
Fuente: AWS Machine Learning Blog. Collage: Hamidun News.
◐ Escuchar artículo

Loka publicó un análisis arquitectónico detallado de cómo creó un agente de voz basado en Amazon Nova 2 Sonic — el modelo de habla de próxima generación de AWS. El desafío era directo: construir un bot que los clientes no cuelguen después de algunos segundos de espera.

El Problema a Resolver

La voz robótica en bots telefónicos no es solo una irritación estética. Para las empresas, significa pérdidas directas: el cliente cuelga, llama para hablar con un operador humano o cambia a la competencia. La reputación de la marca sufre, los costos de soporte aumentan.

Los sistemas de voz clásicos funcionan a través de una larga cadena: reconocimiento de voz (ASR) → conversión a texto → modelo de lenguaje → generación de respuesta → síntesis de voz (TTS). La latencia se acumula en cada etapa. Como resultado, la pausa entre la pregunta del cliente y la respuesta del bot es de 2 a 5 segundos.

En ese tiempo, una persona decide que el sistema no funciona y cuelga o exige un operador humano. Loka se propuso romper esta cadena y crear un agente que responda dentro de la pausa natural de la conversación, como un interlocutor vivo. La solución fue Amazon Nova 2 Sonic.

Qué Hace Diferente Nova 2 Sonic

Nova 2 Sonic es un modelo speech-to-speech multimodal de AWS que funciona directamente con audio, omitiendo los pasos separados de transcripción ASR y síntesis TTS. Toma un flujo de audio como entrada y genera un flujo de audio como salida sin conversión intermedia a texto. Esto cambia fundamentalmente el perfil de latencia:

  • Las respuestas comienzan dentro de 300–500 ms después de la pausa del usuario
  • El modelo comprende interrupciones naturales en el habla y responde correctamente a ellas
  • El sistema escucha la entonación y el contexto emocional — y adapta el tono de la respuesta
  • La sensación de "el sistema está procesando" desaparece completamente del diálogo
  • La integración con lógica empresarial a través de function calling no interrumpe el flujo de la conversación

Nova 2 Sonic está disponible a través de Amazon Bedrock, lo que permite a las empresas en AWS integrarlo sin cambiar de proveedor o reconstruir completamente su infraestructura.

Arquitectura en Producción

Loka implementó transmisión de audio en tiempo real con búfer mínimo. El sistema no espera la declaración completa del usuario — comienza el procesamiento inmediatamente, permitiendo que Nova 2 Sonic responda precisamente en el momento de una pausa natural, no después de un silencio prolongado.

"La voz robótica es la principal razón por la que los clientes cuelgan.

No es un problema técnico — es un problema de confianza", señala el equipo de Loka.

Para acceder a datos comerciales en tiempo real — estado del pedido, historial del cliente, disponibilidad de inventario — el agente utiliza function calling en tiempo real. Para el cliente, esto parece una respuesta instantánea, no una pausa perceptible esperando resultados. En producción, el sistema demuestra resiliencia frente a interrupciones, cambios de tema y pausas no estándar — escenarios donde los sistemas ASR clásicos suelen fallar.

Lo Que Esto Significa

Los modelos speech-to-speech eliminan la principal barrera para la adopción masiva de bots de voz — la latencia perceptible que destruye la ilusión de una conversación en vivo. Si la latencia es imperceptible y la voz suena natural, se difumina el límite entre agente y operador. Para las empresas, este es un camino directo hacia la automatización de call center sin afectar el NPS. Tras Nova 2 Sonic, modelos similares de otros proveedores entrarán al mercado — la competencia en el segmento de voz AI apenas está comenzando.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…