Loka creó un agente de voz en Amazon Nova 2 Sonic con latencia inferior a un segundo

Q: ¿Cuál es la fuente?

Publicado originalmente en AWS Machine Learning Blog. Hamidun News procesa y adapta los materiales con IA.

Q: ¿Cuándo se publicó?

28 jun 2026. Tiempo de lectura: 3 min.

Loka publicó la arquitectura de un agente de voz basado en Amazon Nova 2 Sonic, un modelo de voz de AWS que evita la cadena clásica ASR→LLM→TTS y responde a…

Redacción de Hamidun News

Monitoreo de AI · AWS Machine Learning Blog

28 jun 2026· 2 min

Procesado por IA desde AWS Machine Learning Blog; editado por Hamidun News

Loka creó un agente de voz en Amazon Nova 2 Sonic con latencia inferior a un segundo — Fuente: AWS Machine Learning Blog. Collage: Hamidun News.

◐ Escuchar artículo

Loka publicó un análisis arquitectónico detallado de cómo creó un agente de voz basado en Amazon Nova 2 Sonic — el modelo de habla de próxima generación de AWS. El desafío era directo: construir un bot que los clientes no cuelguen después de algunos segundos de espera.

El Problema a Resolver

La voz robótica en bots telefónicos no es solo una irritación estética. Para las empresas, significa pérdidas directas: el cliente cuelga, llama para hablar con un operador humano o cambia a la competencia. La reputación de la marca sufre, los costos de soporte aumentan.

Los sistemas de voz clásicos funcionan a través de una larga cadena: reconocimiento de voz (ASR) → conversión a texto → modelo de lenguaje → generación de respuesta → síntesis de voz (TTS). La latencia se acumula en cada etapa. Como resultado, la pausa entre la pregunta del cliente y la respuesta del bot es de 2 a 5 segundos.

En ese tiempo, una persona decide que el sistema no funciona y cuelga o exige un operador humano. Loka se propuso romper esta cadena y crear un agente que responda dentro de la pausa natural de la conversación, como un interlocutor vivo. La solución fue Amazon Nova 2 Sonic.

Qué Hace Diferente Nova 2 Sonic

Nova 2 Sonic es un modelo speech-to-speech multimodal de AWS que funciona directamente con audio, omitiendo los pasos separados de transcripción ASR y síntesis TTS. Toma un flujo de audio como entrada y genera un flujo de audio como salida sin conversión intermedia a texto. Esto cambia fundamentalmente el perfil de latencia:

Las respuestas comienzan dentro de 300–500 ms después de la pausa del usuario
El modelo comprende interrupciones naturales en el habla y responde correctamente a ellas
El sistema escucha la entonación y el contexto emocional — y adapta el tono de la respuesta
La sensación de "el sistema está procesando" desaparece completamente del diálogo
La integración con lógica empresarial a través de function calling no interrumpe el flujo de la conversación

Nova 2 Sonic está disponible a través de Amazon Bedrock, lo que permite a las empresas en AWS integrarlo sin cambiar de proveedor o reconstruir completamente su infraestructura.

Arquitectura en Producción

Loka implementó transmisión de audio en tiempo real con búfer mínimo. El sistema no espera la declaración completa del usuario — comienza el procesamiento inmediatamente, permitiendo que Nova 2 Sonic responda precisamente en el momento de una pausa natural, no después de un silencio prolongado.

"La voz robótica es la principal razón por la que los clientes cuelgan.

No es un problema técnico — es un problema de confianza", señala el equipo de Loka.

Para acceder a datos comerciales en tiempo real — estado del pedido, historial del cliente, disponibilidad de inventario — el agente utiliza function calling en tiempo real. Para el cliente, esto parece una respuesta instantánea, no una pausa perceptible esperando resultados. En producción, el sistema demuestra resiliencia frente a interrupciones, cambios de tema y pausas no estándar — escenarios donde los sistemas ASR clásicos suelen fallar.

Lo Que Esto Significa

Los modelos speech-to-speech eliminan la principal barrera para la adopción masiva de bots de voz — la latencia perceptible que destruye la ilusión de una conversación en vivo. Si la latencia es imperceptible y la voz suena natural, se difumina el límite entre agente y operador. Para las empresas, este es un camino directo hacia la automatización de call center sin afectar el NPS. Tras Nova 2 Sonic, modelos similares de otros proveedores entrarán al mercado — la competencia en el segmento de voz AI apenas está comenzando.

Hamidun News

Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

Canal de Telegram RSS hamidun.com

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

🎓 Academy — 7 días gratis Consulta gratuita