OpenAI Blog→ original

Parloa lanzó agentes de voz con AI para dar soporte a grandes empresas usando modelos de OpenAI

Parloa explicó cómo usa modelos de OpenAI en agentes de voz con AI para la atención al cliente de grandes empresas. La plataforma AMP ofrece a los equipos de ne

Procesado por IA desde OpenAI Blog; editado por Hamidun News
Parloa lanzó agentes de voz con AI para dar soporte a grandes empresas usando modelos de OpenAI
Fuente: OpenAI Blog. Collage: Hamidun News.
◐ Escuchar artículo

Parloa, desarrolladora berlinesa de plataformas de servicio al cliente, compartió cómo utiliza modelos OpenAI para lanzar agentes de IA de voz en grandes empresas. La plataforma AMP hace más que simplemente responder llamadas: ayuda a diseñar, probar e implementar sistemas que deben funcionar de manera confiable en modo de tiempo real.

Cómo Funciona AMP

La historia de Parloa comenzó con un desafío bastante práctico. Uno de los cofundadores de la empresa, Stefan Ostwald, pasó un día en un centro de llamadas de seguros y vio cómo los empleados manejaban repetidamente solicitudes idénticas: restablecimiento de contraseñas, preguntas sobre pólizas, cambios rutinarios de cuenta. Al principio, la empresa construía bots de voz basados en reglas, pero con la llegada de ChatGPT y nuevos modelos OpenAI, pasó a una Plataforma de Gestión de Agentes de IA, o AMP. Ahora el enfoque ya no está en escenarios rígidamente predefinidos, sino en una plataforma donde las empresas pueden construir, probar e implementar servicios de voz basados en LLM.

La idea principal de AMP es que puede ser utilizado no solo por desarrolladores. Los equipos comerciales o expertos en la materia definen el rol del agente, instrucciones, restricciones y herramientas conectadas en lenguaje natural, sin árboles de intención y sin describir manualmente cada paso. El sistema puede luego ejecutarse a través de simulación: un modelo juega el rol del cliente, otro el del agente configurado. Los equipos ven cómo responde el agente, si llama correctamente a las API y si se mantiene dentro de los límites del escenario. Pueden ajustar rápidamente la configuración antes de cualquier llamada real.

Apostando por la Evaluación

Parloa hace una apuesta fuerte en un enfoque evaluation-first. Para clientes empresariales, las demos bonitas no son suficientes—necesitan previsibilidad en producción, porque cambiar a un nuevo modelo siempre implica costos y riesgos. Por lo tanto, la empresa no toma los benchmarks abstractos como verdad. En su lugar, construye sus propios conjuntos de prueba que reflejan escenarios reales de soporte al cliente. Estos miden qué tan bien el modelo sigue las instrucciones, qué tan confiablemente llama a herramientas, cuál es la latencia de respuesta y cómo el sistema maneja casos límite.

"Los modelos solo importan cuando funcionan en producción," así es como

Parloa explica su enfoque para sistemas de voz en tiempo real.

Si un modelo muestra buenos resultados en papel, eso no es suficiente. Solo las configuraciones que pasan consistentemente en simulaciones y verificaciones automatizadas se envían a producción. La plataforma combina LLM-as-a-judge con reglas determinísticas: algunas evaluaciones verifican la calidad de la respuesta y el cumplimiento de instrucciones, mientras que otras garantizan que los pasos críticos ocurran en el orden correcto. Este enfoque ya está generando resultados comerciales: en una implementación, una empresa global de viajes redujo el número de escalaciones a operadores en vivo en un 80%.

Voz Sin Pausas

Para Parloa, la interfaz de voz es un desafío de ingeniería diferente. A diferencia del chat de texto, cada segundo es sentido directamente por el usuario. La tubería completa debe funcionar con latencia mínima: el sistema primero reconoce el habla, luego el modelo genera la respuesta, luego entra en funcionamiento la síntesis de voz. Incluso una pequeña pausa en la capa del modelo se convierte en un silencio notable en la llamada, por lo que Parloa trabaja con OpenAI para optimizar no solo la calidad de la respuesta, sino también la velocidad, robustez y adhesión a las instrucciones.

  • El reconocimiento de voz se verifica por la tasa de error de palabras, especialmente en datos sensibles como números de póliza e identificadores de cuenta.
  • La síntesis de voz se evalúa mediante pruebas de escucha a ciegas para entender qué tan natural suena la voz para personas reales.
  • Los modelos de speech-to-speech se prueban separadamente para la preparación de la producción en términos de latencia, precisión y costo.
  • Los benchmarks multilingües se ejecutan en diferentes mercados, porque los clientes empresariales necesitan confiabilidad igual no en un país sino globalmente.

Hoy en día, los agentes de Parloa manejan millones de conversaciones en retail, viajes y seguros. La empresa mira más allá de simples llamadas telefónicas: un único escenario de soporte puede comenzar en el teléfono, continuar en el chat e incluir enlaces o elementos interactivos a medida que avanza la conversación. En este enfoque, los canales ya no operan de forma aislada. Para el cliente, esto debe ser un diálogo fluido, no una colección de puntos de contacto fragmentados, y ese es el modelo en el que Parloa está construyendo su plataforma.

Qué Significa Esto

La historia de Parloa muestra que el mercado de soporte empresarial está dejando de lado los simples árboles IVR en favor de plataformas completas de gestión de agentes de IA. Los ganadores aquí no serán los que tengan el modelo más resonante, sino los que puedan validar el desempeño contra escenarios reales, mantener baja latencia e integrar de forma segura con los sistemas comerciales internos.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…