Parloa lançou agentes de voz com AI para dar suporte a grandes empresas usando modelos da OpenAI
Parloa explicou como usa modelos da OpenAI em agentes de voz com AI no atendimento ao cliente de grandes empresas. A plataforma AMP dá às equipes de negócio uma
Processado por IA de OpenAI Blog; editado por Hamidun News
Parloa, desenvolvedora berlinense de plataforma para serviço ao cliente, compartilhou como usa modelos OpenAI para lançar agentes de IA com voz em grandes empresas. A plataforma AMP faz mais do que apenas responder chamadas—ajuda a projetar, testar e implantar sistemas que devem funcionar de forma confiável em modo de tempo real.
Como o AMP Funciona
A história da Parloa começou com um desafio bastante prático. Um dos cofundadores da empresa, Stefan Ostwald, passou um dia em um call center de seguros e viu como os funcionários lidam repetidamente com solicitações idênticas: redefinições de senha, questões sobre apólices, mudanças rotineiras de conta. No início, a empresa construía bots de voz baseados em regras, mas com o advento do ChatGPT e novos modelos OpenAI, ela mudou para uma Plataforma de Gerenciamento de Agentes de IA, ou AMP. Agora o foco não é mais em cenários rigidamente predefinidos, mas em uma plataforma onde as empresas podem construir, testar e implementar serviços de voz baseados em LLM.
A ideia principal do AMP é que ele pode ser usado não apenas por desenvolvedores. Equipes de negócios ou especialistas em assunto definem o papel do agente, instruções, restrições e ferramentas conectadas em linguagem natural, sem árvores de intenção e sem descrever manualmente cada etapa. O sistema pode então ser executado através de simulação: um modelo representa o cliente, outro representa o agente configurado. Os times veem como o agente responde, se ele chama corretamente as APIs e se ele fica dentro dos limites do cenário. Eles podem ajustar rapidamente a configuração antes de qualquer chamada real.
Apostando na Avaliação
Parloa faz uma aposta forte em uma abordagem evaluation-first. Para clientes corporativos, belos demos não são suficientes—eles precisam de previsibilidade em produção, porque mudar para um novo modelo sempre envolve custos e riscos. Então a empresa não toma benchmarks abstratos como verdade. Em vez disso, ela constrói seus próprios conjuntos de teste que espelham cenários reais de suporte ao cliente. Estes medem com que eficiência o modelo segue as instruções, com que confiabilidade ele chama ferramentas, qual é a latência de resposta e como o sistema lida com casos extremos.
"Os modelos só têm importância quando funcionam em produção," é assim que
Parloa explica sua abordagem aos sistemas de voz em tempo real.
Se um modelo mostra bons resultados no papel, isso não é suficiente. Apenas as configurações que passam consistentemente em simulações e verificações automatizadas são enviadas para produção. A plataforma combina LLM-as-a-judge com regras determinísticas: algumas avaliações verificam a qualidade da resposta e aderência às instruções, enquanto outras garantem que as etapas críticas aconteçam na ordem correta. Essa abordagem já está gerando resultados comerciais: em uma implantação, uma empresa global de viagens reduziu o número de escalações para operadores ao vivo em 80%.
Voz Sem Pausas
Para Parloa, a interface de voz é um desafio de engenharia distinto. Ao contrário do chat de texto, cada segundo é sentido diretamente pelo usuário. Toda a pipeline deve funcionar com latência mínima: o sistema primeiro reconhece a fala, então o modelo gera a resposta, depois a síntese de voz entra em ação. Mesmo uma pequena pausa na camada do modelo se torna um silêncio notável na chamada, então Parloa trabalha com OpenAI para otimizar não apenas a qualidade da resposta, mas também a velocidade, robustez e aderência às instruções.
- O reconhecimento de fala é verificado pela taxa de erro de palavra, especialmente em dados sensíveis como números de apólice e identificadores de conta.
- A síntese de fala é avaliada por testes de escuta às cegas para entender como a voz soa naturalmente para pessoas reais.
- Modelos de speech-to-speech são testados separadamente para prontidão em produção em termos de latência, precisão e custo.
- Os benchmarks multilíngues são executados em diferentes mercados, porque os clientes corporativos precisam de confiabilidade igual não em um país, mas globalmente.
Para Parloa, a interface de voz é um desafio de engenharia distinto. Ao contrário do chat de texto, cada segundo é sentido diretamente pelo usuário. Hoje, os agentes da Parloa lidam com milhões de conversas em varejo, viagens e seguros. A empresa olha além de apenas chamadas telefônicas: um cenário de suporte único pode começar no telefone, continuar no chat e incluir links ou elementos interativos conforme a conversa se desenrola. Nessa abordagem, os canais não operam mais isoladamente. Para o cliente, isso deve ser um diálogo perfeito, não uma coleção de pontos de contato fragmentados, e é esse o modelo que a Parloa está construindo sua plataforma.
O Que Isso Significa
A história da Parloa mostra que o mercado de suporte empresarial está se afastando de simples árvores IVR em direção a plataformas completas de gerenciamento de agentes de IA. Os vencedores aqui não serão aqueles com o modelo mais barulhento, mas aqueles que conseguem validar o desempenho contra cenários reais, manter baixa latência e integrar com segurança aos sistemas comerciais internos.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.