OpenAI Blog→ original

Parloa lançou agentes de voz com AI para dar suporte a grandes empresas usando modelos da OpenAI

Parloa explicou como usa modelos da OpenAI em agentes de voz com AI no atendimento ao cliente de grandes empresas. A plataforma AMP dá às equipes de negócio uma

Processado por IA de OpenAI Blog; editado por Hamidun News
Parloa lançou agentes de voz com AI para dar suporte a grandes empresas usando modelos da OpenAI
Fonte: OpenAI Blog. Colagem: Hamidun News.
◐ Ouvir artigo

Parloa, desenvolvedora berlinense de plataforma para serviço ao cliente, compartilhou como usa modelos OpenAI para lançar agentes de IA com voz em grandes empresas. A plataforma AMP faz mais do que apenas responder chamadas—ajuda a projetar, testar e implantar sistemas que devem funcionar de forma confiável em modo de tempo real.

Como o AMP Funciona

A história da Parloa começou com um desafio bastante prático. Um dos cofundadores da empresa, Stefan Ostwald, passou um dia em um call center de seguros e viu como os funcionários lidam repetidamente com solicitações idênticas: redefinições de senha, questões sobre apólices, mudanças rotineiras de conta. No início, a empresa construía bots de voz baseados em regras, mas com o advento do ChatGPT e novos modelos OpenAI, ela mudou para uma Plataforma de Gerenciamento de Agentes de IA, ou AMP. Agora o foco não é mais em cenários rigidamente predefinidos, mas em uma plataforma onde as empresas podem construir, testar e implementar serviços de voz baseados em LLM.

A ideia principal do AMP é que ele pode ser usado não apenas por desenvolvedores. Equipes de negócios ou especialistas em assunto definem o papel do agente, instruções, restrições e ferramentas conectadas em linguagem natural, sem árvores de intenção e sem descrever manualmente cada etapa. O sistema pode então ser executado através de simulação: um modelo representa o cliente, outro representa o agente configurado. Os times veem como o agente responde, se ele chama corretamente as APIs e se ele fica dentro dos limites do cenário. Eles podem ajustar rapidamente a configuração antes de qualquer chamada real.

Apostando na Avaliação

Parloa faz uma aposta forte em uma abordagem evaluation-first. Para clientes corporativos, belos demos não são suficientes—eles precisam de previsibilidade em produção, porque mudar para um novo modelo sempre envolve custos e riscos. Então a empresa não toma benchmarks abstratos como verdade. Em vez disso, ela constrói seus próprios conjuntos de teste que espelham cenários reais de suporte ao cliente. Estes medem com que eficiência o modelo segue as instruções, com que confiabilidade ele chama ferramentas, qual é a latência de resposta e como o sistema lida com casos extremos.

"Os modelos só têm importância quando funcionam em produção," é assim que

Parloa explica sua abordagem aos sistemas de voz em tempo real.

Se um modelo mostra bons resultados no papel, isso não é suficiente. Apenas as configurações que passam consistentemente em simulações e verificações automatizadas são enviadas para produção. A plataforma combina LLM-as-a-judge com regras determinísticas: algumas avaliações verificam a qualidade da resposta e aderência às instruções, enquanto outras garantem que as etapas críticas aconteçam na ordem correta. Essa abordagem já está gerando resultados comerciais: em uma implantação, uma empresa global de viagens reduziu o número de escalações para operadores ao vivo em 80%.

Voz Sem Pausas

Para Parloa, a interface de voz é um desafio de engenharia distinto. Ao contrário do chat de texto, cada segundo é sentido diretamente pelo usuário. Toda a pipeline deve funcionar com latência mínima: o sistema primeiro reconhece a fala, então o modelo gera a resposta, depois a síntese de voz entra em ação. Mesmo uma pequena pausa na camada do modelo se torna um silêncio notável na chamada, então Parloa trabalha com OpenAI para otimizar não apenas a qualidade da resposta, mas também a velocidade, robustez e aderência às instruções.

  • O reconhecimento de fala é verificado pela taxa de erro de palavra, especialmente em dados sensíveis como números de apólice e identificadores de conta.
  • A síntese de fala é avaliada por testes de escuta às cegas para entender como a voz soa naturalmente para pessoas reais.
  • Modelos de speech-to-speech são testados separadamente para prontidão em produção em termos de latência, precisão e custo.
  • Os benchmarks multilíngues são executados em diferentes mercados, porque os clientes corporativos precisam de confiabilidade igual não em um país, mas globalmente.

Para Parloa, a interface de voz é um desafio de engenharia distinto. Ao contrário do chat de texto, cada segundo é sentido diretamente pelo usuário. Hoje, os agentes da Parloa lidam com milhões de conversas em varejo, viagens e seguros. A empresa olha além de apenas chamadas telefônicas: um cenário de suporte único pode começar no telefone, continuar no chat e incluir links ou elementos interativos conforme a conversa se desenrola. Nessa abordagem, os canais não operam mais isoladamente. Para o cliente, isso deve ser um diálogo perfeito, não uma coleção de pontos de contato fragmentados, e é esse o modelo que a Parloa está construindo sua plataforma.

O Que Isso Significa

A história da Parloa mostra que o mercado de suporte empresarial está se afastando de simples árvores IVR em direção a plataformas completas de gerenciamento de agentes de IA. Os vencedores aqui não serão aqueles com o modelo mais barulhento, mas aqueles que conseguem validar o desempenho contra cenários reais, manter baixa latência e integrar com segurança aos sistemas comerciais internos.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…