A startup de Dani Shcherbakov reduziu as pausas em agentes de voz para 0,3 segundo e escalou para 1 milhão de chamadas por mês
A equipe de Dani Shcherbakov mostrou como os agentes modernos de AI para chamadas estão deixando para trás os antigos robôs baseados em scripts. O sistema…
Processado por IA de Habr AI; editado por Hamidun News
A startup de Daniil Shcherbakov demonstra como agentes de IA por voz para negócios estão se afastando dos robôs roteirizados tradicionais. Através de orquestração personalizada, modelos ajustados e integração com CRM, o sistema responde mais rápido que humanos, gerencia volumes altos de discagem e já é usado em casos comerciais.
Por que as chamadas soam mais naturais
A principal diferença de robôs baseados em intenção clássicos é trabalhar não por um conjunto rígido de frases, mas por contexto da empresa, propósito da chamada e histórico do diálogo. O artigo fornece um exemplo de um viveiro de plantas: uma cliente perguntou sobre prazos de plantio e disponibilidade de uma árvore de pera com sistema radicular fechado, e o agente não saiu do roteiro—continuou a conversa como um consultor em vez de um respondedor automatizado. Esses momentos, segundo o autor, mudam atitudes sobre discagem de saída: as pessoas não ouvem pausas intermináveis, repetições e tentativas de redirecioná-las de volta ao ramo original.
"Outono é um bom período para plantar árvores frutíferas."
Para negócios, isso importa não apenas pela experiência do usuário. Um call center vivo exige treinamento prolongado, controle de qualidade e contratação constante, enquanto resultados ainda dependem de fadiga dos funcionários e conhecimento de domínio. Em imóveis, por exemplo, um gerente começar a vender consistentemente apenas após centenas ou milhares de chamadas. Um agente de IA está livre dessa variação: fala do mesmo jeito de manhã, à noite e no final da semana, e segundo o material, parceiros conversacionais frequentemente continuam o diálogo mesmo após aprender que não é um humano ligando.
Como o stack é construído
Internamente, a plataforma é estruturada como um sistema modular com um orquestrador unificado. Primeiro, a fala do chamador é convertida em texto em tempo real pelo módulo de reconhecimento, então este texto é processado por um modelo de linguagem junto com lógica de diálogo, após o qual a resposta vai para síntese de fala. Em paralelo, o sistema escreve histórico de contato, status de lead e métricas-chave no CRM e análises internas.
A métrica-chave é latência abaixo de 0,3 segundos entre a fala do humano e a resposta do sistema. Este é o limiar em que a conversa para de soar como uma chamada de saída robótica típica e começa a parecer um diálogo telefônico ordinário.
Ênfase especial é colocada não na LLM em si, mas na combinação do modelo com restrições de cenário rígidas. Um modelo base pode gerar uma resposta plausível mas fora do alvo, enquanto em vendas, qualificação de lead, perguntas obrigatórias, tratamento de objeções e progressão da conversa para o próximo passo são críticos. Portanto, a equipe construiu sua própria camada de diálogo sobre o modelo. Segundo o autor, foi treinada em grandes arrays de conversas de negócios reais e scripts de clientes, e sua tarefa é manter a conversa dentro da lógica de negócios, mesmo que o interlocutor responda de forma não convencional ou mude abruptamente de assunto.
Que números obtemos
O material afirma que lançar um agente assim leva apenas dias: primeiro, coletam dados sobre o produto e cenários, depois configuram o agente, conectam o CRM e lançam testes. Depois disso, o sistema é gerenciado através de um painel em nuvem onde você pode rapidamente mudar lógica de diálogo, testar hipóteses com testes A/B e visualizar análises para cada diálogo.
Já neste estágio, o valor muda de economias simples de custo para velocidade de resposta: o serviço pode discar através de bases grandes em minutos, enquanto competidores ainda estão distribuindo leads entre operadores.
- Conversão para lead qualificado em chamadas de saída frias para um desenvolvedor imobiliário aumentou 50%.
- Em serviços de limpeza, conversão de requisição para lead subiu de 48% para 59%.
- Custos de chamadas de saída em um caso caíram 60%.
- Tempo de resposta para uma requisição de entrada caiu de 1,5 hora para 3 segundos.
- Escalar de 5.000 para 20.000 chamadas por dia leva não meses de contratação, mas alguns dias de configuração.
O autor enfatiza separadamente gerenciabilidade. Se em um call center tradicional apenas uma pequena fração de conversas é monitorada, aqui cada chamada pode ser analisada e cenários rapidamente corrigidos. Isso importa para empresas competindo pela mesma base de contatos: quando uma base inteira pode ser processada em 9–10 minutos, a vantagem vai não para o que tem mais operadores, mas para o que qualifica leads mais rápido e os passa para vendas. Neste modo, um milhão de chamadas por mês não é mais exótico.
O que isso significa
Agentes de IA por voz estão gradualmente se movendo da categoria de "demos com efeito uau" para uma ferramenta operacional completa. Se as métricas afirmadas forem confirmadas em diferentes verticals, o negócio consegue não apenas um substituto para suporte de primeira linha, mas um canal de vendas e serviço gerenciado onde velocidade de resposta, consistência de cenário e escalabilidade importam mais que improvisação humana.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.