Doubletapp explicou por que datasets fracos impedem AI de aumentar NPS, CTR e conversão
A Doubletapp disse que o fracasso de muitos projetos de AI não está no modelo, mas em dados de baixa qualidade. Um dataset de qualidade afeta o NPS do…
Processado por IA de Habr AI; editado por Hamidun News
A Doubletapp divulgou uma entrevista explicando por que projetos de IA quebram mais frequentemente não na escolha do modelo, mas nos dados. Ilnur Fayziev, chefe da unidade Data LLM, explicou como a qualidade do dataset se reflete diretamente no NPS de suporte, CTR do catálogo e taxa de conversão de compra.
Onde as métricas se perdem
A ideia principal da entrevista é simples: o negócio não compra um modelo em si, mas uma melhoria em um número específico. No suporte, essa é a velocidade de resolução de problemas e satisfação do cliente; no varejo online — clicabilidade da ficha técnica e participação de pedidos; na busca de base de conhecimento — precisão da resposta. Se um dataset for coletado com ruído, anotação deficiente ou sem conexão com cenários reais, o modelo começa a cometer erros onde cada engano custa dinheiro para o negócio. Portanto, a conversa sobre dados aqui não é acadêmica, mas uma conversa direta sobre receita, custos e qualidade de serviço.
O material também apresenta casos de uso menos óbvios. Para uma empresa industrial, a IA pode procurar respostas em regulamentos internos e reduzir o número de erros em processos de produção. Para tarefas de visão computacional — determinar a qualidade do aço pelos parâmetros do processo e ajudar a manter resultados estáveis. Em todos os casos, há a mesma lógica: no topo está a métrica de negócio, abaixo dela — a qualidade da operação do sistema ML, e sob ela fica o dataset, que ou fortalece o modelo ou imperceptivelmente o puxa para baixo.
- NPS e tempo de resposta no suporte
- CTR e conversão no e-commerce
- Precisão de busca na base de conhecimento interna
- Redução de erros em processos de produção
- Qualidade de reconhecimento em sistemas de visão computacional
Quando um dataset é obrigatório
Segundo Fayziev, um dataset de qualidade é necessário em duas situações típicas. A primeira — quando uma empresa está comparando IA com trabalho manual e quer entender se a solução pode ser implementada em produção. A segunda — quando o sistema já está funcionando, mas suas métricas deixaram de satisfazer: respostas não são relevantes, recomendações não levam a compras, e velocidade ou precisão atingiram um limite. Em ambos os casos, sem qualidade mensurável atual e métrica alvo clara, o trabalho com dados se torna adivinhação.
"Datasets são necessários em dois estágios do desenvolvimento do produto."
Um destaque especial foi dado à economia. Um dataset não é um desenvolvimento customizado infinito, mas sim um artefato final que pode ser preparado, verificado e carregado em um pipeline de treinamento ou ajuste fino. Sim, auditorias de modelo precisam ser repetidas regularmente, mas a coleta e anotação de dados geralmente são mais bem terceirizadas para quem se especializa neste processo. Se tudo for mantido internamente, os engenheiros gastam semanas selecionando exemplos, configurando o ambiente, controle de qualidade e gerenciamento de anotadores. Para o negócio, isso é frequentemente mais caro do que parece no início.
Por que o crowdsourcing enfraquece
A entrevista também é interessante porque captura uma mudança no mercado. O crowdsourcing em massa funcionava bem na era de tarefas simples como "gato ou cachorro". Agora esses cenários são tratados pelos próprios modelos com confiança suficiente, então a anotação humana está se deslocando para domínios especializados.
Se é sobre um assistente de código para um idioma raro, validação industrial complexa ou base de conhecimento temática, você precisa não apenas de um grande fluxo de executores, mas de pessoas que realmente entendam o contexto da tarefa e consigam identificar erros sutis. Uma abordagem combinada ainda é possível: a parte simples do pipeline pode ser entregue para anotação em massa, enquanto a parte complexa — para uma equipe especialista. Mas então o negócio enfrenta um novo fardo: decomposição da tarefa, encontrar diferentes contratados, transferência de contexto entre eles e controle de qualidade adicional nas interfaces.
É exatamente por isso que o mercado, de acordo com a avaliação da Doubletapp, permanece relativamente estreito e gira em torno de grandes empresas de LLM e projetos onde a melhoria de métricas pode ser facilmente convertida em dinheiro.
O que isso significa
Para o mercado, este é um sinal de que a vantagem competitiva em IA está se deslocando cada vez mais da escolha do modelo mais alto para a qualidade dos dados aplicados. Grandes players ainda precisam de datasets grandes, mas a próxima onda de demanda pode vir de pequenos times com produtos de IA de nicho. Eles primeiro testarão o MVP em dados prontos, e quando virem a economia, começarão a comprar datasets direcionados para seus pontos fracos — e é lá que o verdadeiro crescimento de métricas aparecerá.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.