Thomson Reuters define quatro regras para agentes de AI em que as empresas podem confiar
Os agentes de AI entram cada vez mais em fluxos de trabalho reais, mas a confiança neles depende menos da potência do modelo do que do processo. A Thomson…
Processado por IA de ZDNet AI; editado por Hamidun News
Os agentes de IA estão se movendo rapidamente de experimentos para fluxos de trabalho, e as empresas enfrentam uma questão-chave: como torná-los confiáveis o suficiente para tarefas do mundo real. A Thomson Reuters acredita que a resposta não está na magia dos modelos, mas na disciplina de desenvolvimento, testes e integração com ferramentas existentes.
Como Medir o Sucesso
De acordo com Joel Hron, CTO do Thomson Reuters Labs, o primeiro passo é definir antecipadamente o que realmente constitui um bom resultado. Para sistemas de agentes, isso é mais difícil do que para software comum: não é suficiente verificar se uma resposta "parece correta". Você precisa descrever formalmente quais qualidades tornam um resultado bom, onde o agente pode falhar, quais desvios o negócio tolerará e em que ponto a intervenção humana é necessária. A empresa usa múltiplos níveis de avaliação para não depender de uma única métrica ou conjunto de testes:
- benchmarks públicos para avaliação inicial de novos modelos
- testes internos com critérios claros de qualidade para respostas
- verificações automatizadas para ciclos de desenvolvimento rápidos
- avaliação final por especialistas do domínio
A automação ajuda a acelerar iterações, mas a confiança final ainda precisa passar por pessoas. Hron enfatiza que antes de lançar um produto, a equipe quer confirmação de especialistas humanos, não apenas de métricas e testes automatizados. Para mercados onde um erro custa dinheiro, tempo ou riscos legais, essa abordagem não é uma precaução excessiva, mas um requisito obrigatório. Caso contrário, um agente pode apresentar ótimos resultados de demonstração, mas falhar no mundo real, onde nuance e contexto profissional importam.
Linguagem Comum para as Equipes
O segundo insight da Thomson Reuters é que um agente não pode ser projetado separadamente da interface e da experiência do usuário. Se uma empresa quer que seus funcionários trabalhem com um agente como um colega digital, eles precisam de uma linguagem comum, interface intuitiva e lógica de interação transparente. Os usuários devem ver não apenas o resultado, mas o raciocínio do sistema: quais passos ele dá, onde solicita dados, quando usa ferramentas e quando precisa de revisão humana. Sem essa transparência, o agente é percebido como uma caixa preta, não como um auxiliar.
Isso leva a um conselho prático: designers, equipes de produto e cientistas de dados não devem trabalhar em canais separados, mas literalmente trabalhar juntos. Hron descreve isso sem romance—você simplesmente precisa colocar designers ao lado de cientistas de dados e fazê-los discutir regularmente o que está acontecendo dentro do agente. Quanto mais apertado esse acoplamento, mais rápido surge uma interface que não esconde o pensamento do sistema, mas o torna gerenciável. Para o negócio, isso também é proteção contra falsa autonomia, quando uma interface bonita mascara lógica instável.
Ferramentas e Parceiros
A terceira lição é: não tente construir um agente "onisciente" que possa fazer tudo sozinho. A Thomson Reuters segue um caminho diferente: decompor produtos existentes e transformar suas funções em ferramentas verificadas com as quais o agente pode trabalhar. Se uma empresa tem dezenas de aplicações maduras acumuladas ao longo dos anos, elas se tornam não um fardo, mas um conjunto de módulos confiáveis para a nova arquitetura de agentes. Essa abordagem é especialmente importante agora, pois os modelos estão fazendo progresso significativo em geração de código, execução de planos e raciocínio multi-etapas, mas ainda não podem garantir previsibilidade por si próprios.
"Não estamos jogando em 90%.
Estamos jogando em 99% e 99,9%", é assim que Hron descreve o padrão para produtos de agentes de IA.
Isso leva ao quarto conselho: aprender não apenas dentro de sua empresa. A Thomson Reuters lançou a Trust in AI Alliance com Anthropic, AWS, Google Cloud e OpenAI, e também desenvolve parcerias com Imperial College London. O foco de tais iniciativas é explicabilidade, transparência e aqueles "últimos noves" de precisão que separam um protótipo impressionante de um produto funcional. Para as empresas, isso é um sinal: uma pilha de agentes não pode ser construída em isolamento se o objetivo não é apenas implementar um recurso da moda, mas levar o sistema a um nível em que possa ser confiado com decisões reais.
O Que Isso Significa
O ponto principal do artigo é simples: as empresas não devem esperar por um agente perfeito mítico. Sistemas confiáveis são construídos a partir de critérios de qualidade mensuráveis, colaboração próxima entre equipes de produto e técnicas, ferramentas internas verificadas e troca externa de práticas. Os vencedores não serão as empresas cujo agente soa mais inteligente, mas aquelas cujo comportamento do agente é melhor testado, mais compreensível para os usuários e mais profundamente integrado ao trabalho operacional real.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.