ZDNet AI→ original

Thomson Reuters define quatro regras para agentes de AI em que as empresas podem confiar

Os agentes de AI entram cada vez mais em fluxos de trabalho reais, mas a confiança neles depende menos da potência do modelo do que do processo. A Thomson…

Processado por IA de ZDNet AI; editado por Hamidun News
Thomson Reuters define quatro regras para agentes de AI em que as empresas podem confiar
Fonte: ZDNet AI. Colagem: Hamidun News.
◐ Ouvir artigo

Os agentes de IA estão se movendo rapidamente de experimentos para fluxos de trabalho, e as empresas enfrentam uma questão-chave: como torná-los confiáveis o suficiente para tarefas do mundo real. A Thomson Reuters acredita que a resposta não está na magia dos modelos, mas na disciplina de desenvolvimento, testes e integração com ferramentas existentes.

Como Medir o Sucesso

De acordo com Joel Hron, CTO do Thomson Reuters Labs, o primeiro passo é definir antecipadamente o que realmente constitui um bom resultado. Para sistemas de agentes, isso é mais difícil do que para software comum: não é suficiente verificar se uma resposta "parece correta". Você precisa descrever formalmente quais qualidades tornam um resultado bom, onde o agente pode falhar, quais desvios o negócio tolerará e em que ponto a intervenção humana é necessária. A empresa usa múltiplos níveis de avaliação para não depender de uma única métrica ou conjunto de testes:

  • benchmarks públicos para avaliação inicial de novos modelos
  • testes internos com critérios claros de qualidade para respostas
  • verificações automatizadas para ciclos de desenvolvimento rápidos
  • avaliação final por especialistas do domínio

A automação ajuda a acelerar iterações, mas a confiança final ainda precisa passar por pessoas. Hron enfatiza que antes de lançar um produto, a equipe quer confirmação de especialistas humanos, não apenas de métricas e testes automatizados. Para mercados onde um erro custa dinheiro, tempo ou riscos legais, essa abordagem não é uma precaução excessiva, mas um requisito obrigatório. Caso contrário, um agente pode apresentar ótimos resultados de demonstração, mas falhar no mundo real, onde nuance e contexto profissional importam.

Linguagem Comum para as Equipes

O segundo insight da Thomson Reuters é que um agente não pode ser projetado separadamente da interface e da experiência do usuário. Se uma empresa quer que seus funcionários trabalhem com um agente como um colega digital, eles precisam de uma linguagem comum, interface intuitiva e lógica de interação transparente. Os usuários devem ver não apenas o resultado, mas o raciocínio do sistema: quais passos ele dá, onde solicita dados, quando usa ferramentas e quando precisa de revisão humana. Sem essa transparência, o agente é percebido como uma caixa preta, não como um auxiliar.

Isso leva a um conselho prático: designers, equipes de produto e cientistas de dados não devem trabalhar em canais separados, mas literalmente trabalhar juntos. Hron descreve isso sem romance—você simplesmente precisa colocar designers ao lado de cientistas de dados e fazê-los discutir regularmente o que está acontecendo dentro do agente. Quanto mais apertado esse acoplamento, mais rápido surge uma interface que não esconde o pensamento do sistema, mas o torna gerenciável. Para o negócio, isso também é proteção contra falsa autonomia, quando uma interface bonita mascara lógica instável.

Ferramentas e Parceiros

A terceira lição é: não tente construir um agente "onisciente" que possa fazer tudo sozinho. A Thomson Reuters segue um caminho diferente: decompor produtos existentes e transformar suas funções em ferramentas verificadas com as quais o agente pode trabalhar. Se uma empresa tem dezenas de aplicações maduras acumuladas ao longo dos anos, elas se tornam não um fardo, mas um conjunto de módulos confiáveis para a nova arquitetura de agentes. Essa abordagem é especialmente importante agora, pois os modelos estão fazendo progresso significativo em geração de código, execução de planos e raciocínio multi-etapas, mas ainda não podem garantir previsibilidade por si próprios.

"Não estamos jogando em 90%.

Estamos jogando em 99% e 99,9%", é assim que Hron descreve o padrão para produtos de agentes de IA.

Isso leva ao quarto conselho: aprender não apenas dentro de sua empresa. A Thomson Reuters lançou a Trust in AI Alliance com Anthropic, AWS, Google Cloud e OpenAI, e também desenvolve parcerias com Imperial College London. O foco de tais iniciativas é explicabilidade, transparência e aqueles "últimos noves" de precisão que separam um protótipo impressionante de um produto funcional. Para as empresas, isso é um sinal: uma pilha de agentes não pode ser construída em isolamento se o objetivo não é apenas implementar um recurso da moda, mas levar o sistema a um nível em que possa ser confiado com decisões reais.

O Que Isso Significa

O ponto principal do artigo é simples: as empresas não devem esperar por um agente perfeito mítico. Sistemas confiáveis são construídos a partir de critérios de qualidade mensuráveis, colaboração próxima entre equipes de produto e técnicas, ferramentas internas verificadas e troca externa de práticas. Os vencedores não serão as empresas cujo agente soa mais inteligente, mas aquelas cujo comportamento do agente é melhor testado, mais compreensível para os usuários e mais profundamente integrado ao trabalho operacional real.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…