Habr AI→ original

Anthropic, OpenAI e LangChain explicaram por que agentes de IA precisam de um harness

As grandes empresas de IA competem cada vez menos apenas em modelos e cada vez mais em qualidade de agent harness. É a orquestração, memória, controle de…

Processado por IA de Habr AI; editado por Hamidun News
Anthropic, OpenAI e LangChain explicaram por que agentes de IA precisam de um harness
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

O principal problema dos agentes de IA modernos não está na qualidade do modelo base, mas na camada ao seu redor: orquestração, memória, gerenciamento de contexto e operação confiável de ferramentas. Essa camada, cada vez mais chamada de agent harness, transforma um LLM sem estado de uma demonstração impressionante em um sistema capaz de executar com confiabilidade longas cadeias de ações, sobreviver a erros e entregar resultados. No estágio inicial, muitas equipes se limitam a uma interface de chat, algumas chamadas de ferramenta e um simples ciclo ReAct.

Para um protótipo, isso é suficiente: o modelo raciocina, seleciona uma ferramenta, obtém uma resposta e continua o diálogo. Mas em cenários de produção, falhas do sistema surgem rapidamente. O agente esquece o que fez dois ou três passos atrás, repete as mesmas chamadas, perde resultados intermediários e a janela de contexto se preenche com ruído aleatório.

Há um problema separado relacionado às ferramentas: elas podem retornar formatos inesperados, responder com atrasos ou falhar sem motivo claro. Se não houver uma camada de controle, logging e recuperação sobre isso, a qualidade do sistema é determinada não pela inteligência do modelo, mas pela fragilidade do wrapper. É por isso que grandes players como Anthropic, OpenAI, Perplexity e LangChain estão construindo não apenas novos modelos, mas uma infraestrutura de agentes completa.

No centro dessa infraestrutura está o ciclo de orquestração: ele decide quando o modelo precisa pensar novamente, quando chamar uma ferramenta, o que salvar em memória, o que retornar ao usuário e quando parar. Essencialmente, o harness funciona como um sistema operacional para o agente. Ele define regras de execução, monitora o estado da sessão, roteia ações entre o modelo e serviços externos e reduz a probabilidade de o agente entrar em um loop infinito ou perder de vista o objetivo da tarefa.

Certos componentes dessa abordagem já podem ser considerados obrigatórios. Primeiro, gerenciamento de ferramentas: descrições de interfaces, validação de entrada, tentativas, timeouts e tratamento de erros. Segundo, memória em múltiplas camadas: memória de curto prazo para a tarefa atual, memória de trabalho para resultados intermediários e memória de longo prazo para preferências, regras e experiência acumulada. Terceiro, controle de contexto: seleção de fragmentos realmente importantes, compressão de histórico, remoção de lixo e passagem ao modelo apenas do que afeta o próximo passo. Quando esses mecanismos estão ausentes, até mesmo um LLM forte se degrada conforme o comprimento da tarefa aumenta. Quando estão presentes, o mesmo modelo começa a funcionar notavelmente mais confiável.

Outra camada importante do harness está relacionada à observabilidade e avaliação de qualidade. Não é suficiente o desenvolvedor saber que a resposta saiu ruim; ele precisa ver todo o caminho do agente: qual prompt foi enviado ao modelo, qual ferramenta foi chamada, qual resposta foi retornada, onde surgiu o erro e por que o próximo passo foi escolhido. Sem isso, é impossível debugar adequadamente o comportamento do agente e melhorar o sistema iterativamente. Por isso, stacks maduras adicionam rastreamento, métricas, execução em sandbox, checkpoints manuais e mecanismos human-in-the-loop para ações arriscadas.

O efeito prático é revelador. O artigo cita um exemplo da LangChain: a empresa melhorou não os pesos do modelo em si, mas a infraestrutura ao seu redor, e isso foi suficiente para subir dramaticamente no TerminalBench 2.0, de posições fora dos trinta primeiros para o quinto lugar. Outro resultado é ainda mais interessante: em um projeto de pesquisa, um LLM foi usado para otimizar sua própria infraestrutura de agente, e o sistema alcançou uma taxa de sucesso de 76,4%, superando soluções montadas manualmente. Este é um sinal importante para o mercado.

A competição está se deslocando da pergunta "qual modelo é mais inteligente" para "qual ambiente de execução melhor ajuda o modelo a pensar, lembrar, planejar e se corrigir". Para desenvolvedores e equipes de produto, a conclusão é direta: se você quer um agente funcional em vez de um bot brinquedo, você precisa investir não apenas na seleção do modelo, mas no harness. Os vencedores serão aqueles que melhor organizarem o ciclo de execução, memória, contexto, observabilidade e tolerância a falhas.

No futuro próximo, a qualidade desse wrapper, não outro salto em benchmarks, será a principal diferença entre uma bela demonstração e um sistema em que você pode confiar para trabalho real.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…