Como construir um agente de tomada de decisão em streaming com replanejamento online em um ambiente dinâmico

O tutorial explica como construir um agente de tomada de decisão em streaming que se adapta a um ambiente em mudança em tempo real. O agente opera em uma…

Redação da Hamidun News

Monitoramento de AI · MarkTechPost

3 de mai. de 2026· 2 min

Processado por IA de MarkTechPost; editado por Hamidun News

Como construir um agente de tomada de decisão em streaming com replanejamento online em um ambiente dinâmico — Fonte: MarkTechPost. Colagem: Hamidun News.

◐ Ouvir artigo

Este tutorial descreve a arquitetura de um agente de tomada de decisão em streaming que opera em um ambiente em constante mudança e transmite raciocínios parciais em tempo real — sem esperar por uma resposta final antes de agir.

Ambiente e tarefa

Para a demonstração, usa-se uma grade dinâmica: os obstáculos nela se movem segundo suas próprias regras, e o ponto-alvo se desloca aleatoriamente em um intervalo fixo.

O agente não sabe de antemão o que exatamente vai mudar no próximo passo — essa é a diferença-chave em relação às tarefas clássicas de busca de caminho.

Parâmetros-chave do ambiente:

Grade N×N com obstáculos móveis
O alvo se desloca aleatoriamente a cada K passos
O agente vê apenas um raio limitado de observação ao seu redor
O ambiente é não determinístico — o mesmo plano pode falhar duas vezes

Essa formulação do problema é intencionalmente mais difícil.

Ela modela cenários reais: navegação de um robô autônomo em um armazém, planejamento de rota de um carro autônomo no fluxo de tráfego e controle de uma linha de produção sob falhas de equipamento.

Planejador com horizonte deslizante

Na base do agente está o algoritmo A*, mas aplicado de forma não convencional.

Em vez de uma rota completa até o objetivo, usa-se um horizonte recedente: o agente planeja apenas os próximos H passos, executa alguns deles e depois replaneja a partir da nova posição levando em conta o estado atualizado do ambiente.

Isso muda fundamentalmente a lógica de funcionamento.

Um plano completo em um ambiente dinâmico fica obsoleto mais rápido do que o agente consegue executá-lo: um obstáculo se moveu, o alvo mudou de lugar — e a rota já deixou de ser relevante.

Um horizonte curto permite não se prender a dados desatualizados.

«O agente não mantém um único grande plano — ele cria e descarta

pequenos planos continuamente à medida que avança», o que resume a essência da abordagem de horizonte recedente.

O parâmetro H (o comprimento do horizonte) torna-se um elemento-chave de ajuste: curto demais, e o agente se move de forma míope e fica preso em mínimos locais; longo demais, e ele gasta tempo planejando rotas que de qualquer forma terão de ser descartadas.

Streaming de raciocínios parciais

Um agente padrão fica em silêncio até encontrar a resposta final.

Um agente em streaming transmite estados intermediários em tempo real — cada passo significativo do raciocínio fica disponível imediatamente:

Um novo obstáculo é detectado → o sinal é transmitido imediatamente
O alvo se deslocou → o plano antigo é descartado, um novo é iniciado
Um caminho intermediário é encontrado → ele é transmitido, mesmo que ainda não seja ótimo
O ponto do horizonte é alcançado e o replanejamento é iniciado → o status é atualizado

Isso dá observabilidade: o sistema orquestrador ou o usuário sempre sabem qual é a intenção atual do agente.

Em sistemas de produção, isso permite intervir antes que o agente entre em um beco sem saída.

Outro efeito é a possibilidade de um sistema externo corrigir o comportamento em tempo real: se o plano transmitido estiver indo em uma direção indesejada, é possível enviar um sinal de interrupção imediatamente.

Tecnicamente, o streaming é implementado por meio de geradores Python: cada `yield` transmite um passo do raciocínio, o que é compatível com a API de streaming dos LLM modernos.

Adaptação reativa

O terceiro componente é a interrupção do plano atual quando o ambiente muda durante a própria execução de um passo.

O agente não espera o próximo ciclo de replanejamento: o mecanismo de interrupção verifica o estado do ambiente após cada ação e, se necessário, inicia um replanejamento de emergência.

Foi introduzida uma escala de criticidade das mudanças: um pequeno deslocamento de obstáculo — continuar o plano atual; bloqueio do próximo passo — replanejamento imediato; mudança completa da posição do alvo — reinício com um novo horizonte.

Essa reação em múltiplos níveis aumenta a carga computacional, mas é criticamente importante onde o custo do erro é alto.

O que isso significa

A arquitetura descrita é um modelo prático para desenvolvedores de agentes de AI que trabalham sob condições de incerteza real.

Streaming de raciocínio, horizonte curto de planejamento e interrupções reativas são três padrões que, juntos, oferecem uma estrutura pronta para tarefas de robótica, automação industrial e sistemas de agentes baseados em LLM.

À medida que os sistemas de agentes se espalham pela indústria, a lacuna entre «pensa no vácuo» e «age no mundo real» torna-se um desafio-chave de engenharia — este tutorial oferece um ponto de entrada concreto.

Hamidun News

Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Canal do Telegram RSS hamidun.com

Precisa de IA funcionando dentro da sua empresa — não só no feed de notícias?

Eu construo IA em produção para empresas — CRM sob medida, ferramentas internas, agentes autônomos, automação de processos. Pertence a você, moldada ao seu processo, sem taxa por usuário. Feito por Zhemal Khamidun, CPO da AlpinaGPT (plataforma de IA, 6.000+ usuários).

Agendar consultoria grátis →