Como construir um agente de tomada de decisão em streaming com replanejamento online em um ambiente dinâmico
O tutorial explica como construir um agente de tomada de decisão em streaming que se adapta a um ambiente em mudança em tempo real. O agente opera em uma…
Processado por IA de MarkTechPost; editado por Hamidun News
Este tutorial descreve a arquitetura de um agente de tomada de decisão em streaming que opera em um ambiente em constante mudança e transmite raciocínios parciais em tempo real — sem esperar por uma resposta final antes de agir.
Ambiente e tarefa
Para a demonstração, usa-se uma grade dinâmica: os obstáculos nela se movem segundo suas próprias regras, e o ponto-alvo se desloca aleatoriamente em um intervalo fixo.
O agente não sabe de antemão o que exatamente vai mudar no próximo passo — essa é a diferença-chave em relação às tarefas clássicas de busca de caminho.
Parâmetros-chave do ambiente:
- Grade N×N com obstáculos móveis
- O alvo se desloca aleatoriamente a cada K passos
- O agente vê apenas um raio limitado de observação ao seu redor
- O ambiente é não determinístico — o mesmo plano pode falhar duas vezes
Essa formulação do problema é intencionalmente mais difícil.
Ela modela cenários reais: navegação de um robô autônomo em um armazém, planejamento de rota de um carro autônomo no fluxo de tráfego e controle de uma linha de produção sob falhas de equipamento.
Planejador com horizonte deslizante
Na base do agente está o algoritmo A*, mas aplicado de forma não convencional.
Em vez de uma rota completa até o objetivo, usa-se um horizonte recedente: o agente planeja apenas os próximos H passos, executa alguns deles e depois replaneja a partir da nova posição levando em conta o estado atualizado do ambiente.
Isso muda fundamentalmente a lógica de funcionamento.
Um plano completo em um ambiente dinâmico fica obsoleto mais rápido do que o agente consegue executá-lo: um obstáculo se moveu, o alvo mudou de lugar — e a rota já deixou de ser relevante.
Um horizonte curto permite não se prender a dados desatualizados.
«O agente não mantém um único grande plano — ele cria e descarta
pequenos planos continuamente à medida que avança», o que resume a essência da abordagem de horizonte recedente.
O parâmetro H (o comprimento do horizonte) torna-se um elemento-chave de ajuste: curto demais, e o agente se move de forma míope e fica preso em mínimos locais; longo demais, e ele gasta tempo planejando rotas que de qualquer forma terão de ser descartadas.
Streaming de raciocínios parciais
Um agente padrão fica em silêncio até encontrar a resposta final.
Um agente em streaming transmite estados intermediários em tempo real — cada passo significativo do raciocínio fica disponível imediatamente:
- Um novo obstáculo é detectado → o sinal é transmitido imediatamente
- O alvo se deslocou → o plano antigo é descartado, um novo é iniciado
- Um caminho intermediário é encontrado → ele é transmitido, mesmo que ainda não seja ótimo
- O ponto do horizonte é alcançado e o replanejamento é iniciado → o status é atualizado
Isso dá observabilidade: o sistema orquestrador ou o usuário sempre sabem qual é a intenção atual do agente.
Em sistemas de produção, isso permite intervir antes que o agente entre em um beco sem saída.
Outro efeito é a possibilidade de um sistema externo corrigir o comportamento em tempo real: se o plano transmitido estiver indo em uma direção indesejada, é possível enviar um sinal de interrupção imediatamente.
Tecnicamente, o streaming é implementado por meio de geradores Python: cada `yield` transmite um passo do raciocínio, o que é compatível com a API de streaming dos LLM modernos.
Adaptação reativa
O terceiro componente é a interrupção do plano atual quando o ambiente muda durante a própria execução de um passo.
O agente não espera o próximo ciclo de replanejamento: o mecanismo de interrupção verifica o estado do ambiente após cada ação e, se necessário, inicia um replanejamento de emergência.
Foi introduzida uma escala de criticidade das mudanças: um pequeno deslocamento de obstáculo — continuar o plano atual; bloqueio do próximo passo — replanejamento imediato; mudança completa da posição do alvo — reinício com um novo horizonte.
Essa reação em múltiplos níveis aumenta a carga computacional, mas é criticamente importante onde o custo do erro é alto.
O que isso significa
A arquitetura descrita é um modelo prático para desenvolvedores de agentes de AI que trabalham sob condições de incerteza real.
Streaming de raciocínio, horizonte curto de planejamento e interrupções reativas são três padrões que, juntos, oferecem uma estrutura pronta para tarefas de robótica, automação industrial e sistemas de agentes baseados em LLM.
À medida que os sistemas de agentes se espalham pela indústria, a lacuna entre «pensa no vácuo» e «age no mundo real» torna-se um desafio-chave de engenharia — este tutorial oferece um ponto de entrada concreto.
Precisa de IA funcionando dentro da sua empresa — não só no feed de notícias?
Eu construo IA em produção para empresas — CRM sob medida, ferramentas internas, agentes autônomos, automação de processos. Pertence a você, moldada ao seu processo, sem taxa por usuário. Feito por Zhemal Khamidun, CPO da AlpinaGPT (plataforma de IA, 6.000+ usuários).
O essencial da IA — uma vez por semana
Sete histórias que realmente importaram, escolhidas a dedo. Sem ruído nem releases.
Pronto! Verifique seu e-mail para a confirmação.