Como construir um agente de tomada de decisão em streaming com replanejamento online em um ambiente dinâmico
O tutorial explica como construir um agente de tomada de decisão em streaming que se adapta a um ambiente em mudança em tempo real. O agente opera em uma grade

Туториал описывает архитектуру стримингового агента принятия решений, который работает в постоянно меняющейся среде и транслирует частичные рассуждения в реальном времени — без ожидания финального ответа перед действием.
Среда и задача
Для демонстрации используется динамическая сетка: препятствия в ней двигаются по своим правилам, а целевая точка случайно смещается через фиксированный интервал. Агент не знает заранее, что именно изменится на следующем шаге — это ключевое отличие от классических задач поиска пути. Ключевые параметры среды: Сетка N×N с движущимися препятствиями Цель смещается случайно каждые K шагов Агент видит только ограниченный радиус обзора вокруг себя Среда не детерминирована — один и тот же план может провалиться дважды Такая постановка задачи намеренно усложнённая. Она моделирует реальные сценарии: навигацию автономного робота на складе, планирование маршрута беспилотного автомобиля в потоке трафика, управление производственной линией при отказах оборудования.
Планировщик со скользящим горизонтом В основе агента — алгоритм A*, но применяемый нестандартно.
Вместо полного маршрута до цели используется рецедирующий горизонт: агент планирует только H ближайших шагов, выполняет несколько из них, затем перепланирует с новой позиции с учётом обновлённого состояния среды. Это принципиально меняет логику работы. Полный план в динамической среде устаревает быстрее, чем агент успевает его выполнить: препятствие переместилось, цель сдвинулась — и маршрут уже неактуален. Короткий горизонт позволяет не держаться за устаревшие данные.
«Агент не хранит один большой план — он постоянно создаёт и выбрасывает маленькие планы по мере продвижения», — суть подхода рецедирующего горизонта.
Параметр H (длина горизонта) становится ключевым тюнинговым элементом: слишком короткий — агент близоруко движется и застревает в локальных минимумах; слишком длинный — тратит время на планирование маршрутов, которые всё равно придётся выбросить.
Стриминг частичных рассуждений Стандартный агент молчит, пока не найдёт финальный ответ.
Стриминговый транслирует промежуточные состояния в реальном времени — каждый значимый шаг рассуждений становится доступным немедленно: Обнаружено новое препятствие → сигнал передаётся немедленно Цель сместилась → старый план отброшен, новый начат Найден промежуточный путь → транслируется, даже если он ещё не оптимален Достигнута точка горизонта и запущен реплан → статус обновляется Это даёт наблюдаемость: система-оркестратор или пользователь всегда знают текущее намерение агента. В производственных системах это позволяет вмешаться раньше, чем агент зашёл в тупик. Ещё один эффект — возможность для внешней системы корректировать поведение на лету: если стримящийся план идёт в нежелательном направлении, можно послать сигнал прерывания немедленно. Технически стриминг реализован через генераторы Python: каждый `yield` транслирует шаг рассуждения, что совместимо с потоковыми API современных LLM.
Реактивная адаптация
Третий компонент — прерывание текущего плана при изменении среды прямо во время исполнения шага. Агент не ждёт следующего цикла перепланирования: механизм прерываний проверяет состояние среды после каждого действия и при необходимости запускает экстренный реплан. Введён уровень критичности изменений: небольшое смещение препятствия — продолжить текущий план; блокировка ближайшего шага — немедленный реплан; полное изменение позиции цели — перезапуск с нового горизонта. Такая многоуровневая реакция увеличивает вычислительную нагрузку, но критически важна там, где цена ошибки высока.
Что это значит
Описанная архитектура — практический шаблон для разработчиков AI-агентов, работающих в условиях реальной неопределённости. Стриминг рассуждений, короткий горизонт планирования и реактивные прерывания — три паттерна, которые вместе дают готовый каркас для задач робототехники, промышленной автоматизации и агентных систем на основе LLM. По мере распространения агентных систем в промышленности разрыв между «думает в вакууме» и «действует в реальном мире» становится ключевым инженерным вызовом — этот туториал даёт конкретную точку входа.