Habr AI mostró que el aprendizaje por refuerzo todavía pierde frente a la optimización clásica en logística
Habr AI analizó cómo se comporta el aprendizaje por refuerzo en una tarea logística aplicada — la elección de paradas para repostar en la ruta. Para el experime
Habr AI опубликовал подробный эксперимент о том, может ли обучение с подкреплением заменить классические методы математической оптимизации в прикладной логистике. Проверка получилась трезвой: RL уже способен решать структурированную задачу, но по качеству решения пока уступает солверу.
Как ставили задачу В центре эксперимента — вполне приземленная
бизнес-задача: как спланировать заправки грузового транспорта на маршруте так, чтобы снизить расходы на топливо. Для перевозчиков это чувствительная статья затрат, а разброс цен между АЗС дает реальное пространство для оптимизации. Нужно не просто выбрать самые дешевые точки, а увязать решение с ограничениями маршрута, бака и эксплуатационных требований. Автор взял именно такой кейс, потому что он ближе к реальной логистике, чем учебные задачи вроде TSP, и хорошо показывает границу между академическим RL и прикладной оптимизацией.
- Минимальный остаток топлива нельзя просаживать ниже порога на любом участке Объем в баке не должен превышать максимальную вместимость В конце маршрута должен оставаться заданный запас топлива * Заезд на АЗС имеет смысл только при минимально оправданном объеме заправки Чтобы адаптировать задачу под RL, объем заправки пришлось дискретизировать. Вместо непрерывного выбора агенту дали пять действий: заправить 0%, 25%, 50%, 75% или 100% от свободного места в баке. Параллельно ту же постановку оформили как задачу нелинейного программирования и решили классическим солвером SCIP. Так появился понятный baseline: можно не гадать, учится ли агент, а сравнивать его с практически оптимальным решением в одинаковой постановке.
Как учили агента
Для эксперимента собрали собственную RL-среду, потому что готовых песочниц под такую задачу нет. Состояние агента описывалось вектором, где зашиты будущий расход топлива между АЗС, цены на топливо и ограничения по баку. Поскольку длина маршрутов разная, вектор привели к фиксированному размеру: данные дополнялись нулями, а затем нормировались, чтобы модель не путалась в масштабах.
В результате агент на каждом шаге видел текущий остаток, будущую потребность в топливе, доступные цены и требуемый запас на финише. Награда строилась вокруг стоимости заправки, а за нарушение ограничений добавлялись штрафы. В качестве алгоритма выбрали связку Dueling DQN и Double DQN: первая схема разделяет ценность состояния и преимущество действия, вторая уменьшает переоценку Q-значений и делает обучение стабильнее.
Автор протестировал две архитектуры сети — полносвязную и одномерную сверточную — а также добавил replay buffer, затухающее исследование и curriculum learning с экспертными эпизодами, где оптимальная стратегия частично подсказывалась классической моделью.
Что показал тест С реальными данными возникла типичная для бизнеса
проблема: история оказалась короткой, записи дублировались, а сбор логов не был подготовлен под обучение. Поэтому обучение перевели на синтетический датасет, настроенный по разбросу реальных маршрутов. На графиках обе нейросетевые архитектуры быстро сходились примерно к одной и той же средней награде около -7.
При этом ни более длинная фаза exploration, ни добавление экспертных действий, ни перенастройка reward заметного прироста не дали. То есть агент стабилизировался, но не начал принимать заметно более сильные решения. Самое интересное началось на сравнении с математической оптимизацией по 86 реальным маршрутам.
RL-модели в сумме тратили больше и заправляли больше, чем baseline от солвера, а разрыв по затратам составил от 8% до 54% в зависимости от варианта обучения. Ближе всех к оптимуму подошла модификация Overload, где сильнее штрафовался лишний остаток в конце маршрута. При этом у RL оказался неожиданный плюс: средняя цена закупки топлива у него была ниже.
Проблема в том, что агент компенсировал это переизбытком топлива и не стремился завершать маршрут с запасом, близким к требуемому. Ограничения по минимальному остатку он в целом держал неплохо, а inference у RL был быстрее солвера, но если учесть около часа на обучение, преимущество классического подхода сохраняется.
Что это значит Эксперимент Habr AI не хоронит RL в оптимизации, но ставит его на место.
Для хорошо формализованных логистических задач классическое математическое программирование пока надежнее, дешевле по трудозатратам и точнее по результату. Реальный шанс у RL виден скорее в гибридных сценариях: как ускоритель, как генератор начальных решений или как слой адаптации там, где среда слишком динамична для жестко заданной модели.