Habr AI→ original

Habr AI mostrou que o aprendizado por reforço ainda fica atrás da otimização clássica em logística

Habr AI analisou como o aprendizado por reforço se comporta em uma tarefa aplicada de logística — a escolha de postos de abastecimento na rota. Para o…

Processado por IA de Habr AI; editado por Hamidun News
Habr AI mostrou que o aprendizado por reforço ainda fica atrás da otimização clássica em logística
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

A Habr AI publicou um experimento detalhado sobre se o aprendizado por reforço pode substituir métodos clássicos de otimização matemática na logística aplicada. A verificação se mostrou sóbria: o RL já é capaz de resolver uma tarefa estruturada, mas em termos de qualidade da solução ainda fica atrás de um solver.

Como o problema foi formulado

No centro do experimento estava um problema de negócios bem prático: como planejar paradas para reabastecimento de veículos de carga em uma rota para reduzir custos de combustível. Para transportadoras, esse é um item de custo sensível, e a variação de preços entre postos de gasolina oferece oportunidade real de otimização. Não basta simplesmente escolher os pontos mais baratos—é necessário vincular a solução às restrições de rota, capacidade do tanque e requisitos operacionais. O autor escolheu exatamente este caso porque é mais próximo da logística real do que problemas de livro didático como o TSP, e demonstra claramente a fronteira entre RL acadêmico e otimização aplicada.

  • O nível mínimo de combustível não pode ficar abaixo de um limite em nenhum trecho
  • O volume no tanque não deve exceder a capacidade máxima
  • No final da rota, deve permanecer uma reserva de combustível especificada
  • Parar em um posto de gasolina só faz sentido com um volume mínimo justificado de reabastecimento

Para adaptar o problema ao RL, o volume de reabastecimento precisou ser discretizado. Em vez de escolha contínua, o agente recebeu cinco ações: reabastecer 0%, 25%, 50%, 75% ou 100% do espaço livre no tanque. Em paralelo, o mesmo problema foi formulado como uma tarefa de programação não-linear e resolvido com o solver clássico SCIP. Isso criou uma baseline clara: você não precisa adivinhar se o agente está aprendendo—pode comparar com uma solução praticamente ótima na mesma formulação.

Como o agente foi treinado

Para o experimento, construíram seu próprio ambiente RL, já que caixas de areia prontas para tal tarefa não existem. O estado do agente foi descrito por um vetor contendo consumo futuro de combustível entre postos, preços de combustível e restrições de tanque. Como comprimentos de rota variam, o vetor foi levado a um tamanho fixo: dados foram preenchidos com zeros e depois normalizados para o modelo não se confundir com escalas. Como resultado, o agente via a cada passo o nível atual de combustível, necessidade futura de combustível, preços disponíveis e a reserva necessária no final.

A recompensa foi construída em torno do custo de reabastecimento, com penalidades adicionadas para violações de restrições. Como algoritmo, escolheram uma combinação de Dueling DQN e Double DQN: o primeiro esquema separa o valor do estado da vantagem da ação, o segundo reduz a superestimação de valores Q e torna o aprendizado mais estável. O autor testou duas arquiteturas de rede—totalmente conectada e convolucional unidimensional—e também adicionou um replay buffer, exploração decrescente e aprendizado por currículo com episódios de especialista, onde a estratégia ótima era parcialmente sugerida pelo modelo clássico.

O que o teste mostrou

Com dados reais, um problema típico de negócios surgiu: o histórico era curto, registros estavam duplicados, e a coleta de logs não havia sido preparada para treinamento. Então o treinamento foi movido para um conjunto de dados sintético ajustado à variação das rotas reais. Nos gráficos, ambas as arquiteturas de redes neurais convergiram rapidamente para aproximadamente a mesma recompensa média em torno de -7. Nem uma fase de exploração mais longa, nem adição de ações de especialista, nem reajuste de recompensa deram melhorias notáveis. Ou seja, o agente se estabilizou mas não começou a tomar decisões significativamente mais fortes.

A parte mais interessante veio quando comparando com otimização matemática em 86 rotas reais. Modelos RL gastaram no total mais e reabasteceram mais do que a baseline do solver, com uma diferença de custo de 8% a 54% dependendo da variante de treinamento. A modificação Overload, que penalizava mais pesadamente combustível em excesso no final da rota, ficou mais perto do ótimo.

Enquanto isso, RL teve uma vantagem inesperada: seu preço médio de compra de combustível foi mais baixo. O problema é que o agente compensou isso com excesso de combustível e não tentou completar a rota com uma reserva próxima à necessária. Lidou com restrições de reserva mínima razoavelmente bem, e a inferência RL foi mais rápida que o solver, mas contando cerca de uma hora de treinamento, a vantagem da abordagem clássica persiste.

O que isso significa

O experimento da Habr AI não elimina o RL em otimização, mas o coloca em seu lugar. Para tarefas de logística bem formalizadas, a programação matemática clássica ainda é mais confiável, mais barata em custos de trabalho e mais precisa em resultados. Perspectivas reais para RL são vistas mais em cenários híbridos: como acelerador, como gerador de soluções iniciais, ou como uma camada de adaptação onde o ambiente é muito dinâmico para um modelo fixo.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…