Habr AI mostrou que o aprendizado por reforço ainda fica atrás da otimização clássica em logística
Habr AI analisou como o aprendizado por reforço se comporta em uma tarefa aplicada de logística — a escolha de postos de abastecimento na rota. Para o…
Processado por IA de Habr AI; editado por Hamidun News
A Habr AI publicou um experimento detalhado sobre se o aprendizado por reforço pode substituir métodos clássicos de otimização matemática na logística aplicada. A verificação se mostrou sóbria: o RL já é capaz de resolver uma tarefa estruturada, mas em termos de qualidade da solução ainda fica atrás de um solver.
Como o problema foi formulado
No centro do experimento estava um problema de negócios bem prático: como planejar paradas para reabastecimento de veículos de carga em uma rota para reduzir custos de combustível. Para transportadoras, esse é um item de custo sensível, e a variação de preços entre postos de gasolina oferece oportunidade real de otimização. Não basta simplesmente escolher os pontos mais baratos—é necessário vincular a solução às restrições de rota, capacidade do tanque e requisitos operacionais. O autor escolheu exatamente este caso porque é mais próximo da logística real do que problemas de livro didático como o TSP, e demonstra claramente a fronteira entre RL acadêmico e otimização aplicada.
- O nível mínimo de combustível não pode ficar abaixo de um limite em nenhum trecho
- O volume no tanque não deve exceder a capacidade máxima
- No final da rota, deve permanecer uma reserva de combustível especificada
- Parar em um posto de gasolina só faz sentido com um volume mínimo justificado de reabastecimento
Para adaptar o problema ao RL, o volume de reabastecimento precisou ser discretizado. Em vez de escolha contínua, o agente recebeu cinco ações: reabastecer 0%, 25%, 50%, 75% ou 100% do espaço livre no tanque. Em paralelo, o mesmo problema foi formulado como uma tarefa de programação não-linear e resolvido com o solver clássico SCIP. Isso criou uma baseline clara: você não precisa adivinhar se o agente está aprendendo—pode comparar com uma solução praticamente ótima na mesma formulação.
Como o agente foi treinado
Para o experimento, construíram seu próprio ambiente RL, já que caixas de areia prontas para tal tarefa não existem. O estado do agente foi descrito por um vetor contendo consumo futuro de combustível entre postos, preços de combustível e restrições de tanque. Como comprimentos de rota variam, o vetor foi levado a um tamanho fixo: dados foram preenchidos com zeros e depois normalizados para o modelo não se confundir com escalas. Como resultado, o agente via a cada passo o nível atual de combustível, necessidade futura de combustível, preços disponíveis e a reserva necessária no final.
A recompensa foi construída em torno do custo de reabastecimento, com penalidades adicionadas para violações de restrições. Como algoritmo, escolheram uma combinação de Dueling DQN e Double DQN: o primeiro esquema separa o valor do estado da vantagem da ação, o segundo reduz a superestimação de valores Q e torna o aprendizado mais estável. O autor testou duas arquiteturas de rede—totalmente conectada e convolucional unidimensional—e também adicionou um replay buffer, exploração decrescente e aprendizado por currículo com episódios de especialista, onde a estratégia ótima era parcialmente sugerida pelo modelo clássico.
O que o teste mostrou
Com dados reais, um problema típico de negócios surgiu: o histórico era curto, registros estavam duplicados, e a coleta de logs não havia sido preparada para treinamento. Então o treinamento foi movido para um conjunto de dados sintético ajustado à variação das rotas reais. Nos gráficos, ambas as arquiteturas de redes neurais convergiram rapidamente para aproximadamente a mesma recompensa média em torno de -7. Nem uma fase de exploração mais longa, nem adição de ações de especialista, nem reajuste de recompensa deram melhorias notáveis. Ou seja, o agente se estabilizou mas não começou a tomar decisões significativamente mais fortes.
A parte mais interessante veio quando comparando com otimização matemática em 86 rotas reais. Modelos RL gastaram no total mais e reabasteceram mais do que a baseline do solver, com uma diferença de custo de 8% a 54% dependendo da variante de treinamento. A modificação Overload, que penalizava mais pesadamente combustível em excesso no final da rota, ficou mais perto do ótimo.
Enquanto isso, RL teve uma vantagem inesperada: seu preço médio de compra de combustível foi mais baixo. O problema é que o agente compensou isso com excesso de combustível e não tentou completar a rota com uma reserva próxima à necessária. Lidou com restrições de reserva mínima razoavelmente bem, e a inferência RL foi mais rápida que o solver, mas contando cerca de uma hora de treinamento, a vantagem da abordagem clássica persiste.
O que isso significa
O experimento da Habr AI não elimina o RL em otimização, mas o coloca em seu lugar. Para tarefas de logística bem formalizadas, a programação matemática clássica ainda é mais confiável, mais barata em custos de trabalho e mais precisa em resultados. Perspectivas reais para RL são vistas mais em cenários híbridos: como acelerador, como gerador de soluções iniciais, ou como uma camada de adaptação onde o ambiente é muito dinâmico para um modelo fixo.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.