Habr AI a montré que l’apprentissage par renforcement reste pour l’instant derrière l’optimisation classique en logistique
Habr AI a analysé le comportement de l’apprentissage par renforcement dans une tâche logistique appliquée — le choix des stations-service sur un itinéraire…
Traité par IA depuis Habr AI ; édité par Hamidun News
Habr AI a publié une expérience détaillée sur la question de savoir si l'apprentissage par renforcement peut remplacer les méthodes classiques d'optimisation mathématique en logistique appliquée. La vérification s'avère être sobre : le RL est déjà capable de résoudre une tâche structurée, mais en termes de qualité de solution il reste en retrait par rapport à un solver.
Comment le problème a été posé
Au cœur de l'expérience se trouvait un problème commercial assez terre-à-terre : comment planifier les arrêts de ravitaillement des véhicules de fret sur un itinéraire afin de réduire les coûts de carburant. Pour les transporteurs, c'est un poste de dépense sensible, et la variation des prix entre les stations-service offre un véritable espace d'optimisation. Il ne suffit pas de choisir simplement les points les moins chers—il faut lier la solution aux contraintes de l'itinéraire, à la capacité du réservoir et aux exigences opérationnelles. L'auteur a choisi exactement ce cas parce qu'il est plus proche de la logistique réelle que les problèmes de manuel comme TSP, et montre clairement la frontière entre le RL académique et l'optimisation appliquée.
- Le niveau minimum de carburant ne peut pas tomber en dessous d'un seuil sur aucun segment
- Le volume dans le réservoir ne doit pas dépasser la capacité maximale
- À la fin de l'itinéraire, une réserve de carburant spécifiée doit subsister
- Un arrêt à une station-service n'a de sens que avec un volume minimum justifié de ravitaillement
Pour adapter le problème au RL, le volume de ravitaillement a dû être discrétisé. Au lieu d'un choix continu, l'agent a reçu cinq actions : ravitailler 0%, 25%, 50%, 75% ou 100% de l'espace libre du réservoir. Parallèlement, le même problème a été formulé comme une tâche de programmation non linéaire et résolu avec le solver classique SCIP. Cela a créé une ligne de base claire : pas besoin de deviner si l'agent apprend—on peut le comparer avec une solution pratiquement optimale dans la même formulation.
Comment l'agent a été entraîné
Pour l'expérience, ils ont construit leur propre environnement RL, car il n'existe pas de sandbox prêts pour une telle tâche. L'état de l'agent était décrit par un vecteur contenant la consommation future de carburant entre les stations-service, les prix du carburant et les contraintes du réservoir. Comme les longueurs d'itinéraires varient, le vecteur a été amené à une taille fixe : les données ont été complétées par des zéros, puis normalisées pour que le modèle ne se confonde pas avec les échelles. En résultat, l'agent voyait à chaque étape le niveau actuel de carburant, le besoin futur en carburant, les prix disponibles et la réserve requise à l'arrivée.
La récompense a été construite autour du coût de ravitaillement, avec des pénalités ajoutées pour les violations de contraintes. Comme algorithme, ils ont choisi une combinaison de Dueling DQN et Double DQN : le premier schéma sépare la valeur de l'état de l'avantage de l'action, le second réduit la surestimation des valeurs Q et rend l'apprentissage plus stable. L'auteur a testé deux architectures de réseau—entièrement connectée et convolutive unidimensionnelle—et a également ajouté un replay buffer, une exploration décroissante et l'apprentissage par curriculum avec des épisodes d'expert, où la stratégie optimale était partiellement suggérée par le modèle classique.
Ce que le test a montré
Avec des données réelles, un problème typique des affaires s'est présenté : l'historique s'avérait court, les enregistrements étaient dupliqués, et la collecte des logs n'avait pas été préparée pour l'entraînement. L'entraînement a donc été transféré vers un ensemble de données synthétique ajusté à la variation des itinéraires réels. Sur les graphiques, les deux architectures de réseau de neurones ont rapidement convergé vers approximativement la même récompense moyenne autour de -7. Ni une phase d'exploration plus longue, ni l'ajout d'actions d'expert, ni le réglage de la récompense n'ont donné d'amélioration notable. Autrement dit, l'agent s'est stabilisé mais n'a pas commencé à prendre des décisions notablement plus fortes.
La partie la plus intéressante est venue lors de la comparaison avec l'optimisation mathématique sur 86 itinéraires réels. Les modèles RL ont au total dépensé plus et ravitaillé plus que la ligne de base du solver, avec un écart de coût allant de 8% à 54% selon la variante d'entraînement. La modification Overload, qui pénalisait plus lourdement l'excédent de carburant à la fin de l'itinéraire, s'est rapprochée le plus de l'optimum.
Pendant ce temps, RL présentait un avantage inattendu : son prix moyen d'achat de carburant était plus bas. Le problème est que l'agent a compensé cela par un excédent de carburant et n'a pas essayé de compléter l'itinéraire avec une réserve proche de celle requise. Il a géré les contraintes de réserve minimale convenablement bien, et l'inférence RL était plus rapide que celle du solver, mais compte tenu d'environ une heure d'entraînement, l'avantage de l'approche classique se maintient.
Ce que cela signifie
L'expérience d'Habr AI n'élimine pas le RL en optimisation, mais le remet à sa place. Pour les tâches logistiques bien formalisées, la programmation mathématique classique reste plus fiable, moins coûteuse en effort de travail et plus précise dans les résultats. Les véritables perspectives pour le RL se voient plutôt dans les scénarios hybrides : comme accélérateur, comme générateur de solutions initiales, ou comme couche d'adaptation où l'environnement est trop dynamique pour un modèle fixe.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.