Habr AI mostró que el aprendizaje por refuerzo todavía pierde frente a la optimización clásica en logística
Habr AI analizó cómo se comporta el aprendizaje por refuerzo en una tarea logística aplicada — la elección de paradas para repostar en la ruta. Para el…
Procesado por IA desde Habr AI; editado por Hamidun News
Habr AI publicó un experimento detallado sobre si el aprendizaje por refuerzo puede reemplazar métodos clásicos de optimización matemática en logística aplicada. La verificación resultó ser sobria: el RL ya es capaz de resolver una tarea estructurada, pero en términos de calidad de solución sigue siendo inferior a un solver.
Cómo se planteó el problema
En el centro del experimento había un problema comercial bastante práctico: cómo planificar paradas de reabastecimiento para vehículos de carga en una ruta para reducir los costos de combustible. Para los transportistas, este es un elemento de costo sensible, y la variación de precios entre gasolineras proporciona un espacio real para optimización. No es suficiente simplemente elegir los puntos más baratos—hay que vincular la solución con las restricciones de la ruta, la capacidad del tanque y los requisitos operacionales. El autor eligió exactamente este caso porque es más cercano a la logística real que los problemas de libro como TSP, y muestra claramente la frontera entre RL académico y optimización aplicada.
- El nivel mínimo de combustible no puede caer por debajo de un umbral en ningún tramo
- El volumen en el tanque no debe exceder la capacidad máxima
- Al final de la ruta, debe permanecer una reserva de combustible especificada
- Una parada en una gasolinera solo tiene sentido con un volumen mínimo justificado de reabastecimiento
Para adaptar el problema a RL, el volumen de reabastecimiento tuvo que ser discretizado. En lugar de una elección continua, al agente se le dieron cinco acciones: reabastecerse al 0%, 25%, 50%, 75% o 100% del espacio libre del tanque. En paralelo, la misma formulación se planteó como un problema de programación no lineal y se resolvió con el solver clásico SCIP. Esto creó una línea base clara: no hay que adivinar si el agente está aprendiendo—se puede comparar con una solución prácticamente óptima en la misma formulación.
Cómo se entrenó al agente
Para el experimento, construyeron su propio entorno de RL, ya que no existen sandboxes listos para esta tarea. El estado del agente se describía mediante un vector que contenía el consumo futuro de combustible entre gasolineras, precios de combustible y restricciones de tanque. Como las longitudes de ruta varían, el vector se llevó a un tamaño fijo: los datos se completaron con ceros y luego se normalizaron para que el modelo no se confundiera con escalas. Como resultado, el agente veía en cada paso el nivel actual de combustible, necesidad futura de combustible, precios disponibles y la reserva requerida en el final.
La recompensa se construyó alrededor del costo de reabastecimiento, con penalizaciones añadidas por violaciones de restricciones. Como algoritmo, eligieron una combinación de Dueling DQN y Double DQN: el primer esquema separa el valor del estado de la ventaja de la acción, el segundo reduce la sobreestimación de valores Q y hace el aprendizaje más estable. El autor probó dos arquitecturas de red—totalmente conectada y convolucional unidimensional—y también añadió un replay buffer, exploración decreciente y aprendizaje por currículo con episodios de experto, donde la estrategia óptima era parcialmente sugerida por el modelo clásico.
Lo que mostró la prueba
Con datos reales, surgió un problema típico del negocio: el historial resultó ser corto, los registros estaban duplicados, y la recopilación de logs no fue preparada para entrenamiento. Por lo tanto, el entrenamiento se trasladó a un conjunto de datos sintético ajustado a la variación de rutas reales. En los gráficos, ambas arquitecturas de red neuronal convergieron rápidamente a aproximadamente la misma recompensa promedio alrededor de -7. Ni una fase de exploración más larga, ni la adición de acciones de experto, ni el reajuste de la recompensa proporcionaron una mejora notable. Es decir, el agente se estabilizó pero no comenzó a tomar decisiones notablemente más sólidas.
La parte más interesante llegó cuando comparamos con optimización matemática en 86 rutas reales. Los modelos RL en total gastaron más y reabastecieron más que la línea base del solver, con una brecha de costos del 8% al 54% según la variante de entrenamiento. La modificación Overload, que penalizaba más severamente el combustible excesivo al final de la ruta, se acercó más al óptimo.
Mientras tanto, RL tuvo una ventaja inesperada: su precio promedio de compra de combustible fue más bajo. El problema es que el agente compensó esto con exceso de combustible y no intentó completar la ruta con una reserva cercana a la requerida. Manejó bien las restricciones de reserva mínima, e la inferencia de RL fue más rápida que la del solver, pero considerando aproximadamente una hora de entrenamiento, la ventaja del enfoque clásico se mantiene.
Qué significa esto
El experimento de Habr AI no elimina el RL en optimización, pero lo pone en su lugar. Para tareas logísticas bien formalizadas, la programación matemática clásica sigue siendo más confiable, más barata en costos laborales y más precisa en resultados. Las perspectivas reales para RL se ven más en escenarios híbridos: como acelerador, como generador de soluciones iniciales, o como una capa de adaptación donde el entorno es demasiado dinámico para un modelo fijo.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.