Habr AI mostró que el aprendizaje por refuerzo todavía pierde frente a la optimización clásica en logística

Q: ¿Cuál es la fuente?

Publicado originalmente en Habr AI. Hamidun News procesa y adapta los materiales con IA.

Q: ¿Cuándo se publicó?

2 may 2026. Tiempo de lectura: 3 min.

Habr AI analizó cómo se comporta el aprendizaje por refuerzo en una tarea logística aplicada — la elección de paradas para repostar en la ruta. Para el…

Redacción de Hamidun News

Monitoreo de AI · Habr AI

2 may 2026· 3 min

Procesado por IA desde Habr AI; editado por Hamidun News

Habr AI mostró que el aprendizaje por refuerzo todavía pierde frente a la optimización clásica en logística — Fuente: Habr AI. Collage: Hamidun News.

◐ Escuchar artículo

Habr AI publicó un experimento detallado sobre si el aprendizaje por refuerzo puede reemplazar métodos clásicos de optimización matemática en logística aplicada. La verificación resultó ser sobria: el RL ya es capaz de resolver una tarea estructurada, pero en términos de calidad de solución sigue siendo inferior a un solver.

Cómo se planteó el problema

En el centro del experimento había un problema comercial bastante práctico: cómo planificar paradas de reabastecimiento para vehículos de carga en una ruta para reducir los costos de combustible. Para los transportistas, este es un elemento de costo sensible, y la variación de precios entre gasolineras proporciona un espacio real para optimización. No es suficiente simplemente elegir los puntos más baratos—hay que vincular la solución con las restricciones de la ruta, la capacidad del tanque y los requisitos operacionales. El autor eligió exactamente este caso porque es más cercano a la logística real que los problemas de libro como TSP, y muestra claramente la frontera entre RL académico y optimización aplicada.

El nivel mínimo de combustible no puede caer por debajo de un umbral en ningún tramo
El volumen en el tanque no debe exceder la capacidad máxima
Al final de la ruta, debe permanecer una reserva de combustible especificada
Una parada en una gasolinera solo tiene sentido con un volumen mínimo justificado de reabastecimiento

Para adaptar el problema a RL, el volumen de reabastecimiento tuvo que ser discretizado. En lugar de una elección continua, al agente se le dieron cinco acciones: reabastecerse al 0%, 25%, 50%, 75% o 100% del espacio libre del tanque. En paralelo, la misma formulación se planteó como un problema de programación no lineal y se resolvió con el solver clásico SCIP. Esto creó una línea base clara: no hay que adivinar si el agente está aprendiendo—se puede comparar con una solución prácticamente óptima en la misma formulación.

Cómo se entrenó al agente

Para el experimento, construyeron su propio entorno de RL, ya que no existen sandboxes listos para esta tarea. El estado del agente se describía mediante un vector que contenía el consumo futuro de combustible entre gasolineras, precios de combustible y restricciones de tanque. Como las longitudes de ruta varían, el vector se llevó a un tamaño fijo: los datos se completaron con ceros y luego se normalizaron para que el modelo no se confundiera con escalas. Como resultado, el agente veía en cada paso el nivel actual de combustible, necesidad futura de combustible, precios disponibles y la reserva requerida en el final.

La recompensa se construyó alrededor del costo de reabastecimiento, con penalizaciones añadidas por violaciones de restricciones. Como algoritmo, eligieron una combinación de Dueling DQN y Double DQN: el primer esquema separa el valor del estado de la ventaja de la acción, el segundo reduce la sobreestimación de valores Q y hace el aprendizaje más estable. El autor probó dos arquitecturas de red—totalmente conectada y convolucional unidimensional—y también añadió un replay buffer, exploración decreciente y aprendizaje por currículo con episodios de experto, donde la estrategia óptima era parcialmente sugerida por el modelo clásico.

Lo que mostró la prueba

Con datos reales, surgió un problema típico del negocio: el historial resultó ser corto, los registros estaban duplicados, y la recopilación de logs no fue preparada para entrenamiento. Por lo tanto, el entrenamiento se trasladó a un conjunto de datos sintético ajustado a la variación de rutas reales. En los gráficos, ambas arquitecturas de red neuronal convergieron rápidamente a aproximadamente la misma recompensa promedio alrededor de -7. Ni una fase de exploración más larga, ni la adición de acciones de experto, ni el reajuste de la recompensa proporcionaron una mejora notable. Es decir, el agente se estabilizó pero no comenzó a tomar decisiones notablemente más sólidas.

La parte más interesante llegó cuando comparamos con optimización matemática en 86 rutas reales. Los modelos RL en total gastaron más y reabastecieron más que la línea base del solver, con una brecha de costos del 8% al 54% según la variante de entrenamiento. La modificación Overload, que penalizaba más severamente el combustible excesivo al final de la ruta, se acercó más al óptimo.

Mientras tanto, RL tuvo una ventaja inesperada: su precio promedio de compra de combustible fue más bajo. El problema es que el agente compensó esto con exceso de combustible y no intentó completar la ruta con una reserva cercana a la requerida. Manejó bien las restricciones de reserva mínima, e la inferencia de RL fue más rápida que la del solver, pero considerando aproximadamente una hora de entrenamiento, la ventaja del enfoque clásico se mantiene.

Qué significa esto

El experimento de Habr AI no elimina el RL en optimización, pero lo pone en su lugar. Para tareas logísticas bien formalizadas, la programación matemática clásica sigue siendo más confiable, más barata en costos laborales y más precisa en resultados. Las perspectivas reales para RL se ven más en escenarios híbridos: como acelerador, como generador de soluciones iniciales, o como una capa de adaptación donde el entorno es demasiado dinámico para un modelo fijo.

Hamidun News

Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

Canal de Telegram RSS hamidun.com

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

🎓 Academy — 7 días gratis Consulta gratuita