Fix Price lanzó un servicio VLM para controlar estantes y etiquetas de precio en 8.000 tiendas
Fix Price automatizó el control de estantes y etiquetas de precio en sus más de 8.000 tiendas con un servicio de visión por computadora basado en VLM…
Procesado por IA desde Habr AI; editado por Hamidun News
Fix Price ha automatizado el monitoreo de displays de productos y etiquetas de precio en sus 8.000+ tiendas, implementando un servicio de visión por computadora basado en Vision Language Models externos — sin desarrollar modelos ML propios desde cero y sin ciclos de entrenamiento de varios años.
8.000 tiendas, una tarea
Fix Price es una cadena de tiendas de precio fijo con audiencia de decenas de millones de clientes en Rusia y la CEI. Más de 8.000 puntos de venta significan miles de estanterías que deben verificarse cada día: ¿están los productos colocados correctamente según el planograma, tienen cada artículo una etiqueta de precio, no hay espacios vacíos?
El control manual a esta escala es irrealista — no se puede enviar un auditor a cada una de las 8.000 tiendas cada día. Al mismo tiempo, el costo del error es directo: una estantería vacía o una etiqueta de precio incorrecta significan una venta perdida aquí y ahora, más una experiencia negativa del cliente que se recuerda durante mucho tiempo.
En una red de este tamaño, incluso un pequeño porcentaje de tales situaciones se suma en pérdidas financieras tangibles. El centro de análisis de datos de Fix Price enfrentó un desafío: detectar automáticamente violaciones de display y errores de precios — rápidamente, a escala industrial y sin inversiones excesivas en su propia infraestructura de CV.
Por qué VLM, no un modelo personalizado
El enfoque clásico en visión por computadora para retail es entrenar una red neuronal personalizada en fotos anotadas de estanterías. El enfoque funciona, pero requiere miles de imágenes anotadas, un equipo de ingenieros de ML, infraestructura de entrenamiento y un ciclo largo cuando el surtido cambia. Fix Price eligió una alternativa — Vision Language Models externos (VLM). Estos son modelos multimodales que pueden analizar una imagen y responder preguntas sobre ella en lenguaje natural — un principio similar a GPT-4o Vision o Claude con soporte para imágenes. Las principales ventajas del enfoque VLM en este caso:
- Inicio rápido sin un conjunto de datos anotado grande
- Un modelo verifica simultáneamente displays, etiquetas de precio y disponibilidad de productos
- Nuevos tipos de verificaciones se agregan cambiando el prompt — sin reentrenamiento
- Flexibilidad al expandir a nuevas categorías y formatos de tiendas
- Reducción de costos de desarrollo y mantenimiento en comparación con CV personalizado
Cómo funciona el servicio
Las imágenes llegan de cámaras de vigilancia o dispositivos móviles de empleados de la tienda. El VLM recibe una foto y analiza el fotograma según un conjunto de criterios: cumplimiento con el planograma, presencia de etiqueta de precio para cada artículo, ausencia de espacios vacíos en la estantería. El resultado es una lista estructurada de violaciones vinculadas a una tienda específica. El empleado responsable recibe la alerta y soluciona el problema antes del contacto con el cliente. La velocidad de reacción aumenta, los recorridos manuales con libreta se reducen.
"Creo que todos sabemos cómo reaccionan los clientes ante la falta de
etiqueta de precio o un precio incorrecto en ella — qué sentimientos despierta una estantería vacía cuando no hay el producto que buscas", — Kristina Istratova, Jefa del Centro de Análisis de Datos, Fix Price.
Qué significa esto
El caso Fix Price muestra: los VLM han bajado la barrera de entrada a la visión por computadora industrial tanto que una gran minorista lanzó un servicio funcional sin un proyecto de ML de varios años. 8.000 tiendas no es un piloto, sino una carga de producción real. Para el resto del retail, esta es una señal clara: automatizar el control de estanterías ya no requiere su propio laboratorio de ML.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.
Lo esencial de la IA — una vez por semana
Siete historias que de verdad importaron, elegidas a mano. Sin ruido ni notas de prensa.
¡Listo! Revisa tu correo para la confirmación.