Fix Price lanzó un servicio VLM para controlar estantes y etiquetas de precio en 8.000 tiendas

Fix Price automatizó el control de estantes y etiquetas de precio en sus más de 8.000 tiendas con un servicio de visión por computadora basado en VLM…

Redacción de Hamidun News

Monitoreo de AI · Habr AI

29 jun 2026· 2 min

Procesado por IA desde Habr AI; editado por Hamidun News

Fix Price lanzó un servicio VLM para controlar estantes y etiquetas de precio en 8.000 tiendas — Fuente: Habr AI. Collage: Hamidun News.

◐ Escuchar artículo

Fix Price ha automatizado el monitoreo de displays de productos y etiquetas de precio en sus 8.000+ tiendas, implementando un servicio de visión por computadora basado en Vision Language Models externos — sin desarrollar modelos ML propios desde cero y sin ciclos de entrenamiento de varios años.

8.000 tiendas, una tarea

Fix Price es una cadena de tiendas de precio fijo con audiencia de decenas de millones de clientes en Rusia y la CEI. Más de 8.000 puntos de venta significan miles de estanterías que deben verificarse cada día: ¿están los productos colocados correctamente según el planograma, tienen cada artículo una etiqueta de precio, no hay espacios vacíos?

El control manual a esta escala es irrealista — no se puede enviar un auditor a cada una de las 8.000 tiendas cada día. Al mismo tiempo, el costo del error es directo: una estantería vacía o una etiqueta de precio incorrecta significan una venta perdida aquí y ahora, más una experiencia negativa del cliente que se recuerda durante mucho tiempo.

En una red de este tamaño, incluso un pequeño porcentaje de tales situaciones se suma en pérdidas financieras tangibles. El centro de análisis de datos de Fix Price enfrentó un desafío: detectar automáticamente violaciones de display y errores de precios — rápidamente, a escala industrial y sin inversiones excesivas en su propia infraestructura de CV.

Por qué VLM, no un modelo personalizado

El enfoque clásico en visión por computadora para retail es entrenar una red neuronal personalizada en fotos anotadas de estanterías. El enfoque funciona, pero requiere miles de imágenes anotadas, un equipo de ingenieros de ML, infraestructura de entrenamiento y un ciclo largo cuando el surtido cambia. Fix Price eligió una alternativa — Vision Language Models externos (VLM). Estos son modelos multimodales que pueden analizar una imagen y responder preguntas sobre ella en lenguaje natural — un principio similar a GPT-4o Vision o Claude con soporte para imágenes. Las principales ventajas del enfoque VLM en este caso:

Inicio rápido sin un conjunto de datos anotado grande
Un modelo verifica simultáneamente displays, etiquetas de precio y disponibilidad de productos
Nuevos tipos de verificaciones se agregan cambiando el prompt — sin reentrenamiento
Flexibilidad al expandir a nuevas categorías y formatos de tiendas
Reducción de costos de desarrollo y mantenimiento en comparación con CV personalizado

Cómo funciona el servicio

Las imágenes llegan de cámaras de vigilancia o dispositivos móviles de empleados de la tienda. El VLM recibe una foto y analiza el fotograma según un conjunto de criterios: cumplimiento con el planograma, presencia de etiqueta de precio para cada artículo, ausencia de espacios vacíos en la estantería. El resultado es una lista estructurada de violaciones vinculadas a una tienda específica. El empleado responsable recibe la alerta y soluciona el problema antes del contacto con el cliente. La velocidad de reacción aumenta, los recorridos manuales con libreta se reducen.

"Creo que todos sabemos cómo reaccionan los clientes ante la falta de

etiqueta de precio o un precio incorrecto en ella — qué sentimientos despierta una estantería vacía cuando no hay el producto que buscas", — Kristina Istratova, Jefa del Centro de Análisis de Datos, Fix Price.

Qué significa esto

El caso Fix Price muestra: los VLM han bajado la barrera de entrada a la visión por computadora industrial tanto que una gran minorista lanzó un servicio funcional sin un proyecto de ML de varios años. 8.000 tiendas no es un piloto, sino una carga de producción real. Para el resto del retail, esta es una señal clara: automatizar el control de estanterías ya no requiere su propio laboratorio de ML.

Hamidun News

Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

Canal de Telegram RSS hamidun.com

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

🎓 Academy — 7 días gratis Consulta gratuita