Habr AI→ original

YADRO entrenó la tablet KVADRA_T para reconocer varios objetos en un fotograma en 20 ms

YADRO explicó cómo entrenó la tablet KVADRA_T para reconocer al mismo tiempo a una persona, un documento, texto, códigos QR y códigos de barras en un mismo…

Procesado por IA desde Habr AI; editado por Hamidun News
YADRO entrenó la tablet KVADRA_T para reconocer varios objetos en un fotograma en 20 ms
Fuente: Habr AI. Collage: Hamidun News.
◐ Escuchar artículo

YADRO mostró cómo resolvió una tarea que, para un dispositivo móvil, suena casi como detección, pero tiene que funcionar más rápido: la tableta KVADRA_T fue entrenada para reconocer al mismo tiempo a una persona, un documento, texto, códigos QR y códigos de barras en un solo frame. El modelo multi-label final dio un F1-score medio del 94% y cumplió los requisitos de velocidad para ejecutarse directamente en el dispositivo.

Por qué no multiclass

En la compañía explican que la clasificación multiclass convencional no encajaba aquí por la propia naturaleza del problema. En una misma imagen pueden aparecer a la vez una persona, un pasaporte, líneas de texto y un código para escanear, mientras que el esquema clásico intenta elegir solo una clase dominante.

Para una galería inteligente o escenarios de verificación, eso no basta: el dispositivo necesita entender la composición completa de la escena y no adivinar cuál es el objeto principal. Ejecutar un modelo separado para cada tipo de objeto también era una mala opción, porque en la tableta eso consume rápidamente el presupuesto de tiempo y recursos.

Por eso, el equipo pasó a un enfoque multi-label, donde cada clase se determina de forma independiente. Pero aquí tampoco funcionó un esquema sencillo con una sola head de clasificación compartida: las clases pertenecen a distintos dominios visuales y las características compartidas empezaban a interferir entre sí.

En la primera versión, con MobileNet V3 y una sola head, el modelo mostraba un F1-score de alrededor del 82%. Tras pasar a una arquitectura multi-head con heads independientes para distintos tipos de objetos, la métrica media subió al 94%, es decir, unos 12 puntos porcentuales de golpe.

Cómo montaron el dataset

La parte más difícil del proyecto no fue elegir el backbone, sino los datos. El equipo no tenía un dataset público multi-label ya preparado con la combinación de clases necesaria, así que el conjunto se armó casi desde cero a partir de Roboflow, Kaggle y repositorios open source. En paralelo, hubo que seguir las licencias para que los datos pudieran usarse en un producto.

Al final, la desarrolladora reunió y limpió un conjunto de 193 mil imágenes, donde fue especialmente difícil mantener el equilibrio entre clases relacionadas, como documento y texto. Para el etiquetado automático, primero probaron detectores SOTA convencionales, sobre todo modelos de la familia YOLO, pero su calidad para esta tarea resultó insuficiente.

Después de eso, el equipo pasó a vision-language models y construyó a su alrededor un pipeline de limpieza y ampliación de datos. Así consiguieron no solo etiquetar las imágenes, sino también eliminar duplicados y luego cerrar de forma puntual los huecos en las estadísticas de combinaciones raras de etiquetas.

  • compararon detectores clásicos y modelos VLM para distintas clases
  • eligieron Qwen2.5-VL-72B-Instruct como etiquetador principal, porque dio alrededor de un 98% de F1-score por clases
  • eliminaron duplicados mediante pHash, y revisaron los casos ambiguos mediante SSIM
  • completaron las combinaciones de etiquetas que faltaban con filtros de prompt como «hay texto, pero no hay documento?»

Apareció un problema aparte con la clase texto. Por la naturaleza de la tarea, el modelo se enganchaba con facilidad a patrones y líneas parecidos a letras, así que esta clase tuvo que restringirse y equilibrarse adicionalmente.

Este enfoque permitió no solo reunir un dataset grande, sino hacerlo apto para un modelo multi-label móvil, donde un error en la distribución de clases se convierte rápidamente en falsos positivos sobre imágenes reales.

Qué mostraron las pruebas

Tras una serie de experimentos, el equipo se quedó con MobileNetV3 Large. La resolución del frame de entrada también tuvo que elegirse como un compromiso entre calidad y velocidad: la variante 1024 hacía el inference demasiado pesado, así que el formato final fue 640, que conservaba métricas similares, pero aceleraba de forma notable el procesamiento.

Los hiperparámetros se ajustaron con Optuna, y los propios experimentos y el diagnóstico del entrenamiento se llevaron en ClearML. Esto ayudó a seguir las distribuciones de gradientes, las versiones de los datasets y la calidad de las ejecuciones individuales sin caos manual.

Después del entrenamiento, el modelo se convirtió a ONNX y luego a TFLite y RKNN para que funcionara en configuraciones móviles y aceleradas por hardware. En el NPU de la tableta KVADRA_T, el inference a 640x640 tarda unos 20 ms, y la ruta completa de procesamiento del frame cabe en aproximadamente 30 ms.

Eso es mejor que el límite objetivo de 50 ms que el equipo se había marcado en el proyecto. Según la desarrolladora, este margen de tiempo ahora puede usarse para la siguiente iteración del modelo. YADRO planea añadir la función de clasificación multi-label en la próxima versión de kvadraOS.

«Pienso usar los 20 ms de margen para hacer el modelo más complejo.»

Qué significa esto

YADRO mostró algo importante para edge-AI: incluso en una tableta se puede lograr un reconocimiento casi en realtime de una escena compleja si se monta bien el dataset, se separan las heads de clasificación y no se intenta resolver todo con un único modelo universal.

Para el mercado, esta es otra señal de que las funciones útiles de CV se ejecutarán cada vez más en local y no en la nube.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…