Habr AI→ original

YADRO a entraîné la tablette KVADRA_T à reconnaître plusieurs objets dans une image en 20 ms

YADRO a expliqué comment elle a entraîné la tablette KVADRA_T à reconnaître simultanément une personne, un document, du texte, des codes QR et des…

Traité par IA depuis Habr AI ; édité par Hamidun News
YADRO a entraîné la tablette KVADRA_T à reconnaître plusieurs objets dans une image en 20 ms
Source : Habr AI. Collage: Hamidun News.
◐ Écouter l'article

YADRO a montré comment elle a résolu une tâche qui, pour un appareil mobile, ressemble presque à de la détection, mais doit fonctionner plus vite : la tablette KVADRA_T a appris à reconnaître simultanément une personne, un document, du texte, des QR codes et des codes-barres dans une même image. Le modèle multi-label final a atteint un F1-score moyen de 94 % et a respecté les contraintes de vitesse pour un lancement directement sur l’appareil.

Pourquoi pas multiclass

Dans l’entreprise, on explique que la classification multiclass classique ne convenait pas ici par la nature même du problème. Une seule image peut contenir en même temps une personne, un passeport, des lignes de texte et un code à scanner, alors que le schéma classique essaie de ne choisir qu’une seule classe dominante.

Pour une galerie intelligente ou des scénarios de vérification, cela ne suffit pas : l’appareil doit comprendre la composition de la scène dans son ensemble, et non deviner l’objet principal. Lancer un modèle séparé pour chaque type d’objet était aussi une mauvaise option, car sur une tablette cela consomme vite le budget en temps et en ressources.

C’est pourquoi l’équipe est passée à une approche multi-label, où chaque classe est déterminée indépendamment. Mais là non plus, un schéma simple avec une seule tête de classification partagée n’a pas fonctionné : les classes relèvent de domaines visuels différents, et les caractéristiques communes ont commencé à se gêner mutuellement.

Dans la première version, avec MobileNet V3 et une seule tête, le modèle affichait un F1-score d’environ 82 %. Après le passage à une architecture multi-head avec des têtes indépendantes pour différents types d’objets, la métrique moyenne est montée à 94 %, soit environ 12 points de pourcentage gagnés d’un coup.

Comment le dataset a été constitué

La partie la plus difficile du projet n’a pas été le choix du backbone, mais les données. L’équipe ne disposait pas d’un dataset public multi-label prêt à l’emploi avec la combinaison de classes nécessaire, donc l’échantillon a été assemblé presque à partir de zéro à partir de Roboflow, Kaggle et de dépôts open source. En parallèle, il a fallu suivre les licences pour que les données puissent être utilisées dans un produit.

Au final, la développeuse a réuni et nettoyé un ensemble de 193 000 images, où il était particulièrement difficile de conserver un bon équilibre entre des classes liées comme document et texte. Pour l’annotation automatique, ils ont d’abord testé des détecteurs SOTA classiques, principalement des modèles de la famille YOLO, mais leur qualité s’est révélée insuffisante pour cette tâche.

L’équipe s’est alors tournée vers les vision-language models et a construit autour d’eux un pipeline de nettoyage et d’enrichissement des données. Cela a permis non seulement d’annoter les images, mais aussi de supprimer les doublons, puis de combler de manière ciblée les trous dans les statistiques des combinaisons rares de labels.

  • comparaison de détecteurs classiques et de modèles VLM pour différentes classes
  • choix de Qwen2.5-VL-72B-Instruct comme annotateur principal, car il a donné environ 98 % de F1-score sur les classes
  • suppression des doublons via pHash, et vérification des cas ambigus via SSIM
  • ajout des combinaisons de labels manquantes via des filtres de prompt comme «il y a du texte, mais pas de document ?»

Un problème distinct est apparu avec la classe texte. En raison de la nature de la tâche, le modèle s’accrochait facilement à des motifs et à des lignes ressemblant à des lettres ; cette classe a donc dû être davantage contrainte et rééquilibrée.

Cette approche a permis non seulement de constituer un grand dataset, mais aussi de le rendre adapté à un modèle multi-label mobile, où une erreur dans la répartition des classes se transforme vite en faux positifs sur des images réelles.

Ce qu’ont montré les tests

À l’issue d’une série d’expériences, l’équipe s’est arrêtée sur MobileNetV3 Large. La résolution de l’image d’entrée a elle aussi dû être choisie comme un compromis entre qualité et vitesse : la variante 1024 rendait l’inference trop lourde, le format 640 a donc été retenu, car il conservait des métriques proches tout en accélérant sensiblement le traitement.

Les hyperparamètres ont été ajustés avec Optuna, tandis que les expériences elles-mêmes et le diagnostic de l’entraînement étaient suivis dans ClearML. Cela a permis de surveiller les distributions de gradients, les versions de datasets et la qualité de chaque exécution sans chaos manuel.

Après l’entraînement, le modèle a été converti en ONNX, puis en TFLite et RKNN, afin de fonctionner sur des configurations mobiles et accélérées matériellement. Sur le NPU de la tablette KVADRA_T, l’inference en 640x640 prend environ 20 ms, et la chaîne complète de traitement de l’image tient en environ 30 ms.

C’est mieux que la limite cible de 50 ms que l’équipe s’était fixée dans le projet. Selon la développeuse, cette marge de temps peut désormais être utilisée pour la prochaine itération du modèle. YADRO prévoit d’ajouter la fonction de classification multi-label dans la prochaine version de kvadraOS.

«Je prévois d’utiliser les 20 ms restants pour complexifier le modèle.»

Ce que cela signifie

YADRO a montré quelque chose d’important pour edge-AI : même sur une tablette, on peut obtenir une reconnaissance presque en realtime d’une scène complexe si l’on assemble correctement le dataset, que l’on sépare les têtes de classification et que l’on n’essaie pas de tout résoudre avec un seul modèle universel.

Pour le marché, c’est un signal supplémentaire : les fonctions de CV utiles seront de plus en plus exécutées localement, et non dans le cloud.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…