Habr AI→ original

TAPe a porté la précision sur 2 % de COCO à 98 % et a amorcé le passage des centroïdes à la détection par boîtes englobantes

TAPe poursuit son journal d'expériences sur COCO et franchit une nouvelle étape : 98 % de précision sur un échantillon de 2 %, moins de faux positifs et les…

Traité par IA depuis Habr AI ; édité par Hamidun News
TAPe a porté la précision sur 2 % de COCO à 98 % et a amorcé le passage des centroïdes à la détection par boîtes englobantes
Source : Habr AI. Collage: Hamidun News.
◐ Écouter l'article

TAPe poursuit sa série d'expériences ouvertes en vision par ordinateur sur COCO et annonce une nouvelle étape locale : la précision a atteint environ 98 % sur un sous-ensemble de 2 % du dataset. Parallèlement, l'équipe a réduit les faux positifs et a commencé à faire passer le modèle de la détection de centroïdes à la détection complète de boîtes englobantes.

Ce que le test a montré

La nouvelle exécution de TAPe n'a pas été effectuée sur l'ensemble du dataset COCO, mais sur son sous-ensemble de 2 % — environ 2 400 images utilisées pour les itérations rapides. Dans ces conditions, l'équipe a atteint environ 98 % de précision selon leur métrique actuelle. Le changement clé a été l'utilisation de pyramides inverses lors de l'ajustement fin et de la collecte de données : un patch TAPe précis reste au centre, tandis que l'échelle augmente à mesure qu'on s'éloigne. Essentiellement, le modèle apprend à visualiser un objet simultanément au niveau local et un peu plus largement, ce qui aide à mieux séparer le signal utile du bruit de fond.

Pour les auteurs, ce n'est pas un benchmark final ni une raison d'affirmer que la détection sur COCO est terminée. C'est plutôt une vérification intermédiaire que le schéma choisi produit réellement des améliorations sur une petite tranche de données et permet d'identifier les erreurs plus rapidement. L'article insiste non seulement sur les gains de précision, mais aussi sur la réduction des faux positifs — pour les systèmes appliqués, c'est tout aussi important que le pourcentage de détections.

Comment l'entraînement a été configuré

En parallèle, l'équipe ajustait les paramètres de base de l'entraînement : combien de prototypes chaque classe a besoin, combien de patches TAPe de fond doivent être montrés au modèle et comment équilibrer le fond par rapport aux objets eux-mêmes. Actuellement, le meilleur résultat, selon les auteurs, provient d'une configuration assez simple : deux prototypes par classe et approximativement le double d'exemples de fond par rapport aux objets. La logique est la suivante : le fond est moins expressif, donc le système doit en voir davantage pour arrêter de traiter tout comme un objet. Cependant, un excès de fond casse rapidement l'image : si on en fait trop, le modèle commence à classifier presque tout comme du fond.

L'article décrit également un mode d'entraînement des embeddings en deux étapes : d'abord, les représentations sont écartées pour réduire les chevauchements entre classes, puis les objets similaires sont rapprochés pour améliorer la précision. Les auteurs supposent que certaines de ces étapes pourraient à l'avenir être remplacées par un entraînement sur des objets TAPe pré-préparés.

  • Pour les tests rapides, environ 2 % de COCO a été utilisé — environ 2 400 images
  • Le meilleur nombre de prototypes par classe est maintenant 2
  • L'équilibre de fonctionnement est approximativement le double de patches de fond par rapport aux objets
  • Les faux positifs ont été réduits à 30 sur un ensemble d'environ 1 500 images
  • Il est testé séparément combien de « vues » le modèle a besoin pour la détection sans classification complète

Passage aux boîtes

Le changement le plus notable dans le journal est le passage de la recherche de centroïdes d'objets à la construction de rectangles autour d'eux. Auparavant, TAPe dans cette série d'expériences recherchait principalement le centre des cibles ; maintenant l'équipe commence à formater les résultats dans un format de détection d'objets plus conventionnel. À ce stade précoce, les auteurs sont prudents dans leurs évaluations et ne donnent pas de pourcentages finaux de qualité pour les boîtes, mais rapportent que visuellement les premiers résultats semblent bons.

Un autre aspect intéressant concerne les expériences sur le nombre de « vues » dont le modèle a besoin. Pour la détection sans classification, selon l'équipe, l'observation des coins et du centre de l'image s'est avérée suffisante. C'est un signal important pour l'architecture elle-même : si un objet peut être localisé avec un petit nombre d'observations, cela signifie que le système pourrait potentiellement être plus simple et moins cher que les pipelines lourds classiques. Cependant, cela s'applique actuellement spécifiquement à la détection sans engagement envers une classification précise.

Le champ des résultats reste inégal. La précision moyenne de détection de centroïde est actuellement autour de 72 %, mais pour les classes les plus texturées, la métrique monte au-dessus de 90 % et atteint 93–94 % pour des objets comme les touches de piano, les zèbres ou les bateaux. Le système a le plus de mal avec les fourchettes en raison de leur petite taille et avec les humains en raison de la variabilité élevée : dans le dataset, une personne peut être un visage en gros plan, une figure de dos ou une posture assise, et une telle annotation complique considérablement la tâche.

Ce que cela signifie

L'histoire de TAPe jusqu'à présent ne semble pas être un concurrent prêt pour YOLO sur un benchmark général, mais plutôt une accumulation prudente d'une alternative fonctionnelle : plus de précision sur une petite tranche de COCO, moins de bruit et la première étape vers des boîtes complètes. Si l'équipe maintient les progrès dans la transition des centroïdes vers la détection sur des métriques plus strictes, l'approche aura non seulement une valeur de recherche mais aussi un poids pratique.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…