Habr AI→ original

TAPe a porté la précision de classification à 77 % et comparé les résultats avec YOLO sur un petit jeu de données COCO

Dans la huitième partie du journal de TAPe, les auteurs ont réuni plusieurs améliorations clés : une segmentation par patchs contrastés à la frontière de…

Traité par IA depuis Habr AI ; édité par Hamidun News
TAPe a porté la précision de classification à 77 % et comparé les résultats avec YOLO sur un petit jeu de données COCO
Source : Habr AI. Collage: Hamidun News.
◐ Écouter l'article

La huitième entrée du journal TAPe se concentre non pas sur une seule fonction, mais sur l'assemblage d'un flux de travail de détecton presque complet : les auteurs ont amélioré la segmentation, atteint 77% de précision en classification et testé ce qui se passe lors de la comparaison de l'approche avec YOLO sur un petit dataset COCO. La conclusion provisoire pour eux est optimiste : le modèle commence déjà à fonctionner dans des scénarios où les détecteurs classiques nécessitent généralement beaucoup plus de données.

Segmentation par Limite

La mise à jour principale à cette étape est la segmentation par patchs contrastants à la limite réelle de l'objet, plutôt que par une boîte englobante conventionnelle autour de celui-ci. L'idée est de diviser l'image en segments plus naturels, puis d'assembler l'objet à partir d'eux, plutôt que de tenter de deviner immédiatement la boîte à partir de pixels bruts. Selon les auteurs, c'est précisément cela qui a rapidement amélioré la qualité de la fusion des patchs et a permis de former des segments plus adéquats pour chaque objet de l'image.

En parallèle, l'équipe a essayé plusieurs autres solutions architecturales : têtes supplémentaires, différentes façons de sélectionner des segments similaires et des variantes d'agrégation plus complexes. Mais ces approches n'ont pas produit l'effet attendu. La raison, comme le décrivent les auteurs, est que de tels schémas tentaient d'adapter les données TAPe à une architecture familière, au lieu de les utiliser telles quelles.

En pratique, une approche plus directe a mieux fonctionné : s'appuyer sur la structure des représentations TAPe elles-mêmes et améliorer les connexions entre patchs.

Classification sans Taux d'Apprentissage

Le problème suivant s'est avéré plus pragmatique : certains patchs échouaient parfois à tomber dans le bon segment. Si un ou plusieurs fragments d'image ne sont pas associés à un objet, il devient difficile de les classer correctement, car le modèle manque de réponse sur ce que représente exactement ce morceau. Pour rapprocher l'entraînement du comportement réel du modèle, les auteurs ont commencé à simuler lors de l'entraînement la croissance étape par étape du segment à partir d'un seul patch — c'est-à-dire de répéter la même logique utilisée lors de l'inférence.

Cela a aidé à améliorer la recherche de connexions correctes entre patchs, mais n'a pas éliminé toutes les limitations. Le problème restant concerne les régions « qui ne croissent pas », lorsqu'un segment manque de contexte et commet des erreurs de classification à cause de cela. Pour de tels cas, TAPe vérifie maintenant en outre les zones voisines et lisse le contexte.

Séparément, les auteurs décrivent un autre objectif important d'ingénierie : éliminer systématiquement les hyperparamètres qui peuvent casser le comportement du système. L'un de ces paramètres était le taux d'apprentissage, qu'ils ont décidé d'abandonner dans cette version ainsi que la descente de gradient.

  • La segmentation procède maintenant par patchs contrastants à la limite de l'objet
  • La classification a augmenté à 77%
  • L'abandon du taux d'apprentissage a ajouté environ 3% de précision
  • Les points les plus faibles jusqu'à présent sont liés aux petits segments et au manque de contexte
  • Le prochain objectif de l'équipe est d'atteindre au moins 80% de classification

Les auteurs notent spécifiquement l'indice de marché : les publications DETR énumèrent une précision de classification autour de 79%, bien qu'il ne soit pas entièrement clair si les erreurs de détection elles-mêmes sont incluses. Pour TAPe, ce n'est pas encore la ligne d'arrivée, mais l'objectif suivant. Les tests complets sur l'ensemble du dataset COCO sont encore à venir, car ils demandent beaucoup de temps, mais il est déjà clair que l'architecture est devenue plus stable et mieux alignée sur les tâches d'apprentissage autosupervisé.

Premiers Tests avec YOLO

La partie la plus remarquable de l'entrée est le premier benchmark direct contre YOLO. Pour l'expérience, les auteurs ont pris une petite portion de COCO contenant 5 000 images et l'ont divisée selon un schéma 70/30 : 3 500 images pour l'entraînement et 1 500 pour les tests. Pour les détecteurs standards, ce volume s'est avéré critiquement insuffisant. TAPe affirme que sur ce dataset, YOLO ne converge pratiquement pas, et le niveau de détection reste autour de 1%.

« YOLO ne converge pas du tout pour le dataset que nous utilisons pour

les tests. »

Ce n'est pas encore une comparaison définitive par mAP50, mAP50-95, vitesse et nombre de paramètres — les auteurs préparent toujours un post séparé avec des benchmarks complets contre YOLO et RF-DETR. Mais même ce résultat initial est important car il démontre la thèse principale du projet : TAPe tente d'être non pas simplement un autre modèle de détection, mais une architecture qui peut fonctionner sur des dizaines d'images par classe où les approches plus conventionnelles nécessitent des centaines de milliers d'exemples et des bases préentraînées beaucoup plus lourdes.

Ce Que Cela Signifie

Si TAPe confirme réellement ses résultats sur un ensemble complet de métriques, ce sera un argument solide en faveur de la vision par ordinateur axée sur la structure des données plutôt que sur l'échelle seule. Pour les équipes disposant de petits datasets, cela est particulièrement important : le coût d'entrée pour une détection de qualité pourrait diminuer significativement.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…