TAPe a atteint 74 % de précision sur COCO et a commencé à s’éloigner des transformers standards
TAPe a présenté un nouveau résultat intermédiaire sur COCO : 74 % de précision de classification avec des embeddings entraînés sur des données entièrement…
Traité par IA depuis Habr AI ; édité par Hamidun News
Une équipe qui tient un journal d'expériences avec TAPe pour la vision par ordinateur a rapporté un nouveau résultat intermédiaire sur COCO : les embeddings entraînés sur des données entièrement synthétiques ont atteint une précision de classification de 74%. Simultanément, les auteurs ont tiré une autre conclusion : les transformers standard aident à vérifier rapidement les hypothèses, mais dans cette architecture, ils deviennent un goulot d'étranglement.
Comment l'expérience a été structurée
L'approche TAPe est basée sur l'idée de ne pas travailler avec des pixels bruts, mais avec des éléments structurés d'une image et les relations entre eux. Dans la nouvelle itération, les auteurs ont abordé deux tâches simultanément. La première—entraîner des embeddings en utilisant un schéma similaire à iBOT, mais entièrement sur des données synthétiques créées selon les règles de TAPe. La deuxième—une classification standard, où le modèle doit assigner chaque patch à l'une des 80 classes du jeu de données COCO en fonction de sa description. Ce pipeline permet de séparer l'apprentissage des représentations de la validation appliquée sur des images réelles.
- données TAPe synthétiques au lieu de générations basées sur des pixels réalistes
- deux tâches d'apprentissage : embeddings et classification
- 3.500 images de validation de COCO pour l'apprentissage
- 1.500 images de validation pour les tests
Le choix spécifiquement de la partie validation de COCO semble inhabituel, mais c'était justement le point de l'expérience. Les auteurs ont pris un petit ensemble de données où les 80 classes sont déjà représentées, et les images elles-mêmes sont considérées comme plus difficiles que les exemples de l'ensemble d'entraînement. Cela permet de comprendre rapidement si l'approche converge dans des conditions difficiles. Selon leur logique, si le modèle commence à fonctionner avec assurance sur un tel ensemble, la mise à l'échelle supplémentaire vers des données plus grandes devient une tâche d'ingénierie plutôt qu'une question d'apprentissabilité fondamentale.
Résultats sur COCO
À la suite de la première tâche, le modèle a atteint une précision de 82% dans la reconstruction conditionnelle des patches. Pour les auteurs, c'est un indicateur que les embeddings portent déjà suffisamment de structure utile, bien qu'il y ait de la place pour l'amélioration. Sur la tâche de classification, le résultat a été une précision de 74%.
Pour une première version, c'est un niveau remarquable, d'autant plus qu'il ne s'agit pas d'un modèle entraîné sur un gigantesque corpus d'images naturelles, mais d'un schéma où l'apprentissage précoce s'appuie entièrement sur des données TAPe synthétiques. Les auteurs soulignent spécifiquement le contexte de ce chiffre. Selon leur estimation, les meilleurs modèles pour COCO montrent environ 79% sur des métriques comparables, il y a donc encore un écart, mais il ne semble plus fondamental.
Plus important encore, selon eux, TAPe continue de converger sur un très petit ensemble de données. Dans l'article, ceci est mis en contraste avec la famille YOLO, laquelle, affirment-ils, a du mal à converger même avec 5 mille images, et les configurations fortes nécessitent généralement un pré-entraînement sur ImageNet.
Pourquoi les transformers gênent
Actuellement, les connexions entre les patches dans cette architecture sont toujours organisées à travers des transformers standard. La raison est pragmatique : les expériences sont plus rapides à mettre en œuvre sur eux et il est plus rapide de vérifier si l'approche échelle générale fonctionne. Pour un journal de recherche, c'est un compromis logique.
Si l'hypothèse de base n'est pas confirmée, il n'y a pas de sens à construire immédiatement une architecture spécialisée. Mais à mesure que la qualité s'améliore, cette couche temporaire a commencé à montrer ses limitations. La principale plainte contre les transformers ici est que le mécanisme d'attention essaie de ré-apprendre les dépendances entre les patches qui sont déjà explicitement spécifiées dans les données TAPe.
Les auteurs croient qu'une telle couche est non seulement redondante, mais peut aussi corrompre les représentations structurées elles-mêmes. À cela s'ajoutent la convergence lente sur le COCO complet et la dépendance à la descente de gradient standard. Par conséquent, l'étape suivante du projet est de passer à une architecture plus adaptée à TAPe, où les connexions entre les éléments ne sont pas reconstruites à nouveau par l'attention mais sont utilisées comme partie de la structure originale.
Ce que cela signifie
L'expérience ressemble pour l'instant à un signal précoce mais déjà significatif : les données structurées synthétiques peuvent produire des embeddings fonctionnels et une classification compétitive même sur une petite tranche difficile de COCO. Si la prochaine version de TAPe conserve ces résultats après l'abandon des transformers, ce serait un argument sérieux en faveur de stacks CV alternatifs qui dépendent moins d'énormes corpus de données de pixels.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.