TAPe atingiu 74% de acurácia no COCO e começou a se afastar dos transformers padrão
O TAPe apresentou um novo resultado intermediário no COCO: 74% de acurácia de classificação ao treinar embeddings com dados totalmente sintéticos. Em…
Processado por IA de Habr AI; editado por Hamidun News
Uma equipe que mantém um diário de experimentos com TAPe para visão computacional relatou um novo resultado intermediário no COCO: embeddings treinados em dados totalmente sintéticos alcançaram 74% de precisão de classificação. Ao mesmo tempo, os autores chegaram a outra conclusão: transformers padrão ajudam a verificar rapidamente hipóteses, mas nessa arquitetura se tornam um gargalo.
Como o experimento foi estruturado
A abordagem TAPe é baseada na ideia de trabalhar não com pixels brutos, mas com elementos estruturados de uma imagem e relações entre eles. Na nova iteração, os autores abordaram duas tarefas simultaneamente. A primeira—treinar embeddings usando um esquema semelhante ao iBOT, mas inteiramente em dados sintéticos criados de acordo com as regras do TAPe. A segunda—classificação padrão, em que o modelo deve atribuir cada patch a uma das 80 classes do conjunto de dados COCO com base em sua descrição. Este pipeline permite separar o aprendizado de representações da validação aplicada em imagens reais.
- dados TAPe sintéticos em vez de gerações baseadas em pixels realistas
- duas tarefas de treinamento: embeddings e classificação
- 3.500 imagens de validação do COCO para treinamento
- 1.500 imagens de validação para teste
A escolha especificamente da parte de validação do COCO parece inusitada, mas esse era o ponto do experimento. Os autores pegaram um pequeno conjunto de dados em que todas as 80 classes já estão representadas, e as próprias imagens são consideradas mais desafiadoras do que exemplos do conjunto de treinamento. Isso permite entender rapidamente se a abordagem converge em condições difíceis. De acordo com sua lógica, se o modelo começar a funcionar com confiança em tal conjunto, o dimensionamento adicional para dados maiores se torna uma tarefa de engenharia, não uma questão de aprendibilidade fundamental.
Resultados no COCO
Como resultado da primeira tarefa, o modelo alcançou 82% de precisão na reconstrução condicional de patches. Para os autores, este é um indicador de que os embeddings já carregam estrutura suficientemente útil, embora haja espaço para melhoria. Na tarefa de classificação, o resultado foi 74% de precisão.
Para uma primeira versão, este é um nível notável, especialmente porque não se trata de um modelo treinado em um corpus gigantesco de imagens naturais, mas de um esquema em que o treinamento inicial depende inteiramente de dados TAPe sintéticos. Os autores enfatizam especificamente o contexto desse número. De acordo com sua estimativa, os melhores modelos para COCO mostram cerca de 79% em métricas comparáveis, portanto há ainda uma lacuna, mas ela não parece mais fundamental.
Ainda mais importante é outro aspecto: segundo eles, TAPe continua convergindo em um conjunto de dados muito pequeno. No artigo, isso é contrastado com a família YOLO, que, segundo afirmam, tem dificuldade em convergir mesmo com 5 mil imagens, e configurações fortes normalmente exigem pré-treinamento no ImageNet.
Por que os transformers prejudicam
Atualmente, as conexões entre patches nesta arquitetura ainda são organizadas através de transformers padrão. A razão é pragmática: os experimentos são mais rápidos de executar neles e é mais rápido verificar se a abordagem escalada geral funciona. Para um diário de pesquisa, este é um compromisso lógico.
Se a hipótese básica não for confirmada, não há razão para construir imediatamente uma arquitetura especializada. Mas conforme a qualidade melhora, essa camada temporária começou a mostrar suas limitações. A principal reclamação sobre transformers aqui é que o mecanismo de atenção tenta reaprender dependências entre patches que já estão explicitamente especificadas nos dados do TAPe.
Os autores acreditam que tal camada não é apenas redundante, mas também pode corromper as próprias representações estruturadas. A isso se somam a convergência lenta no COCO completo e a dependência do gradiente descendente padrão. Portanto, o próximo passo para o projeto é migrar para uma arquitetura mais adequada ao TAPe, em que as conexões entre elementos não são reconstruídas novamente pela atenção, mas são usadas como parte da estrutura original.
O que isso significa
O experimento até agora parece um sinal inicial mas já significativo: dados estruturados sintéticos podem produzir embeddings funcionais e classificação competitiva mesmo em um pequeno e desafiador segmento do COCO. Se a próxima versão do TAPe manter esses resultados após abandonar os transformers, isso seria um argumento sério a favor de stacks alternativos de CV que são menos dependentes de enormes corpora de dados de pixels.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.