TAPe atingiu 74% de acurácia no COCO e começou a se afastar dos transformers padrão

Q: Qual é a fonte?

Publicado originalmente em Habr AI. O Hamidun News processa e adapta os materiais com IA.

Q: Quando foi publicado?

2 de mai. de 2026. Tempo de leitura: 3 min.

O TAPe apresentou um novo resultado intermediário no COCO: 74% de acurácia de classificação ao treinar embeddings com dados totalmente sintéticos. Em…

Redação da Hamidun News

Monitoramento de AI · Habr AI

2 de mai. de 2026· 2 min

Processado por IA de Habr AI; editado por Hamidun News

TAPe atingiu 74% de acurácia no COCO e começou a se afastar dos transformers padrão — Fonte: Habr AI. Colagem: Hamidun News.

◐ Ouvir artigo

Uma equipe que mantém um diário de experimentos com TAPe para visão computacional relatou um novo resultado intermediário no COCO: embeddings treinados em dados totalmente sintéticos alcançaram 74% de precisão de classificação. Ao mesmo tempo, os autores chegaram a outra conclusão: transformers padrão ajudam a verificar rapidamente hipóteses, mas nessa arquitetura se tornam um gargalo.

Como o experimento foi estruturado

A abordagem TAPe é baseada na ideia de trabalhar não com pixels brutos, mas com elementos estruturados de uma imagem e relações entre eles. Na nova iteração, os autores abordaram duas tarefas simultaneamente. A primeira—treinar embeddings usando um esquema semelhante ao iBOT, mas inteiramente em dados sintéticos criados de acordo com as regras do TAPe. A segunda—classificação padrão, em que o modelo deve atribuir cada patch a uma das 80 classes do conjunto de dados COCO com base em sua descrição. Este pipeline permite separar o aprendizado de representações da validação aplicada em imagens reais.

dados TAPe sintéticos em vez de gerações baseadas em pixels realistas
duas tarefas de treinamento: embeddings e classificação
3.500 imagens de validação do COCO para treinamento
1.500 imagens de validação para teste

A escolha especificamente da parte de validação do COCO parece inusitada, mas esse era o ponto do experimento. Os autores pegaram um pequeno conjunto de dados em que todas as 80 classes já estão representadas, e as próprias imagens são consideradas mais desafiadoras do que exemplos do conjunto de treinamento. Isso permite entender rapidamente se a abordagem converge em condições difíceis. De acordo com sua lógica, se o modelo começar a funcionar com confiança em tal conjunto, o dimensionamento adicional para dados maiores se torna uma tarefa de engenharia, não uma questão de aprendibilidade fundamental.

Resultados no COCO

Como resultado da primeira tarefa, o modelo alcançou 82% de precisão na reconstrução condicional de patches. Para os autores, este é um indicador de que os embeddings já carregam estrutura suficientemente útil, embora haja espaço para melhoria. Na tarefa de classificação, o resultado foi 74% de precisão.

Para uma primeira versão, este é um nível notável, especialmente porque não se trata de um modelo treinado em um corpus gigantesco de imagens naturais, mas de um esquema em que o treinamento inicial depende inteiramente de dados TAPe sintéticos. Os autores enfatizam especificamente o contexto desse número. De acordo com sua estimativa, os melhores modelos para COCO mostram cerca de 79% em métricas comparáveis, portanto há ainda uma lacuna, mas ela não parece mais fundamental.

Ainda mais importante é outro aspecto: segundo eles, TAPe continua convergindo em um conjunto de dados muito pequeno. No artigo, isso é contrastado com a família YOLO, que, segundo afirmam, tem dificuldade em convergir mesmo com 5 mil imagens, e configurações fortes normalmente exigem pré-treinamento no ImageNet.

Por que os transformers prejudicam

Atualmente, as conexões entre patches nesta arquitetura ainda são organizadas através de transformers padrão. A razão é pragmática: os experimentos são mais rápidos de executar neles e é mais rápido verificar se a abordagem escalada geral funciona. Para um diário de pesquisa, este é um compromisso lógico.

Se a hipótese básica não for confirmada, não há razão para construir imediatamente uma arquitetura especializada. Mas conforme a qualidade melhora, essa camada temporária começou a mostrar suas limitações. A principal reclamação sobre transformers aqui é que o mecanismo de atenção tenta reaprender dependências entre patches que já estão explicitamente especificadas nos dados do TAPe.

Os autores acreditam que tal camada não é apenas redundante, mas também pode corromper as próprias representações estruturadas. A isso se somam a convergência lenta no COCO completo e a dependência do gradiente descendente padrão. Portanto, o próximo passo para o projeto é migrar para uma arquitetura mais adequada ao TAPe, em que as conexões entre elementos não são reconstruídas novamente pela atenção, mas são usadas como parte da estrutura original.

O que isso significa

O experimento até agora parece um sinal inicial mas já significativo: dados estruturados sintéticos podem produzir embeddings funcionais e classificação competitiva mesmo em um pequeno e desafiador segmento do COCO. Se a próxima versão do TAPe manter esses resultados após abandonar os transformers, isso seria um argumento sério a favor de stacks alternativos de CV que são menos dependentes de enormes corpora de dados de pixels.

Hamidun News

Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Canal do Telegram RSS hamidun.com

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

🎓 Academy — 7 dias grátis Consultoria grátis