Habr AI→ original

TAPe elevou a acurácia de classificação para 77% e comparou os resultados com o YOLO em um pequeno conjunto de dados do COCO

Na oitava parte do diário do TAPe, os autores reuniram várias melhorias-chave: segmentação por patches contrastantes na borda do objeto, classificação mais…

Processado por IA de Habr AI; editado por Hamidun News
TAPe elevou a acurácia de classificação para 77% e comparou os resultados com o YOLO em um pequeno conjunto de dados do COCO
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

A oitava entrada do diário TAPe não se concentra em uma única função, mas na montagem de um fluxo de trabalho de detecção quase completo: os autores melhoraram a segmentação, atingiram 77% de precisão na classificação e testaram o que acontece ao comparar a abordagem com YOLO em um pequeno dataset COCO. A conclusão provisória para eles é otimista: o modelo já está começando a funcionar em cenários onde detectores clássicos normalmente precisam de significativamente mais dados.

Segmentação por Limite

A principal atualização neste estágio é a segmentação por patches contrastantes no limite real do objeto, em vez de uma caixa delimitadora convencional ao seu redor. A ideia é dividir a imagem em segmentos mais naturais e depois montar o objeto a partir deles, em vez de tentar adivinhar imediatamente a caixa a partir de pixels brutos. De acordo com os autores, foi precisamente isso que melhorou rapidamente a qualidade da fusão de patches e possibilitou formar segmentos mais adequados para cada objeto na imagem.

Paralelamente, a equipe testou várias outras soluções arquitetônicas: cabeçalhos adicionais, diferentes formas de selecionar segmentos semelhantes e variantes de agregação mais complexas. Mas essas abordagens não produziram o efeito esperado. O motivo, conforme descrevem os autores, é que esses esquemas tentavam adaptar dados TAPe à arquitetura familiar, em vez de usá-los como estão.

Na prática, uma abordagem mais direta funcionou melhor: confiar na estrutura das próprias representações TAPe e melhorar as conexões entre patches.

Classificação sem Taxa de Aprendizado

O próximo problema revelou-se mais pragmático: alguns patches às vezes falhavam em cair no segmento correto. Se um ou vários fragmentos de imagem não estão associados a um objeto, torna-se difícil classificá-los corretamente, pois o modelo carece da resposta sobre o que exatamente este pedaço representa. Para aproximar o treinamento do comportamento real do modelo, os autores começaram a simular durante o treinamento o crescimento passo a passo do segmento a partir de um único patch — ou seja, repetir a mesma lógica usada na inferência.

Isso ajudou a melhorar a busca por conexões corretas entre patches, mas não eliminou todas as limitações. O problema restante são regiões "não crescentes", quando um segmento carece de contexto e comete erros de classificação por isso. Para esses casos, TAPe agora verifica adicionalmente áreas vizinhas e suaviza o contexto.

Separadamente, os autores descrevem outro objetivo importante de engenharia: eliminar consistentemente hiperparâmetros que podem quebrar o comportamento do sistema. Um desses parâmetros foi a taxa de aprendizado, que decidiram abandonar nesta versão junto com a descida do gradiente.

  • Segmentação agora procede por patches contrastantes no limite do objeto
  • Classificação cresceu para 77%
  • Abandonar taxa de aprendizado adicionou cerca de 3% de precisão
  • Os pontos mais fracos até agora estão relacionados a pequenos segmentos e falta de contexto
  • O próximo objetivo da equipe é atingir pelo menos 80% de classificação

Os autores especificamente observam o benchmark de mercado: publicações DETR listam precisão de classificação em torno de 79%, embora não esteja completamente claro se erros de detecção em si estão incluídos. Para TAPe, esta ainda não é a linha de chegada, mas o próximo objetivo. Testes completos em todo o dataset COCO ainda estão por vir, pois levam muito tempo, mas já é claro que a arquitetura se tornou mais estável e melhor alinhada com tarefas de aprendizado auto-supervisionado.

Primeiros Testes com YOLO

A parte mais notável da entrada é o primeiro benchmark direto contra YOLO. Para o experimento, os autores pegaram um pequeno recorte de COCO com 5.000 imagens e o dividiram segundo um esquema 70/30: 3.500 quadros para treinamento e 1.500 para testes. Para detectores padrão, este volume mostrou-se criticamente insuficiente. TAPe afirma que neste dataset, YOLO praticamente não converge, e o nível de detecção permanece em torno de 1%.

"YOLO não converge absolutamente para o dataset que usamos para testes."

Esta ainda não é uma comparação final por mAP50, mAP50-95, velocidade e número de parâmetros — os autores ainda estão preparando um post separado com benchmarks completos contra YOLO e RF-DETR. Mas mesmo este resultado inicial é importante porque demonstra a tese principal do projeto: TAPe tenta ser não apenas mais um modelo de detecção, mas uma arquitetura que pode funcionar em dezenas de imagens por classe onde abordagens mais convencionais exigem centenas de milhares de exemplos e bases pré-treinadas muito mais pesadas.

O Que Isso Significa

Se TAPe realmente confirmar seus resultados em um conjunto completo de métricas, será um argumento forte a favor de visão computacional focada em estrutura de dados em vez de escala apenas. Para equipes com pequenos datasets, isso é especialmente importante: o custo de entrada para detecção de qualidade pode diminuir significativamente.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…