Habr AI→ original

TAPe levou a precisão em 2% do COCO a 98% e começou a migrar de centroides para a detecção com caixas delimitadoras

O TAPe continua seu diário de experimentos no COCO e mostra um novo passo: 98% de precisão em uma amostra de 2%, menos falsos positivos e os primeiros…

Processado por IA de Habr AI; editado por Hamidun News
TAPe levou a precisão em 2% do COCO a 98% e começou a migrar de centroides para a detecção com caixas delimitadoras
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

TAPe continua sua série de experimentos abertos de visão computacional no COCO e relata um novo marco local: a precisão atingiu aproximadamente 98% em um subconjunto de 2% do dataset. Em paralelo, a equipe reduziu falsos positivos e começou a fazer a transição do modelo de detecção de centroide para detecção completa de caixas delimitadoras.

O que o teste mostrou

A nova execução do TAPe não foi realizada em todo o dataset COCO, mas em seu subconjunto de 2%—aproximadamente 2.400 imagens usadas para iterações rápidas. Nessas condições, a equipe alcançou cerca de 98% de precisão em sua métrica atual. A mudança-chave foi o uso de pirâmides inversas durante o ajuste fino e coleta de dados: um patch TAPe preciso permanece no centro, enquanto a escala aumenta conforme você se afasta. Essencialmente, o modelo aprende a visualizar um objeto simultaneamente em um nível local e um pouco mais amplo, o que ajuda a separar melhor o sinal útil do ruído de fundo.

Para os autores, este não é um benchmark final nem motivo para afirmar que a detecção no COCO está completa. Em vez disso, é uma verificação intermediária de que o esquema escolhido realmente produz melhorias em um pequeno recorte de dados e permite identificar erros mais rapidamente. O artigo enfatiza não apenas ganhos de precisão, mas também a redução de falsos positivos—para sistemas aplicados, isso é tão importante quanto a taxa de acerto percentual.

Como o treinamento foi configurado

Em paralelo, a equipe estava ajustando parâmetros básicos de treinamento: quantos protótipos cada classe precisa, quantos patches TAPe de fundo devem ser mostrados ao modelo e como equilibrar o fundo contra os próprios objetos. Atualmente, o melhor resultado, segundo os autores, vem de uma configuração bastante simples: dois protótipos por classe e aproximadamente o dobro de exemplos de fundo em relação aos objetos. A lógica é esta: o fundo é menos expressivo, então o sistema precisa ver mais dele para parar de tratar tudo como um objeto. No entanto, excesso de fundo quebra rapidamente a imagem: se exagerado, o modelo começa a classificar quase tudo como fundo.

O artigo também descreve um modo de treinamento de embeddings em dois estágios: primeiro, as representações são afastadas para reduzir a sobreposição entre classes e, em seguida, objetos semelhantes são aproximados para melhorar a precisão. Os autores esperam que no futuro algumas dessas etapas possam ser substituídas pelo treinamento em objetos TAPe pré-preparados.

  • Para testes rápidos, aproximadamente 2% do COCO foi utilizado—cerca de 2.400 imagens
  • O melhor número de protótipos por classe agora é 2
  • O equilíbrio de funcionamento é aproximadamente o dobro de patches de fundo em relação aos objetos
  • Falsos positivos foram reduzidos para 30 em um conjunto de aproximadamente 1.500 imagens
  • Está sendo testado separadamente quantas "visualizações" o modelo precisa para detecção sem classificação completa

Transição para caixas

O shift mais notável no log é a transição da busca por centroides de objetos para a construção de retângulos ao redor deles. Anteriormente, o TAPe nesta série de experimentos buscava principalmente o centro dos alvos; agora a equipe está começando a formatar os resultados em um formato mais convencional de detecção de objetos. Neste estágio inicial, os autores são cautelosos em suas avaliações e não fornecem percentuais finais de qualidade para as caixas, mas relatam que visualmente os primeiros resultados parecem bons.

Outro aspecto interessante são os experimentos com o número de "visualizações" que o modelo precisa. Para detecção sem classificação, segundo a equipe, visualizar os cantos e o centro da imagem provou ser suficiente. Este é um sinal importante para a própria arquitetura: se um objeto pode ser localizado com um pequeno número de observações, significa que o sistema poderia potencialmente ser mais simples e mais barato que os pipelines pesados clássicos. No entanto, isso atualmente se aplica especificamente à detecção sem comprometimento com classificação precisa.

O campo de resultados permanece desigual. A precisão média de detecção de centroide é atualmente em torno de 72%, mas para as classes mais texturizadas, a métrica sobe acima de 90% e atinge 93–94% para objetos como teclas de piano, zebras ou barcos. O sistema tem mais dificuldades com garfos devido ao seu pequeno tamanho e com humanos devido à alta variabilidade: no dataset, uma pessoa pode ser um rosto em close-up, uma figura de costas ou uma postura sentada, e tal anotação complica significativamente a tarefa.

O que isso significa

A história do TAPe até agora não parece ser um concorrente pronto para o YOLO em um benchmark geral, mas como uma acumulação cuidadosa de uma alternativa funcional: mais precisão em um pequeno recorte do COCO, menos ruído e o primeiro passo em direção a caixas completas. Se a equipe manter o progresso na transição de centroides para detecção em métricas mais rigorosas, a abordagem ganhará não apenas valor de pesquisa, mas também peso prático.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…