TAPe levou a precisão em 2% do COCO a 98% e começou a migrar de centroides para a detecção com caixas delimitadoras
O TAPe continua seu diário de experimentos no COCO e mostra um novo passo: 98% de precisão em uma amostra de 2%, menos falsos positivos e os primeiros…
Processado por IA de Habr AI; editado por Hamidun News
TAPe continua sua série de experimentos abertos de visão computacional no COCO e relata um novo marco local: a precisão atingiu aproximadamente 98% em um subconjunto de 2% do dataset. Em paralelo, a equipe reduziu falsos positivos e começou a fazer a transição do modelo de detecção de centroide para detecção completa de caixas delimitadoras.
O que o teste mostrou
A nova execução do TAPe não foi realizada em todo o dataset COCO, mas em seu subconjunto de 2%—aproximadamente 2.400 imagens usadas para iterações rápidas. Nessas condições, a equipe alcançou cerca de 98% de precisão em sua métrica atual. A mudança-chave foi o uso de pirâmides inversas durante o ajuste fino e coleta de dados: um patch TAPe preciso permanece no centro, enquanto a escala aumenta conforme você se afasta. Essencialmente, o modelo aprende a visualizar um objeto simultaneamente em um nível local e um pouco mais amplo, o que ajuda a separar melhor o sinal útil do ruído de fundo.
Para os autores, este não é um benchmark final nem motivo para afirmar que a detecção no COCO está completa. Em vez disso, é uma verificação intermediária de que o esquema escolhido realmente produz melhorias em um pequeno recorte de dados e permite identificar erros mais rapidamente. O artigo enfatiza não apenas ganhos de precisão, mas também a redução de falsos positivos—para sistemas aplicados, isso é tão importante quanto a taxa de acerto percentual.
Como o treinamento foi configurado
Em paralelo, a equipe estava ajustando parâmetros básicos de treinamento: quantos protótipos cada classe precisa, quantos patches TAPe de fundo devem ser mostrados ao modelo e como equilibrar o fundo contra os próprios objetos. Atualmente, o melhor resultado, segundo os autores, vem de uma configuração bastante simples: dois protótipos por classe e aproximadamente o dobro de exemplos de fundo em relação aos objetos. A lógica é esta: o fundo é menos expressivo, então o sistema precisa ver mais dele para parar de tratar tudo como um objeto. No entanto, excesso de fundo quebra rapidamente a imagem: se exagerado, o modelo começa a classificar quase tudo como fundo.
O artigo também descreve um modo de treinamento de embeddings em dois estágios: primeiro, as representações são afastadas para reduzir a sobreposição entre classes e, em seguida, objetos semelhantes são aproximados para melhorar a precisão. Os autores esperam que no futuro algumas dessas etapas possam ser substituídas pelo treinamento em objetos TAPe pré-preparados.
- Para testes rápidos, aproximadamente 2% do COCO foi utilizado—cerca de 2.400 imagens
- O melhor número de protótipos por classe agora é 2
- O equilíbrio de funcionamento é aproximadamente o dobro de patches de fundo em relação aos objetos
- Falsos positivos foram reduzidos para 30 em um conjunto de aproximadamente 1.500 imagens
- Está sendo testado separadamente quantas "visualizações" o modelo precisa para detecção sem classificação completa
Transição para caixas
O shift mais notável no log é a transição da busca por centroides de objetos para a construção de retângulos ao redor deles. Anteriormente, o TAPe nesta série de experimentos buscava principalmente o centro dos alvos; agora a equipe está começando a formatar os resultados em um formato mais convencional de detecção de objetos. Neste estágio inicial, os autores são cautelosos em suas avaliações e não fornecem percentuais finais de qualidade para as caixas, mas relatam que visualmente os primeiros resultados parecem bons.
Outro aspecto interessante são os experimentos com o número de "visualizações" que o modelo precisa. Para detecção sem classificação, segundo a equipe, visualizar os cantos e o centro da imagem provou ser suficiente. Este é um sinal importante para a própria arquitetura: se um objeto pode ser localizado com um pequeno número de observações, significa que o sistema poderia potencialmente ser mais simples e mais barato que os pipelines pesados clássicos. No entanto, isso atualmente se aplica especificamente à detecção sem comprometimento com classificação precisa.
O campo de resultados permanece desigual. A precisão média de detecção de centroide é atualmente em torno de 72%, mas para as classes mais texturizadas, a métrica sobe acima de 90% e atinge 93–94% para objetos como teclas de piano, zebras ou barcos. O sistema tem mais dificuldades com garfos devido ao seu pequeno tamanho e com humanos devido à alta variabilidade: no dataset, uma pessoa pode ser um rosto em close-up, uma figura de costas ou uma postura sentada, e tal anotação complica significativamente a tarefa.
O que isso significa
A história do TAPe até agora não parece ser um concorrente pronto para o YOLO em um benchmark geral, mas como uma acumulação cuidadosa de uma alternativa funcional: mais precisão em um pequeno recorte do COCO, menos ruído e o primeiro passo em direção a caixas completas. Se a equipe manter o progresso na transição de centroides para detecção em métricas mais rigorosas, a abordagem ganhará não apenas valor de pesquisa, mas também peso prático.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.