Habr AI→ original

TAPe elevó la precisión de clasificación al 77% y comparó los resultados con YOLO en un pequeño conjunto de datos de COCO

En la octava parte del diario de TAPe, los autores reunieron varias mejoras clave: segmentación mediante parches contrastantes en el borde del objeto, una…

Procesado por IA desde Habr AI; editado por Hamidun News
TAPe elevó la precisión de clasificación al 77% y comparó los resultados con YOLO en un pequeño conjunto de datos de COCO
Fuente: Habr AI. Collage: Hamidun News.
◐ Escuchar artículo

La octava entrada del diario TAPe no se enfoca en una única función, sino en el ensamblaje de un flujo de trabajo de detección casi completo: los autores mejoraron la segmentación, alcanzaron el 77% de precisión en clasificación y probaron qué sucede al comparar el enfoque con YOLO en un pequeño dataset COCO. La conclusión provisional para ellos es optimista: el modelo ya está comenzando a funcionar en escenarios donde los detectores clásicos típicamente requieren significativamente más datos.

Segmentación por Límite

La actualización principal en esta etapa es la segmentación por parches contrastantes en el límite real del objeto, en lugar de un cuadro delimitador convencional alrededor de él. La idea es dividir la imagen en segmentos más naturales y luego ensamblar el objeto a partir de ellos, en lugar de intentar adivinar inmediatamente la caja a partir de píxeles crudos. Según los autores, fue precisamente esto lo que mejoró rápidamente la calidad de la fusión de parches y permitió formar segmentos más adecuados para cada objeto en la imagen.

En paralelo, el equipo probó varias otras soluciones arquitectónicas: cabezales adicionales, diferentes formas de seleccionar segmentos similares y variantes de agregación más complejas. Pero estos enfoques no produjeron el efecto esperado. La razón, como describen los autores, es que tales esquemas intentaban adaptar datos TAPe a una arquitectura familiar, en lugar de usarlos tal como están.

En la práctica, un enfoque más directo funcionó mejor: confiar en la estructura de las propias representaciones TAPe y mejorar las conexiones entre parches.

Clasificación sin Tasa de Aprendizaje

El siguiente problema resultó ser más pragmático: algunos parches a veces no se caían en el segmento correcto. Si uno o varios fragmentos de imagen no están asociados con un objeto, resulta difícil clasificarlos correctamente, porque al modelo le falta la respuesta sobre qué es exactamente este fragmento. Para aproximar el entrenamiento al comportamiento real del modelo, los autores comenzaron a simular durante el entrenamiento el crecimiento paso a paso del segmento a partir de un único parche — es decir, repetir la misma lógica utilizada en la inferencia.

Esto ayudó a mejorar la búsqueda de conexiones correctas entre parches, pero no eliminó todas las limitaciones. El problema restante son regiones "no crecientes", cuando un segmento carece de contexto y comete errores de clasificación por ello. Para tales casos, TAPe ahora verifica adicionalmente áreas vecinas y suaviza el contexto.

Por separado, los autores describen otro objetivo importante de ingeniería: eliminar consistentemente hiperparámetros que pueden romper el comportamiento del sistema. Uno de estos parámetros fue la tasa de aprendizaje, que decidieron abandonar en esta versión junto con el descenso de gradiente.

  • La segmentación ahora procede por parches contrastantes en el límite del objeto
  • La clasificación ha crecido al 77%
  • Abandonar la tasa de aprendizaje añadió aproximadamente el 3% de precisión
  • Los puntos más débiles hasta ahora están relacionados con segmentos pequeños y falta de contexto
  • El próximo objetivo del equipo es alcanzar al menos el 80% de clasificación

Los autores específicamente notan el punto de referencia del mercado: las publicaciones DETR enumeran precisión de clasificación alrededor del 79%, aunque no está completamente claro si los errores de detección en sí están incluidos. Para TAPe, esto aún no es la línea de meta, sino el siguiente objetivo. Las pruebas completas en todo el dataset COCO aún están por llegar, ya que requieren mucho tiempo, pero ya es claro que la arquitectura se ha vuelto más estable y mejor alineada con las tareas de aprendizaje autosupervisado.

Primeras Pruebas con YOLO

La parte más destacada de la entrada es el primer benchmarking directo contra YOLO. Para el experimento, los autores tomaron un pequeño recorte de COCO con 5.000 imágenes y lo dividieron según un esquema 70/30: 3.500 fotogramas para entrenamiento y 1.500 para pruebas. Para detectores estándar, este volumen resultó ser crítica insuficiencia. TAPe afirma que en este dataset, YOLO prácticamente no converge, y el nivel de detección permanece alrededor del 1%.

"YOLO no converge en absoluto para el dataset que usamos para pruebas."

Esta aún no es una comparación final por mAP50, mAP50-95, velocidad y número de parámetros — los autores aún están preparando un post separado con benchmarks completos contra YOLO y RF-DETR. Pero incluso este resultado inicial es importante porque demuestra la tesis principal del proyecto: TAPe intenta ser no solo otro modelo de detección, sino una arquitectura que puede funcionar en docenas de imágenes por clase donde enfoques más convencionales requieren cientos de miles de ejemplos y bases preentrenadas mucho más pesadas.

Qué Significa Esto

Si TAPe realmente confirma sus resultados en un conjunto completo de métricas, será un argumento fuerte a favor de la visión por computadora enfocada en la estructura de datos en lugar de solo en la escala. Para equipos con datasets pequeños, esto es especialmente importante: el costo de entrada para detección de calidad podría disminuir significativamente.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…