TAPe llevó la precisión en el 2% de COCO al 98% y empezó la transición de centroides a la detección con cajas delimitadoras
TAPe continúa su diario de experimentos en COCO y muestra un nuevo paso: 98% de precisión en una muestra del 2%, menos falsos positivos y los primeros…
Procesado por IA desde Habr AI; editado por Hamidun News
TAPe continúa su serie de experimentos abiertos de visión por computadora en COCO e informa de un nuevo hito local: la precisión ha alcanzado aproximadamente el 98% en un subconjunto del 2% del dataset. En paralelo, el equipo ha reducido los falsos positivos y ha comenzado a hacer la transición del modelo de detección de centroides a la detección completa de cuadros delimitadores.
Lo que mostró la prueba
La nueva ejecución de TAPe no se realizó en todo el dataset COCO, sino en su subconjunto del 2%—aproximadamente 2.400 imágenes utilizadas para iteraciones rápidas. Bajo estas condiciones, el equipo logró alrededor del 98% de precisión en su métrica actual. El cambio clave fue el uso de pirámides inversas durante el ajuste fino y la recopilación de datos: un parche TAPe preciso permanece en el centro, mientras que la escala aumenta conforme se aleja. Esencialmente, el modelo aprende a ver un objeto simultáneamente a nivel local y un poco más ampliamente, lo que ayuda a separar mejor la señal útil del ruido de fondo.
Para los autores, esto no es un benchmark final ni razón para afirmar que la detección en COCO está completa. En cambio, es una verificación intermedia de que el esquema elegido realmente produce mejoras en un pequeño corte de datos y permite identificar errores más rápidamente. El artículo enfatiza no solo las ganancias de precisión, sino también la reducción de falsos positivos—para sistemas aplicados, esto es tan importante como el porcentaje de aciertos.
Cómo se configuró el entrenamiento
En paralelo, el equipo estaba ajustando parámetros básicos de entrenamiento: cuántos prototipos necesita cada clase, cuántos parches TAPe de fondo deben mostrarse al modelo y cómo equilibrar el fondo contra los propios objetos. Actualmente, el mejor resultado, según los autores, proviene de una configuración bastante simple: dos prototipos por clase y aproximadamente el doble de ejemplos de fondo en comparación con objetos. La lógica es esta: el fondo es menos expresivo, por lo que el sistema necesita verlo más para dejar de tratar todo como un objeto. Sin embargo, el exceso de fondo rápidamente arruina la imagen: si se exagera, el modelo comienza a clasificar casi todo como fondo.
El artículo también describe un modo de entrenamiento de embeddings en dos etapas: primero, las representaciones se separan para reducir la superposición entre clases y, luego, los objetos similares se acercan para mejorar la precisión. Los autores esperan que en el futuro algunas de estas etapas puedan ser reemplazadas por entrenamiento en objetos TAPe preprepados.
- Para pruebas rápidas, se utilizó aproximadamente el 2% de COCO—alrededor de 2.400 imágenes
- El mejor número de prototipos por clase es ahora 2
- El equilibrio de funcionamiento es aproximadamente el doble de parches de fondo en comparación con objetos
- Los falsos positivos se redujeron a 30 en un conjunto de aproximadamente 1.500 imágenes
- Se está probando por separado cuántas "vistas" necesita el modelo para la detección sin clasificación completa
Transición a cuadros
El cambio más notable en el registro es la transición de la búsqueda de centroides de objetos a la construcción de rectángulos alrededor de ellos. Anteriormente, TAPe en esta serie de experimentos buscaba principalmente el centro de los objetivos; ahora el equipo comienza a formatear los resultados en un formato más convencional de detección de objetos. En esta etapa temprana, los autores son cautelosos en sus evaluaciones y no proporcionan porcentajes finales de calidad para los cuadros, pero informan que visualmente los primeros resultados se ven bien.
Otro aspecto interesante son los experimentos con el número de "vistas" que necesita el modelo. Para la detección sin clasificación, según el equipo, ver las esquinas y el centro de la imagen resultó ser suficiente. Esta es una señal importante para la arquitectura misma: si un objeto se puede localizar con un pequeño número de observaciones, significa que el sistema podría ser potencialmente más simple y más barato que las tuberías pesadas clásicas. Sin embargo, esto actualmente se aplica específicamente a la detección sin compromiso con la clasificación precisa.
El campo de resultados sigue siendo desigual. La precisión promedio de detección de centroide es actualmente alrededor del 72%, pero para las clases más texturizadas, la métrica sube por encima del 90% y alcanza 93–94% para objetos como teclas de piano, cebras o botes. El sistema tiene más dificultades con tenedores debido a su pequeño tamaño y con humanos debido a la alta variabilidad: en el dataset, una persona puede ser un rostro en primer plano, una figura de espaldas o una postura sentada, y tal anotación complica significativamente la tarea.
Lo que esto significa
La historia de TAPe hasta ahora no parece ser un competidor listo para YOLO en un benchmark general, sino como una acumulación cuidadosa de una alternativa funcional: más precisión en un pequeño corte de COCO, menos ruido y el primer paso hacia cuadros completos. Si el equipo mantiene el progreso en la transición de centroides a detección en métricas más estrictas, el enfoque ganará no solo valor de investigación sino también peso práctico.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.