TAPe alcanzó un 74% de precisión en COCO y empezó a alejarse de los transformers estándar
TAPe mostró un nuevo resultado intermedio en COCO: un 74% de precisión de clasificación al entrenar embeddings con datos totalmente sintéticos. Al mismo…
Procesado por IA desde Habr AI; editado por Hamidun News
Un equipo que mantiene un diario de experimentos con TAPe para visión por computadora reportó un nuevo resultado intermedio en COCO: embeddings entrenados en datos completamente sintéticos alcanzaron una precisión de clasificación del 74%. Simultáneamente, los autores llegaron a otra conclusión: los transformers estándar ayudan a verificar rápidamente hipótesis, pero en esta arquitectura se convierten en un cuello de botella.
Cómo se estructuró el experimento
El enfoque TAPe se basa en la idea de trabajar no con píxeles brutos, sino con elementos estructurados de una imagen y relaciones entre ellos. En la nueva iteración, los autores abordaron dos tareas simultáneamente. La primera—entrenar embeddings usando un esquema similar al iBOT, pero completamente en datos sintéticos creados según las reglas de TAPe. La segunda—clasificación estándar, donde el modelo debe asignar cada parche a una de las 80 clases del conjunto de datos COCO basándose en su descripción. Este pipeline permite separar el aprendizaje de representaciones de la validación aplicada en imágenes reales.
- datos TAPe sintéticos en lugar de generaciones basadas en píxeles realistas
- dos tareas de entrenamiento: embeddings y clasificación
- 3.500 imágenes de validación de COCO para entrenamiento
- 1.500 imágenes de validación para prueba
La elección específicamente de la parte de validación de COCO parece inusual, pero ese era el punto del experimento. Los autores tomaron un conjunto de datos pequeño donde todas las 80 clases ya están representadas, y las imágenes mismas se consideran más desafiantes que los ejemplos del conjunto de entrenamiento. Esto permite entender rápidamente si el enfoque converge bajo condiciones difíciles. Según su lógica, si el modelo comienza a funcionar con seguridad en tal conjunto, el escalamiento adicional a datos más grandes se convierte en una tarea de ingeniería, no en una cuestión de capacidad de aprendizaje fundamental.
Resultados en COCO
Como resultado de la primera tarea, el modelo logró una precisión del 82% en la reconstrucción condicional de parches. Para los autores, esto es un indicador de que los embeddings ya llevan suficiente estructura útil, aunque hay espacio para mejorar. En la tarea de clasificación, el resultado fue una precisión del 74%.
Para una primera versión, este es un nivel notable, especialmente porque no se trata de un modelo entrenado en un corpus gigantesco de imágenes naturales, sino de un esquema donde el entrenamiento inicial se basa completamente en datos TAPe sintéticos. Los autores enfatizan específicamente el contexto de este número. Según su estimación, los mejores modelos para COCO muestran alrededor del 79% en métricas comparables, por lo que aún hay una brecha, pero ya no parece fundamental.
Aún más importante es otro aspecto: según ellos, TAPe continúa convergiendo en un conjunto de datos muy pequeño. En el artículo, esto se contrasta con la familia YOLO, que, según afirman, incluso con 5 mil imágenes tiene dificultades para converger, y las configuraciones fuertes normalmente requieren preentrenamiento en ImageNet.
Por qué los transformers obstaculizan
Actualmente, las conexiones entre parches en esta arquitectura se organizan a través de transformers estándar. La razón es pragmática: los experimentos son más rápidos de ejecutar en ellos y es más rápido verificar si el enfoque escalado general funciona. Para un diario de investigación, este es un compromiso lógico.
Si la hipótesis básica no se confirma, no tiene sentido construir inmediatamente una arquitectura especializada. Pero a medida que mejora la calidad, esta capa temporal ha comenzado a mostrar sus limitaciones. La principal queja sobre los transformers aquí es que el mecanismo de atención intenta reaprendre dependencias entre parches que ya están explícitamente especificadas en los datos de TAPe.
Los autores creen que tal capa no solo es redundante, sino que también puede corromper las propias representaciones estructuradas. A esto se añaden la convergencia lenta en COCO completo y la dependencia del descenso de gradiente estándar. Por lo tanto, el siguiente paso para el proyecto es pasar a una arquitectura más adecuada para TAPe, donde las conexiones entre elementos no se reconstruyen nuevamente por atención sino que se utilizan como parte de la estructura original.
Qué significa esto
El experimento por ahora parece una señal temprana pero ya significativa: los datos estructurados sintéticos pueden producir embeddings funcionales y clasificación competitiva incluso en un segmento pequeño y desafiante de COCO. Si la próxima versión de TAPe mantiene estos resultados después de abandonar los transformers, sería un argumento serio a favor de stacks alternativos de CV que sean menos dependientes de enormes corpus de datos de píxeles.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.