Habr AI→ оригинал

TAPe alcanzó un 74% de precisión en COCO y empezó a alejarse de los transformers estándar

TAPe mostró un nuevo resultado intermedio en COCO: un 74% de precisión de clasificación al entrenar embeddings con datos totalmente sintéticos. Al mismo tiempo,

◐ Слушать статью

Команда, ведущая дневник экспериментов с TAPe для компьютерного зрения, сообщила о новом промежуточном результате на COCO: эмбеддинги, обученные на полностью синтетических данных, дали 74% точности классификации. Одновременно авторы пришли к еще одному выводу: стандартные трансформеры помогают быстро проверять гипотезы, но в этой архитектуре становятся узким местом.

Как устроили эксперимент В основе подхода TAPe лежит идея работать не

с сырыми пикселями, а со структурированными элементами изображения и связями между ними. В новой итерации авторы решали сразу две задачи. Первая — обучение эмбеддингов по схеме, напоминающей iBOT, но полностью на синтетических данных, созданных по правилам TAPe.

Вторая — обычная классификация, где модель должна по описанию патча отнести его к одному из 80 классов датасета COCO. Такой пайплайн позволяет отделить обучение представлений от прикладной проверки на реальных изображениях. синтетические TAPe-данные вместо реалистичных пиксельных генераций две учебные задачи: эмбеддинги и классификация * 3,5 тыс.

val-изображений COCO для обучения * 1,5 тыс. val-изображений для проверки Выбор именно validation-части COCO выглядит необычно, но в этом и был смысл эксперимента. Авторы взяли маленький датасет, где все 80 классов уже представлены, а сами изображения считаются сложнее, чем примеры из train-части.

Это позволяет быстрее понять, сходится ли подход в тяжелых условиях. По их логике, если модель начинает уверенно работать на таком наборе, дальнейшее масштабирование на более крупные данные становится инженерной задачей, а не вопросом принципиальной обучаемости.

Результаты на COCO

По итогам первой задачи модель достигла 82% точности условной реконструкции патча. Для авторов это показатель того, что эмбеддинги уже несут достаточно полезной структуры, хотя пространство для улучшений остается. На задаче классификации результат составил 74% точности.

Для первой версии это заметный уровень, особенно потому, что речь идет не о модели, обученной на гигантском корпусе натуральных изображений, а о схеме, где раннее обучение опирается на полностью синтетические TAPe-данные. Авторы отдельно подчеркивают контекст этого числа. По их оценке, лучшие модели для COCO показывают около 79% по сопоставимым графикам, так что разрыв пока есть, но он уже не выглядит фундаментальным.

Еще важнее другое: TAPe, по их версии, продолжает сходиться на очень маленьком наборе данных. В статье это противопоставляется семейству YOLO, которому, как утверждается, даже 5 тысяч изображений мало для нормальной сходимости, а сильные конфигурации обычно требуют предварительного обучения на ImageNet.

Почему мешают трансформеры

Сейчас связь между патчами в этой архитектуре все еще организована через стандартные трансформеры. Причина прагматичная: на них быстрее ставить эксперименты и проверять, работает ли общий масштабный подход. Для исследовательского дневника это логичный компромисс.

Если базовая гипотеза не подтверждается, нет смысла сразу строить специализированную архитектуру. Но по мере роста качества именно этот временный слой начал показывать свои ограничения. Главная претензия к трансформерам здесь в том, что механизм attention пытается заново выучить зависимости между патчами, которые в данных TAPe уже заданы явно.

Авторы считают, что такая прослойка не только избыточна, но и может портить сами структурированные представления. К этому добавляются медленная сходимость на полном COCO и зависимость от стандартного градиентного спуска. Поэтому следующий шаг для проекта — уйти к более TAPe-пригодной архитектуре, где связи между элементами не восстанавливаются вниманием заново, а используются как часть исходной структуры.

Что это значит

Эксперимент пока выглядит как ранний, но уже содержательный сигнал: синтетические структурированные данные могут дать рабочие эмбеддинги и конкурентную классификацию даже на маленьком и сложном срезе COCO. Если следующая версия TAPe сохранит эти результаты после отказа от трансформеров, это станет серьезным аргументом в пользу альтернативных CV-стеков, которые меньше зависят от огромных корпусов пиксельных данных.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…