Habr AI→ оригинал

TAPe raised classification accuracy to 77% and compared the results with YOLO on a small COCO dataset

In the eighth part of the TAPe diary, the authors brought together several key improvements: segmentation using contrasting patches at the object boundary, more

TAPe raised classification accuracy to 77% and compared the results with YOLO on a small COCO dataset
Источник: Habr AI. Коллаж: Hamidun News.
◐ Слушать статью

Восьмая запись дневника TAPe посвящена не одной функции, а сборке почти целой рабочей схемы детекции: авторы улучшили сегментацию, довели классификацию до 77% и проверили, что происходит, если сравнить подход с YOLO на маленьком наборе COCO. Промежуточный вывод для них оптимистичный: модель уже начинает работать в сценарии, где классическим детекторам обычно нужно заметно больше данных.

Сегментация по границе

Главное обновление этого этапа — сегментация по контрастным патчам на реальной границе объекта, а не по условной рамке вокруг него. Идея в том, чтобы разбивать изображение на более естественные сегменты и затем собирать объект из них, а не пытаться сразу угадывать бокс по сырым пикселям. По словам авторов, именно это быстро улучшило качество объединения патчей и позволило формировать более адекватные сегменты для каждого объекта на изображении.

Параллельно команда пробовала несколько других архитектурных решений: дополнительные головы, иные способы выбора похожих сегментов и более сложные варианты агрегации. Но эти подходы не дали ожидаемого эффекта. Причина, как описывают авторы, в том, что такие схемы пытались подстроить TAPe-данные под привычную архитектуру, вместо того чтобы использовать их как есть.

На практике лучше сработал более прямой путь: опираться на структуру самих TAPe-представлений и улучшать связи между патчами.

Классификация без learning rate

Следующая проблема оказалась более приземлённой: часть патчей иногда не попадала в нужный сегмент. Если один или несколько фрагментов изображения не ассоциированы с объектом, их уже трудно корректно классифицировать, потому что модели не хватает ответа на вопрос, к чему именно относится этот кусок. Чтобы приблизить обучение к реальному поведению модели, авторы стали во время тренировки симулировать пошаговый рост сегмента из одного патча — то есть повторять ту же логику, которая используется на инференсе.

Это помогло улучшить поиск правильных связей между патчами, но не сняло все ограничения. Оставшаяся проблема — «нерастущие» регионы, когда сегмент не добирает контекст и из-за этого ошибается в классификации. Для таких случаев TAPe теперь дополнительно проверяет соседние области и сглаживает контекст.

Отдельно авторы описывают ещё одну важную инженерную цель: последовательное избавление от гиперпараметров, которые могут ломать поведение системы. Одним из таких параметров стал learning rate, от которого в этой версии решили отказаться вместе с градиентным спуском.

  • Сегментация теперь идёт по контрастным патчам на границе объекта Классификация выросла до 77% Отказ от learning rate добавил около 3% точности Самые слабые места пока связаны с маленькими сегментами и нехваткой контекста Следующая цель команды — выйти минимум на 80% классификации Авторы отдельно оговаривают ориентир по рынку: в публикациях по DETR фигурирует точность классификации около 79%, хотя не до конца ясно, включены ли туда ошибки самой детекции. Для TAPe это пока не финишная отметка, а ближайшая планка. Полные тесты на всём массиве COCO ещё впереди, потому что они занимают много времени, но уже сейчас видно, что архитектура стала стабильнее и лучше связана с задачами self-supervised learning.

Первые тесты с YOLO Самая громкая часть записи — первый прямой бенчмарк против YOLO.

Для эксперимента авторы взяли небольшой срез COCO из 5 тысяч изображений и разделили его по схеме 70/30: 3500 кадров на обучение и 1500 на тест. Для стандартных детекторов такого объёма оказалось критически мало. В TAPe утверждают, что на этом наборе YOLO практически не сходится, а уровень детекции остаётся около 1%.

«YOLO не сходится совершенно для датасета, который мы используем для тестов».

Это пока не финальное сравнение по mAP50, mAP50-95, скорости и числу параметров — отдельный пост с полными бенчмарками против YOLO и RF-DETR авторы ещё готовят. Но даже этот ранний результат важен, потому что он показывает главный тезис проекта: TAPe пытается быть не просто ещё одной моделью детекции, а архитектурой, которая может работать на десятках изображений на класс там, где более привычным подходам нужны сотни тысяч примеров и гораздо более тяжёлая предобученная база.

Что это значит

Если TAPe действительно подтвердит свои результаты на полном наборе метрик, это будет сильный аргумент в пользу компьютерного зрения с упором на структуру данных, а не только на масштаб. Для команд с маленькими датасетами это особенно важно: цена входа в качественную детекцию может заметно снизиться.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…