Habr AI→ оригинал

TAPe llevó la precisión en el 2% de COCO al 98% y empezó la transición de centroides a la detección con cajas delimitadoras

TAPe continúa su diario de experimentos en COCO y muestra un nuevo paso: 98% de precisión en una muestra del 2%, menos falsos positivos y los primeros resultado

◐ Слушать статью

TAPe продолжает серию открытых экспериментов по компьютерному зрению на COCO и сообщает о новом локальном результате: точность выросла примерно до 98% на двухпроцентной выборке датасета. Параллельно команда уменьшила число ложных срабатываний и начала переводить модель от поиска центров объектов к полноценным прямоугольным боксам.

Что показал тест

Новый прогон TAPe делали не на всём COCO, а на его двухпроцентной части — это около 2400 изображений, которые используют для быстрых итераций. В такой постановке команда получила около 98% точности по своей текущей метрике. Ключевым изменением стало использование инверсных пирамид при наведении и сборе данных: в центре остаётся точный TAPe-патч, а по мере удаления масштаб растёт.

По сути, модель учится смотреть на объект одновременно локально и чуть шире, что помогает лучше отделять полезный сигнал от окружающего фона. Для авторов это не финальный бенчмарк и не повод говорить о завершённой детекции на COCO. Скорее, это промежуточная проверка того, что выбранная схема действительно даёт прирост на малом срезе данных и позволяет быстрее отлавливать ошибки.

Отдельный акцент в статье сделан не только на росте точности, но и на снижении ложных срабатываний — для прикладной системы это не менее важно, чем сам процент попаданий.

Как настроили обучение

Параллельно команда подбирала базовые параметры обучения: сколько прототипов нужно каждому классу, сколько фоновых TAPe-патчей стоит показывать модели и как балансировать фон против самих объектов. Сейчас лучший результат, по словам авторов, даёт довольно простая конфигурация: два прототипа на класс и примерно двукратный перевес фоновых примеров над объектами. Логика такая: фон менее выразителен, поэтому системе нужно увидеть его больше, чтобы перестать принимать за объект всё подряд.

При этом избыток фона быстро ломает картину: если перегнуть, модель начинает классифицировать почти всё как фон. В статье также описан двухэтапный режим обучения эмбеддингов: сначала представления разводят в стороны, чтобы уменьшить пересечения между классами, а затем уже стягивают похожие объекты ближе друг к другу ради точности. Авторы предполагают, что в будущем часть этих этапов можно будет заменить тренировкой на заранее подготовленных TAPe-объектах.

  • Для быстрых тестов использовали около 2% COCO, то есть примерно 2400 изображений Лучшее число прототипов на класс сейчас — 2 Рабочий баланс — примерно вдвое больше фоновых патчей, чем объектов Количество ложных срабатываний удалось снизить до 30 на наборе примерно из 1500 изображений Отдельно проверяется, сколько «взглядов» модели нужно для детекции без полноценной классификации ## Переход к боксам Самый заметный сдвиг в дневнике — переход от поиска центроида объекта к построению прямоугольника вокруг него. Раньше TAPe в этой серии экспериментов в основном искал центр цели, теперь команда начинает оформлять результат в более привычный для детекции объектов формат. На раннем этапе авторы осторожны в оценках и не дают финального процента качества по боксам, но пишут, что визуально первые результаты выглядят хорошо. Ещё одна интересная часть — эксперименты с количеством «взглядов» модели. Для детекции без классификации, по словам команды, оказалось достаточно просмотра по углам изображения и в центре. Это важный сигнал для самой архитектуры: если объект можно локализовать небольшим числом наблюдений, значит система потенциально может быть проще и дешевле классических тяжёлых пайплайнов. Но пока это касается именно детекции без привязки к точной классификации. Поле результатов остаётся неравномерным. Средняя точность нахождения центроида сейчас около 72%, однако для самых текстурных классов показатель поднимается выше 90% и доходит до 93–94% у объектов вроде клавиш пианино, зебры или лодки. Хуже всего система пока справляется с вилками из-за малого размера и с людьми из-за высокой вариативности: в датасете человек может быть лицом крупным планом, фигурой со спины или сидящей позой, и такая разметка заметно усложняет задачу.

Что это значит

История с TAPe пока выглядит не как готовый конкурент YOLO на общем бенчмарке, а как аккуратное наращивание рабочей альтернативы: больше точности на малом срезе COCO, меньше шума и первый шаг к полноценным боксам. Если команда сохранит прогресс при переходе от центроидов к детекции и на более строгих метриках, у подхода появится уже не только исследовательский, но и практический вес.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…