TAPe довела детекцию на COCO до уровня RF-DETR и YOLO с моделью менее 100 тысяч параметров
TAPe-детекция добралась до уровня сильных моделей на COCO, но вместилась менее чем в 100 тысяч параметров. Авторы заявляют mAP50 на уровне RF-DETR-2XL, задержку

TAPe показала, что детекцию объектов уровня топовых моделей можно собрать без гигантских сетей на сотни миллионов параметров: на бенчмарке COCO система вышла на точность, сопоставимую с сильными RF-DETR и YOLO-решениями, при размере модели менее 100 тысяч параметров и времени работы около 7–8 миллисекунд на изображение. Главный итог эксперимента в том, что авторы довели TAPe-детекцию до уровня современных SOTA-подходов не за счёт простого масштабирования, а за счёт самой архитектурной идеи. Для компьютерного зрения это важный сигнал: гонка за всё более крупными моделями не всегда обязательна, если задача поставлена так, чтобы сеть извлекала нужную структуру из данных с меньшим числом весов.
В качестве контрольной площадки использовался COCO — один из самых популярных и сложных наборов данных для оценки детекции объектов, на котором обычно сравнивают именно серьёзные промышленные и исследовательские решения. Поэтому результат на этом датасете сразу воспринимается как предметный, а не лабораторный. По заявленным метрикам, финальная модель TAPe держит mAP50 на уровне RF-DETR-2XL, но при этом остаётся на несколько порядков компактнее.
Если у TAPe меньше 100 тысяч параметров, то у ближайших облегчённых моделей класса YOLO параметров примерно на порядок больше, а у сильных DETR-подходов вроде RF-DETR — уже около 127 миллионов. Разница здесь не косметическая, а системная. Меньшая модель означает не только экономию памяти, но и более низкий порог для запуска на обычном железе, более простую доставку в edge-сценарии и меньше издержек на обучение, пересборку и отладку.
Отдельно авторы подчёркивают скорость: около 7–8 миллисекунд на изображение, причём поведение модели на GPU и CPU почти одинаково быстрое. Для прикладных сценариев это особенно важно, потому что далеко не каждая команда может позволить себе отдельную GPU-инфраструктуру под inference. Не менее важен и вопрос данных.
Обычно высокая точность в детекции покупается не только моделью, но и огромным объёмом размеченных примеров, сложной тренировочной схемой и длинным циклом экспериментов. В TAPe делают акцент на том, что их подход заметно снижает требования и к данным, и к вычислительным ресурсам, и ко времени разработки. Если это стабильно воспроизводится за пределами одного эксперимента, у небольших команд появляется шанс конкурировать там, где раньше входной билет был слишком дорогим.
Это касается и стартапов, и исследовательских групп, и продуктовых команд, которые внедряют зрение в камеры, роботов, складские системы или мобильные устройства. В такой логике ценность модели определяется не только абсолютной точностью, но и тем, сколько людей и инфраструктуры нужно, чтобы довести её до продакшена. На фоне рынка, где успех нередко измеряется размером чекпоинта и количеством GPU-часов, такой результат выглядит почти контринтуитивно.
Но именно поэтому он и интересен. TAPe фактически предлагает другой тезис: производительность в задачах детекции можно наращивать не только за счёт масштаба, но и за счёт более удачного способа кодировать визуальные зависимости. Для индустрии это может означать смещение фокуса с наращивания ресурсов на оптимизацию самой постановки задачи.
А для open-source-сообщества — шанс получить модели, которые легче запускать, переносить и дообучать без тяжёлой инфраструктуры. Если вывод авторов подтвердится в дальнейших независимых тестах, TAPe может стать важным аргументом в пользу компактных vision-моделей нового поколения. Смысл новости не в том, что очередная система обошла конкурентов в таблице, а в том, что сопоставимое качество удалось получить радикально меньшей ценой по параметрам, данным и вычислениям.
Это тот случай, когда выигрыш в эффективности сам по себе становится главным технологическим результатом. И именно такие истории чаще всего меняют практику быстрее, чем рекордные, но слишком дорогие демонстрации возможностей.