TAPe achieves RF-DETR and YOLO level detection on COCO with under 100K parameters
TAPe detection reached the level of strong models on COCO while fitting in under 100 thousand parameters. Authors report mAP50 at RF-DETR-2XL level, 7-8 ms late

TAPe показала, что детекцию объектов уровня топовых моделей можно собрать без гигантских сетей на сотни миллионов параметров: на бенчмарке COCO система вышла на точность, сопоставимую с сильными RF-DETR и YOLO-решениями, при размере модели менее 100 тысяч параметров и времени работы около 7–8 миллисекунд на изображение. Главный итог эксперимента в том, что авторы довели TAPe-детекцию до уровня современных SOTA-подходов не за счёт простого масштабирования, а за счёт самой архитектурной идеи. Для компьютерного зрения это важный сигнал: гонка за всё более крупными моделями не всегда обязательна, если задача поставлена так, чтобы сеть извлекала нужную структуру из данных с меньшим числом весов.
В качестве контрольной площадки использовался COCO — один из самых популярных и сложных наборов данных для оценки детекции объектов, на котором обычно сравнивают именно серьёзные промышленные и исследовательские решения. Поэтому результат на этом датасете сразу воспринимается как предметный, а не лабораторный. По заявленным метрикам, финальная модель TAPe держит mAP50 на уровне RF-DETR-2XL, но при этом остаётся на несколько порядков компактнее.
Если у TAPe меньше 100 тысяч параметров, то у ближайших облегчённых моделей класса YOLO параметров примерно на порядок больше, а у сильных DETR-подходов вроде RF-DETR — уже около 127 миллионов. Разница здесь не косметическая, а системная. Меньшая модель означает не только экономию памяти, но и более низкий порог для запуска на обычном железе, более простую доставку в edge-сценарии и меньше издержек на обучение, пересборку и отладку.
Отдельно авторы подчёркивают скорость: около 7–8 миллисекунд на изображение, причём поведение модели на GPU и CPU почти одинаково быстрое. Для прикладных сценариев это особенно важно, потому что далеко не каждая команда может позволить себе отдельную GPU-инфраструктуру под inference. Не менее важен и вопрос данных.
Обычно высокая точность в детекции покупается не только моделью, но и огромным объёмом размеченных примеров, сложной тренировочной схемой и длинным циклом экспериментов. В TAPe делают акцент на том, что их подход заметно снижает требования и к данным, и к вычислительным ресурсам, и ко времени разработки. Если это стабильно воспроизводится за пределами одного эксперимента, у небольших команд появляется шанс конкурировать там, где раньше входной билет был слишком дорогим.
Это касается и стартапов, и исследовательских групп, и продуктовых команд, которые внедряют зрение в камеры, роботов, складские системы или мобильные устройства. В такой логике ценность модели определяется не только абсолютной точностью, но и тем, сколько людей и инфраструктуры нужно, чтобы довести её до продакшена. На фоне рынка, где успех нередко измеряется размером чекпоинта и количеством GPU-часов, такой результат выглядит почти контринтуитивно.
Но именно поэтому он и интересен. TAPe фактически предлагает другой тезис: производительность в задачах детекции можно наращивать не только за счёт масштаба, но и за счёт более удачного способа кодировать визуальные зависимости. Для индустрии это может означать смещение фокуса с наращивания ресурсов на оптимизацию самой постановки задачи.
А для open-source-сообщества — шанс получить модели, которые легче запускать, переносить и дообучать без тяжёлой инфраструктуры. Если вывод авторов подтвердится в дальнейших независимых тестах, TAPe может стать важным аргументом в пользу компактных vision-моделей нового поколения. Смысл новости не в том, что очередная система обошла конкурентов в таблице, а в том, что сопоставимое качество удалось получить радикально меньшей ценой по параметрам, данным и вычислениям.
Это тот случай, когда выигрыш в эффективности сам по себе становится главным технологическим результатом. И именно такие истории чаще всего меняют практику быстрее, чем рекордные, но слишком дорогие демонстрации возможностей.