TAPe довела детекцию на COCO до уровня RF-DETR и YOLO с моделью менее 100 тысяч параметров

Q: Источник материала?

Оригинальная публикация на Habr AI. Hamidun News обрабатывает и адаптирует материалы с помощью AI.

Q: Когда опубликовано?

2026-04-28. Время чтения: 3 мин.

TAPe-детекция добралась до уровня сильных моделей на COCO, но вместилась менее чем в 100 тысяч параметров. Авторы заявляют mAP50 на уровне RF-DETR-2XL, задержку

ЖХ

Редакция Hamidun News

AI‑мониторинг · Habr AI

2026-04-28· 2 мин

TAPe довела детекцию на COCO до уровня RF-DETR и YOLO с моделью менее 100 тысяч параметров — Источник: Habr AI. Коллаж: Hamidun News.

TAPe показала, что детекцию объектов уровня топовых моделей можно собрать без гигантских сетей на сотни миллионов параметров: на бенчмарке COCO система вышла на точность, сопоставимую с сильными RF-DETR и YOLO-решениями, при размере модели менее 100 тысяч параметров и времени работы около 7–8 миллисекунд на изображение. Главный итог эксперимента в том, что авторы довели TAPe-детекцию до уровня современных SOTA-подходов не за счёт простого масштабирования, а за счёт самой архитектурной идеи. Для компьютерного зрения это важный сигнал: гонка за всё более крупными моделями не всегда обязательна, если задача поставлена так, чтобы сеть извлекала нужную структуру из данных с меньшим числом весов.

В качестве контрольной площадки использовался COCO — один из самых популярных и сложных наборов данных для оценки детекции объектов, на котором обычно сравнивают именно серьёзные промышленные и исследовательские решения. Поэтому результат на этом датасете сразу воспринимается как предметный, а не лабораторный. По заявленным метрикам, финальная модель TAPe держит mAP50 на уровне RF-DETR-2XL, но при этом остаётся на несколько порядков компактнее.

Если у TAPe меньше 100 тысяч параметров, то у ближайших облегчённых моделей класса YOLO параметров примерно на порядок больше, а у сильных DETR-подходов вроде RF-DETR — уже около 127 миллионов. Разница здесь не косметическая, а системная. Меньшая модель означает не только экономию памяти, но и более низкий порог для запуска на обычном железе, более простую доставку в edge-сценарии и меньше издержек на обучение, пересборку и отладку.

Отдельно авторы подчёркивают скорость: около 7–8 миллисекунд на изображение, причём поведение модели на GPU и CPU почти одинаково быстрое. Для прикладных сценариев это особенно важно, потому что далеко не каждая команда может позволить себе отдельную GPU-инфраструктуру под inference. Не менее важен и вопрос данных.

Обычно высокая точность в детекции покупается не только моделью, но и огромным объёмом размеченных примеров, сложной тренировочной схемой и длинным циклом экспериментов. В TAPe делают акцент на том, что их подход заметно снижает требования и к данным, и к вычислительным ресурсам, и ко времени разработки. Если это стабильно воспроизводится за пределами одного эксперимента, у небольших команд появляется шанс конкурировать там, где раньше входной билет был слишком дорогим.

Это касается и стартапов, и исследовательских групп, и продуктовых команд, которые внедряют зрение в камеры, роботов, складские системы или мобильные устройства. В такой логике ценность модели определяется не только абсолютной точностью, но и тем, сколько людей и инфраструктуры нужно, чтобы довести её до продакшена. На фоне рынка, где успех нередко измеряется размером чекпоинта и количеством GPU-часов, такой результат выглядит почти контринтуитивно.

Но именно поэтому он и интересен. TAPe фактически предлагает другой тезис: производительность в задачах детекции можно наращивать не только за счёт масштаба, но и за счёт более удачного способа кодировать визуальные зависимости. Для индустрии это может означать смещение фокуса с наращивания ресурсов на оптимизацию самой постановки задачи.

А для open-source-сообщества — шанс получить модели, которые легче запускать, переносить и дообучать без тяжёлой инфраструктуры. Если вывод авторов подтвердится в дальнейших независимых тестах, TAPe может стать важным аргументом в пользу компактных vision-моделей нового поколения. Смысл новости не в том, что очередная система обошла конкурентов в таблице, а в том, что сопоставимое качество удалось получить радикально меньшей ценой по параметрам, данным и вычислениям.

Это тот случай, когда выигрыш в эффективности сам по себе становится главным технологическим результатом. И именно такие истории чаще всего меняют практику быстрее, чем рекордные, но слишком дорогие демонстрации возможностей.

ЖХ

Hamidun News

AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Telegram-канал RSS hamidun.com