Habr AI→ оригинал

YADRO treinou o tablet KVADRA_T para reconhecer vários objetos em um frame em 20 ms

A YADRO explicou como treinou o tablet KVADRA_T para reconhecer simultaneamente uma pessoa, um documento, texto, códigos QR e códigos de barras em um único fram

YADRO treinou o tablet KVADRA_T para reconhecer vários objetos em um frame em 20 ms
Источник: Habr AI. Коллаж: Hamidun News.
◐ Слушать статью

YADRO показала, как решала задачу, которая для мобильного устройства звучит почти как детекция, но должна работать быстрее: планшет KVADRA_T научили одновременно распознавать человека, документ, текст, QR- и штрихкоды в одном кадре. Итоговая multi-label модель дала средний F1-score 94% и уложилась в требования по скорости для запуска прямо на устройстве.

Почему не multiclass В компании объясняют, что обычная

multiclass-классификация здесь не подходила по самой природе задачи. На одном снимке могут одновременно находиться человек, паспорт, строки текста и код для сканирования, а классическая схема пытается выбрать только один доминирующий класс. Для умной галереи или сценариев верификации этого недостаточно: устройству нужно понимать состав сцены целиком, а не угадывать главный объект.

Запускать отдельную модель под каждый тип объекта тоже было плохим вариантом, потому что на планшете это быстро съедает бюджет по времени и ресурсам. Поэтому команда перешла к multi-label подходу, где каждый класс определяется независимо. Но и здесь не сработала простая схема с одной общей головой классификации: классы относятся к разным визуальным доменам, и общие признаки начинали мешать друг другу.

В первой версии с MobileNet V3 и одной головой модель показывала F1-score около 82%. После перехода к multi-head архитектуре с независимыми головами под разные типы объектов средняя метрика выросла до 94%, то есть сразу примерно на 12 процентных пунктов.

Как собрали датасет Самой трудной частью проекта оказался не выбор бэкбона, а данные.

Готового публичного multi-label датасета с нужной комбинацией классов у команды не было, поэтому выборку собирали почти с нуля из Roboflow, Kaggle и open source-репозиториев. Параллельно пришлось следить за лицензиями, чтобы данные можно было использовать в продукте. В итоге разработчица собрала и очистила массив на 193 тысячи изображений, где особенно сложно было сохранить баланс между связанными классами вроде «документ» и «текст».

Для автоматической разметки сначала тестировали обычные SOTA-детекторы, в основном модели семейства YOLO, но их качество для этой задачи оказалось недостаточным. После этого команда переключилась на vision-language модели и построила вокруг них пайплайн очистки и добора данных. Так удалось не только разметить изображения, но и убрать дубликаты, а затем точечно закрыть провалы в статистике по редким сочетаниям меток.

сравнили классические детекторы и VLM-модели для разных классов выбрали Qwen2.5-VL-72B-Instruct как основной разметчик, потому что он дал около 98% F1-score по классам удаляли дубликаты через pHash, а спорные случаи проверяли через SSIM добирали недостающие сочетания меток через промпт-фильтры вроде «есть текст, но нет документа?» Отдельная проблема возникла с классом «текст».

Из-за природы задачи модель легко цеплялась за узоры и линии, похожие на буквы, поэтому этот класс пришлось дополнительно ограничивать и балансировать. Такой подход позволил не просто набрать большой датасет, а сделать его пригодным для мобильной multi-label модели, где ошибка в распределении классов быстро превращается в ложные срабатывания на реальных снимках.

Что показали тесты По итогам серии экспериментов команда остановилась на MobileNetV3 Large.

Разрешение входного кадра тоже пришлось подбирать как компромисс между качеством и скоростью: вариант 1024 давал слишком тяжелый инференс, поэтому финальным стал формат 640, который сохранял близкие метрики, но заметно ускорял обработку. Гиперпараметры подбирали через Optuna, а сами эксперименты и диагностику обучения вели в ClearML. Это помогло отслеживать распределение градиентов, версии датасетов и качество отдельных запусков без ручного хаоса.

После обучения модель конвертировали в ONNX, а затем в TFLite и RKNN, чтобы она работала на мобильных и аппаратно ускоренных конфигурациях. На NPU планшета KVADRA_T инференс при 640x640 занимает около 20 мс, а полный путь обработки кадра укладывается примерно в 30 мс. Это лучше целевого лимита в 50 мс, который команда ставила в проекте.

По словам разработчицы, именно этот запас по времени теперь можно использовать для следующей итерации модели. Функцию multi-label классификации YADRO планирует добавить в следующий релиз kvadraOS.

«Запасные 20 мс я планирую использовать для усложнения модели».

Что это значит YADRO показала важную для edge-AI вещь: даже на

планшете можно добиться почти realtime-распознавания сложной сцены, если правильно собрать датасет, разделить головы классификации и не пытаться решать все одной универсальной моделью. Для рынка это еще один сигнал, что полезные CV-функции все чаще будут исполняться локально, а не в облаке.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…