YADRO درّبت جهاز KVADRA_T اللوحي على التعرّف على عدة أجسام في الإطار خلال 20 مللي ثانية
شرحت YADRO كيف درّبت جهاز KVADRA_T اللوحي على التعرّف في الوقت نفسه على شخص ومستند ونص ورموز QR والباركود في إطار واحد. وبدلاً من مخطط multiclass التقليدي، اختا

YADRO показала, как решала задачу, которая для мобильного устройства звучит почти как детекция, но должна работать быстрее: планшет KVADRA_T научили одновременно распознавать человека, документ, текст, QR- и штрихкоды в одном кадре. Итоговая multi-label модель дала средний F1-score 94% и уложилась в требования по скорости для запуска прямо на устройстве.
Почему не multiclass В компании объясняют, что обычная
multiclass-классификация здесь не подходила по самой природе задачи. На одном снимке могут одновременно находиться человек, паспорт, строки текста и код для сканирования, а классическая схема пытается выбрать только один доминирующий класс. Для умной галереи или сценариев верификации этого недостаточно: устройству нужно понимать состав сцены целиком, а не угадывать главный объект.
Запускать отдельную модель под каждый тип объекта тоже было плохим вариантом, потому что на планшете это быстро съедает бюджет по времени и ресурсам. Поэтому команда перешла к multi-label подходу, где каждый класс определяется независимо. Но и здесь не сработала простая схема с одной общей головой классификации: классы относятся к разным визуальным доменам, и общие признаки начинали мешать друг другу.
В первой версии с MobileNet V3 и одной головой модель показывала F1-score около 82%. После перехода к multi-head архитектуре с независимыми головами под разные типы объектов средняя метрика выросла до 94%, то есть сразу примерно на 12 процентных пунктов.
Как собрали датасет Самой трудной частью проекта оказался не выбор бэкбона, а данные.
Готового публичного multi-label датасета с нужной комбинацией классов у команды не было, поэтому выборку собирали почти с нуля из Roboflow, Kaggle и open source-репозиториев. Параллельно пришлось следить за лицензиями, чтобы данные можно было использовать в продукте. В итоге разработчица собрала и очистила массив на 193 тысячи изображений, где особенно сложно было сохранить баланс между связанными классами вроде «документ» и «текст».
Для автоматической разметки сначала тестировали обычные SOTA-детекторы, в основном модели семейства YOLO, но их качество для этой задачи оказалось недостаточным. После этого команда переключилась на vision-language модели и построила вокруг них пайплайн очистки и добора данных. Так удалось не только разметить изображения, но и убрать дубликаты, а затем точечно закрыть провалы в статистике по редким сочетаниям меток.
сравнили классические детекторы и VLM-модели для разных классов выбрали Qwen2.5-VL-72B-Instruct как основной разметчик, потому что он дал около 98% F1-score по классам удаляли дубликаты через pHash, а спорные случаи проверяли через SSIM добирали недостающие сочетания меток через промпт-фильтры вроде «есть текст, но нет документа?» Отдельная проблема возникла с классом «текст».
Из-за природы задачи модель легко цеплялась за узоры и линии, похожие на буквы, поэтому этот класс пришлось дополнительно ограничивать и балансировать. Такой подход позволил не просто набрать большой датасет, а сделать его пригодным для мобильной multi-label модели, где ошибка в распределении классов быстро превращается в ложные срабатывания на реальных снимках.
Что показали тесты По итогам серии экспериментов команда остановилась на MobileNetV3 Large.
Разрешение входного кадра тоже пришлось подбирать как компромисс между качеством и скоростью: вариант 1024 давал слишком тяжелый инференс, поэтому финальным стал формат 640, который сохранял близкие метрики, но заметно ускорял обработку. Гиперпараметры подбирали через Optuna, а сами эксперименты и диагностику обучения вели в ClearML. Это помогло отслеживать распределение градиентов, версии датасетов и качество отдельных запусков без ручного хаоса.
После обучения модель конвертировали в ONNX, а затем в TFLite и RKNN, чтобы она работала на мобильных и аппаратно ускоренных конфигурациях. На NPU планшета KVADRA_T инференс при 640x640 занимает около 20 мс, а полный путь обработки кадра укладывается примерно в 30 мс. Это лучше целевого лимита в 50 мс, который команда ставила в проекте.
По словам разработчицы, именно этот запас по времени теперь можно использовать для следующей итерации модели. Функцию multi-label классификации YADRO планирует добавить в следующий релиз kvadraOS.
«Запасные 20 мс я планирую использовать для усложнения модели».
Что это значит YADRO показала важную для edge-AI вещь: даже на
планшете можно добиться почти realtime-распознавания сложной сцены, если правильно собрать датасет, разделить головы классификации и не пытаться решать все одной универсальной моделью. Для рынка это еще один сигнал, что полезные CV-функции все чаще будут исполняться локально, а не в облаке.