Hugging Face Blog→ оригинал

Hugging Face تشرح الضبط الدقيق للتضمينات متعددة الوسائط ونماذج إعادة الترتيب

أوضحت Hugging Face كيفية تدريب وضبط نماذج التضمين وإعادة الترتيب متعددة الوسائط في Sentence Transformers. باستخدام Visual Document Retrieval كمثال، استخدمت الفر

Hugging Face تشرح الضبط الدقيق للتضمينات متعددة الوسائط ونماذج إعادة الترتيب
Источник: Hugging Face Blog. Коллаж: Hamidun News.

Hugging Face показала важную для прикладного AI вещь: мультимодальные модели поиска не обязательно менять на более крупные, чтобы получить заметный прирост качества. В новой инструкции по Sentence Transformers команда разобрала, как обучать и дообучать embedding- и reranker-модели, которые работают не только с текстом, но и с изображениями, аудио и видео. Главная идея простая: если у компании уже есть общий мультимодальный чекпойнт, его можно адаптировать под свою задачу и выиграть больше, чем от перехода на более тяжелую универсальную модель.

В качестве практического примера авторы взяли задачу Visual Document Retrieval, где по текстовому запросу нужно найти правильную страницу документа в виде скриншота. Это сценарий, в котором модель должна понимать не просто слова, а еще и структуру страницы, таблицы, графики, подписи и визуальную компоновку. Для эксперимента использовали модель Qwen3-VL-Embedding-2B и дообучили ее на англоязычном подмножестве датасета LlamaIndex.

Исходный набор содержит около 500 тысяч мультиязычных пар запрос-изображение, а в подготовленной версии для эксперимента оставили 53 512 английских примеров. Для тренировки использовали первые 10 тысяч записей, а для оценки — следующие 300. Сам пайплайн почти не отличается от обычного текстового обучения в Sentence Transformers.

В статье подчеркивается, что тренер, аргументы обучения и загрузка датасета остаются теми же, а ключевые отличия связаны с мультимодальностью: модель загружается вместе с processor_kwargs и model_kwargs, чтобы управлять качеством обработки изображений, точностью вычислений и attention-реализацией; данные могут содержать строки, картинки, аудио, видео или словари с несколькими модальностями; а препроцессинг выполняется автоматически через model.preprocess(). Для основной задачи автор использовал CachedMultipleNegativesRankingLoss с mini_batch_size=1, чтобы работать с крупной VLM-моделью без переполнения памяти, но при этом сохранить преимущества большого эффективного batch size за счет gradient caching.

Отдельный акцент сделан на MatryoshkaLoss. Эта обертка над базовой loss-функцией учит модель так, чтобы полезная информация концентрировалась в ранних измерениях эмбеддинга. На практике это позволяет сокращать размер вектора при внедрении без резкого падения качества поиска.

Для Qwen3-VL полный размер эмбеддинга составляет 2048 измерений, но после такого обучения модель почти не теряет в качестве даже при сокращении до 512 измерений. Более того, конфигурацию итоговой версии сохранили с truncate_dim=1024, то есть по умолчанию она выдает вдвое более компактные векторы по сравнению с полным размером и тем самым снижает требования к хранилищу и индексу. Результаты выглядят убедительно даже без длинных оговорок.

После одной эпохи дообученная версия набрала NDCG@10 на уровне 0.947 на оценочном наборе, тогда как базовая Qwen3-VL-Embedding-2B показала 0.888.

В таблице сравнения эта 2-миллиардная модель обошла не только исходную версию, но и более крупные системы, включая Qwen3-VL-Embedding-8B с результатом 0.923 и несколько других актуальных мультимодальных решений. Дополнительно автор показал, что при 512 измерениях дообученная модель держится на 0.

945, то есть остается почти на пике, а даже на 64 измерениях сохраняет более 92% максимального качества. Для команд, которые считают стоимость индекса и latency, это не деталь, а вполне прикладной аргумент в пользу такого подхода. В конце Hugging Face отдельно отмечает, что тот же стек позволяет обучать и мультимодальные reranker-модели.

Для этого используется CrossEncoderTrainer и специализированные loss-функции, а в примере с any-to-any reranker модель учат решать, соответствует ли изображение тексту, возвращая бинарную оценку. Это важно, потому что в реальных поисковых системах retriever и reranker часто работают в паре: первый быстро отбирает кандидатов, второй точно пересортировывает выдачу. Что это значит: эпоха «берем самый большой мультимодальный чекпойнт и надеемся на лучшее» заканчивается.

Hugging Face показывает более прагматичный путь — взять уже доступную модель, дообучить ее на своем домене, сохранить совместимость с привычным пайплайном Sentence Transformers и при необходимости еще и уменьшить эмбеддинги без заметной просадки. Для команд, которые строят поиск по документам, каталогам, медиаархивам или внутренним базам знаний, это прямой сигнал: качество мультимодального поиска теперь все сильнее определяется не размером модели как таковым, а качеством доменной настройки.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…