Hugging Face объяснила дообучение мультимодальных эмбеддингов и reranker-моделей
Hugging Face подробно описала, как обучать и дообучать мультимодальные embedding- и reranker-модели в Sentence Transformers. На примере Visual Document Retrieva

Hugging Face показала важную для прикладного AI вещь: мультимодальные модели поиска не обязательно менять на более крупные, чтобы получить заметный прирост качества. В новой инструкции по Sentence Transformers команда разобрала, как обучать и дообучать embedding- и reranker-модели, которые работают не только с текстом, но и с изображениями, аудио и видео. Главная идея простая: если у компании уже есть общий мультимодальный чекпойнт, его можно адаптировать под свою задачу и выиграть больше, чем от перехода на более тяжелую универсальную модель.
В качестве практического примера авторы взяли задачу Visual Document Retrieval, где по текстовому запросу нужно найти правильную страницу документа в виде скриншота. Это сценарий, в котором модель должна понимать не просто слова, а еще и структуру страницы, таблицы, графики, подписи и визуальную компоновку. Для эксперимента использовали модель Qwen3-VL-Embedding-2B и дообучили ее на англоязычном подмножестве датасета LlamaIndex.
Исходный набор содержит около 500 тысяч мультиязычных пар запрос-изображение, а в подготовленной версии для эксперимента оставили 53 512 английских примеров. Для тренировки использовали первые 10 тысяч записей, а для оценки — следующие 300. Сам пайплайн почти не отличается от обычного текстового обучения в Sentence Transformers.
В статье подчеркивается, что тренер, аргументы обучения и загрузка датасета остаются теми же, а ключевые отличия связаны с мультимодальностью: модель загружается вместе с processor_kwargs и model_kwargs, чтобы управлять качеством обработки изображений, точностью вычислений и attention-реализацией; данные могут содержать строки, картинки, аудио, видео или словари с несколькими модальностями; а препроцессинг выполняется автоматически через model.preprocess(). Для основной задачи автор использовал CachedMultipleNegativesRankingLoss с mini_batch_size=1, чтобы работать с крупной VLM-моделью без переполнения памяти, но при этом сохранить преимущества большого эффективного batch size за счет gradient caching.
Отдельный акцент сделан на MatryoshkaLoss. Эта обертка над базовой loss-функцией учит модель так, чтобы полезная информация концентрировалась в ранних измерениях эмбеддинга. На практике это позволяет сокращать размер вектора при внедрении без резкого падения качества поиска.
Для Qwen3-VL полный размер эмбеддинга составляет 2048 измерений, но после такого обучения модель почти не теряет в качестве даже при сокращении до 512 измерений. Более того, конфигурацию итоговой версии сохранили с truncate_dim=1024, то есть по умолчанию она выдает вдвое более компактные векторы по сравнению с полным размером и тем самым снижает требования к хранилищу и индексу. Результаты выглядят убедительно даже без длинных оговорок.
После одной эпохи дообученная версия набрала NDCG@10 на уровне 0.947 на оценочном наборе, тогда как базовая Qwen3-VL-Embedding-2B показала 0.888.
В таблице сравнения эта 2-миллиардная модель обошла не только исходную версию, но и более крупные системы, включая Qwen3-VL-Embedding-8B с результатом 0.923 и несколько других актуальных мультимодальных решений. Дополнительно автор показал, что при 512 измерениях дообученная модель держится на 0.
945, то есть остается почти на пике, а даже на 64 измерениях сохраняет более 92% максимального качества. Для команд, которые считают стоимость индекса и latency, это не деталь, а вполне прикладной аргумент в пользу такого подхода. В конце Hugging Face отдельно отмечает, что тот же стек позволяет обучать и мультимодальные reranker-модели.
Для этого используется CrossEncoderTrainer и специализированные loss-функции, а в примере с any-to-any reranker модель учат решать, соответствует ли изображение тексту, возвращая бинарную оценку. Это важно, потому что в реальных поисковых системах retriever и reranker часто работают в паре: первый быстро отбирает кандидатов, второй точно пересортировывает выдачу. Что это значит: эпоха «берем самый большой мультимодальный чекпойнт и надеемся на лучшее» заканчивается.
Hugging Face показывает более прагматичный путь — взять уже доступную модель, дообучить ее на своем домене, сохранить совместимость с привычным пайплайном Sentence Transformers и при необходимости еще и уменьшить эмбеддинги без заметной просадки. Для команд, которые строят поиск по документам, каталогам, медиаархивам или внутренним базам знаний, это прямой сигнал: качество мультимодального поиска теперь все сильнее определяется не размером модели как таковым, а качеством доменной настройки.