Hugging Face Explica Fine-tuning de Embeddings Multimodais e Modelos Reranker
Hugging Face detalhou como treinar e fazer fine-tune de modelos de embedding e reranker multimodais em Sentence Transformers. Usando Visual Document…
Processado por IA de Hugging Face Blog; editado por Hamidun News
A Hugging Face demonstrou algo importante para a IA prática: modelos de busca multimodal não precisam necessariamente ser substituídos por versões maiores para alcançar melhorias notáveis de qualidade. Em um novo guia para Sentence Transformers, a equipe explicou como treinar e fine-tunar modelos de embedding e reranker que funcionam não apenas com texto, mas também com imagens, áudio e vídeo. A ideia principal é simples: se uma empresa já possui um checkpoint multimodal geral, ele pode ser adaptado para sua tarefa específica e render melhores resultados do que migrar para um modelo universal mais pesado.
Como exemplo prático, os autores enfrentaram a tarefa de Visual Document Retrieval, onde você precisa encontrar a página correta de um documento como screenshot baseado em uma consulta de texto. Este é um cenário onde o modelo deve entender não apenas palavras, mas também estrutura da página, tabelas, gráficos, legendas e layout visual. Para o experimento, usaram o modelo Qwen3-VL-Embedding-2B e o fine-tunaram em um subconjunto em inglês do dataset LlamaIndex.
O dataset original contém cerca de 500 mil pares multilingues consulta-imagem, e a versão preparada para o experimento reteve 53.512 exemplos em inglês. Usaram os primeiros 10 mil registros para treinamento e os próximos 300 para avaliação.
O pipeline em si difere pouco do treinamento de texto padrão em Sentence Transformers. O artigo enfatiza que o treinador, argumentos de treinamento e carregamento de dados permanecem os mesmos, enquanto diferenças-chave vêm da multimodalidade: o modelo é carregado junto com processor_kwargs e model_kwargs para controlar a qualidade do processamento de imagem, precisão computacional e implementação de attention; dados podem conter texto, imagens, áudio, vídeo ou dicionários com múltiplas modalidades; e o pré-processamento é realizado automaticamente através de model.preprocess().
Para a tarefa principal, o autor usou CachedMultipleNegativesRankingLoss com mini_batch_size=1 para trabalhar com um grande modelo VLM sem transbordamento de memória, enquanto preserva os benefícios de um grande tamanho de batch efetivo através de gradient caching. Ênfase particular é colocada em MatryoshkaLoss. Este wrapper em torno da função de loss base ensina o modelo a concentrar informações úteis nas dimensões iniciais do embedding.
Na prática, isso permite reduzir o tamanho do vetor durante o deployment sem uma queda acentuada na qualidade da busca. Para Qwen3-VL, o tamanho completo do embedding é 2048 dimensões, mas após tal treinamento o modelo mantém qualidade quase inalterada mesmo quando reduzido a 512 dimensões. Além disso, a configuração da versão final foi salva com truncate_dim=1024, significando que retorna vetores duas vezes mais compactos do que o tamanho completo por padrão e assim reduz requisitos de armazenamento e índice.
Os resultados parecem convincentes mesmo sem ressalvas longas. Após uma época, a versão fine-tunada alcançou NDCG@10 de 0.947 no conjunto de avaliação, enquanto o baseline Qwen3-VL-Embedding-2B mostrou 0.
888. Na tabela de comparação, este modelo de 2 bilhões de parâmetros superou não apenas a versão original, mas também sistemas maiores, incluindo Qwen3-VL-Embedding-8B com uma pontuação de 0.923 e várias outras soluções multimodal atuais.
Adicionalmente, o autor mostrou que em 512 dimensões o modelo fine-tunado alcança 0.945, permanecendo quase no pico, e mesmo em 64 dimensões retém mais de 92% da qualidade máxima. Para equipes que consideram custo de índice e latência, isto não é um detalhe mas um argumento bastante prático em favor desta abordagem.
No final, a Hugging Face nota especificamente que o mesmo stack permite também treinar modelos reranker multimodal. Isto usa CrossEncoderTrainer e funções de loss especializadas, e no exemplo any-to-any reranker, o modelo é treinado para decidir se uma imagem corresponde ao texto retornando uma pontuação binária. Isto é importante porque em sistemas de busca reais, retriever e reranker frequentemente trabalham em conjunto: o primeiro seleciona rapidamente candidatos, o segundo reclassifica precisamente os resultados.
O que isto significa: a era de "pegue o maior checkpoint multimodal e torça para o melhor" está terminando. A Hugging Face demonstra um caminho mais pragmático — pegue um modelo já disponível, fine-tune-o em seu domínio, mantenha compatibilidade com o pipeline familiar de Sentence Transformers, e se necessário, até mesmo reduza embeddings sem degradação notável. Para equipes construindo busca em documentos, catálogos, arquivos de mídia ou bases de conhecimento internas, este é um sinal direto: a qualidade da busca multimodal agora é cada vez mais determinada não pelo tamanho do modelo per se, mas pela qualidade do fine-tuning específico do domínio.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.