Hugging Face Blog→ original

Hugging Face Explica Fine-tuning de Embeddings Multimodais e Modelos Reranker

Hugging Face detalhou como treinar e fazer fine-tune de modelos de embedding e reranker multimodais em Sentence Transformers. Usando Visual Document…

Processado por IA de Hugging Face Blog; editado por Hamidun News
Hugging Face Explica Fine-tuning de Embeddings Multimodais e Modelos Reranker
Fonte: Hugging Face Blog. Colagem: Hamidun News.
◐ Ouvir artigo

A Hugging Face demonstrou algo importante para a IA prática: modelos de busca multimodal não precisam necessariamente ser substituídos por versões maiores para alcançar melhorias notáveis de qualidade. Em um novo guia para Sentence Transformers, a equipe explicou como treinar e fine-tunar modelos de embedding e reranker que funcionam não apenas com texto, mas também com imagens, áudio e vídeo. A ideia principal é simples: se uma empresa já possui um checkpoint multimodal geral, ele pode ser adaptado para sua tarefa específica e render melhores resultados do que migrar para um modelo universal mais pesado.

Como exemplo prático, os autores enfrentaram a tarefa de Visual Document Retrieval, onde você precisa encontrar a página correta de um documento como screenshot baseado em uma consulta de texto. Este é um cenário onde o modelo deve entender não apenas palavras, mas também estrutura da página, tabelas, gráficos, legendas e layout visual. Para o experimento, usaram o modelo Qwen3-VL-Embedding-2B e o fine-tunaram em um subconjunto em inglês do dataset LlamaIndex.

O dataset original contém cerca de 500 mil pares multilingues consulta-imagem, e a versão preparada para o experimento reteve 53.512 exemplos em inglês. Usaram os primeiros 10 mil registros para treinamento e os próximos 300 para avaliação.

O pipeline em si difere pouco do treinamento de texto padrão em Sentence Transformers. O artigo enfatiza que o treinador, argumentos de treinamento e carregamento de dados permanecem os mesmos, enquanto diferenças-chave vêm da multimodalidade: o modelo é carregado junto com processor_kwargs e model_kwargs para controlar a qualidade do processamento de imagem, precisão computacional e implementação de attention; dados podem conter texto, imagens, áudio, vídeo ou dicionários com múltiplas modalidades; e o pré-processamento é realizado automaticamente através de model.preprocess().

Para a tarefa principal, o autor usou CachedMultipleNegativesRankingLoss com mini_batch_size=1 para trabalhar com um grande modelo VLM sem transbordamento de memória, enquanto preserva os benefícios de um grande tamanho de batch efetivo através de gradient caching. Ênfase particular é colocada em MatryoshkaLoss. Este wrapper em torno da função de loss base ensina o modelo a concentrar informações úteis nas dimensões iniciais do embedding.

Na prática, isso permite reduzir o tamanho do vetor durante o deployment sem uma queda acentuada na qualidade da busca. Para Qwen3-VL, o tamanho completo do embedding é 2048 dimensões, mas após tal treinamento o modelo mantém qualidade quase inalterada mesmo quando reduzido a 512 dimensões. Além disso, a configuração da versão final foi salva com truncate_dim=1024, significando que retorna vetores duas vezes mais compactos do que o tamanho completo por padrão e assim reduz requisitos de armazenamento e índice.

Os resultados parecem convincentes mesmo sem ressalvas longas. Após uma época, a versão fine-tunada alcançou NDCG@10 de 0.947 no conjunto de avaliação, enquanto o baseline Qwen3-VL-Embedding-2B mostrou 0.

888. Na tabela de comparação, este modelo de 2 bilhões de parâmetros superou não apenas a versão original, mas também sistemas maiores, incluindo Qwen3-VL-Embedding-8B com uma pontuação de 0.923 e várias outras soluções multimodal atuais.

Adicionalmente, o autor mostrou que em 512 dimensões o modelo fine-tunado alcança 0.945, permanecendo quase no pico, e mesmo em 64 dimensões retém mais de 92% da qualidade máxima. Para equipes que consideram custo de índice e latência, isto não é um detalhe mas um argumento bastante prático em favor desta abordagem.

No final, a Hugging Face nota especificamente que o mesmo stack permite também treinar modelos reranker multimodal. Isto usa CrossEncoderTrainer e funções de loss especializadas, e no exemplo any-to-any reranker, o modelo é treinado para decidir se uma imagem corresponde ao texto retornando uma pontuação binária. Isto é importante porque em sistemas de busca reais, retriever e reranker frequentemente trabalham em conjunto: o primeiro seleciona rapidamente candidatos, o segundo reclassifica precisamente os resultados.

O que isto significa: a era de "pegue o maior checkpoint multimodal e torça para o melhor" está terminando. A Hugging Face demonstra um caminho mais pragmático — pegue um modelo já disponível, fine-tune-o em seu domínio, mantenha compatibilidade com o pipeline familiar de Sentence Transformers, e se necessário, até mesmo reduza embeddings sem degradação notável. Para equipes construindo busca em documentos, catálogos, arquivos de mídia ou bases de conhecimento internas, este é um sinal direto: a qualidade da busca multimodal agora é cada vez mais determinada não pelo tamanho do modelo per se, mas pela qualidade do fine-tuning específico do domínio.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…