Modelos

Modelo de Visão-Linguagem (VLM)

Um Modelo de Visão-Linguagem (VLM) é um modelo de IA que processa conjuntamente entradas visuais (imagens ou vídeo) e texto de linguagem natural, permitindo tarefas como legendagem de imagens, resposta a perguntas visuais e compreensão de documentos.

Um Modelo de Visão-Linguagem (VLM) é uma arquitetura de IA multimodal que combina um componente de codificação visual com um modelo de linguagem para apoiar raciocínio bidirecional entre imagens e texto. VLMs podem descrever imagens em linguagem natural, responder perguntas sobre conteúdo visual, fundamentar referências textuais em regiões de imagem específicas, realizar reconhecimento óptico de caracteres em layouts complexos e — em variantes generativas — produzir imagens condicionadas a prompts de texto. O termo VLM convencionalmente enfatiza o emparelhamento visão-texto especificamente, distinguindo-o de sistemas multimodais mais amplos que lidam adicionalmente com áudio ou dados estruturados.

A arquitetura VLM dominante emparelha um codificador de visão pré-treinado — mais comumente um Vision Transformer (ViT) ou um codificador de imagem CLIP — com um modelo de linguagem apenas decodificador. Patches de imagem são codificados em embeddings densos, que uma camada de projeção (MLP ou cross-attention) mapeia para o espaço de embedding de token do modelo de linguagem. A sequência combinada resultante de tokens visuais e textuais é processada autorregressivamente. Este design, usado em LLaVA, PaliGemma (Google), InternVL (Shanghai AI Lab) e Qwen-VL (Alibaba), permite fine-tuning de instruções para transferir as capacidades conversacionais existentes do modelo de linguagem para o domínio visual. O pré-treinamento contrastivo estilo CLIP em centenas de milhões de pares imagem-texto tipicamente fornece o alinhamento cross-modal inicial.

VLMs são praticamente significativos porque uma grande parcela de informações do mundo real está incorporada em forma visual: faturas, figuras científicas, esquemas de engenharia, imagens de satélite e varreduras médicas. Um VLM pode analisar uma fotografia de fatura e extrair dados de item de linha, ler uma imagem de lâmina de patologia e sinalizar anomalias, ou interpretar uma planta baixa e responder perguntas espaciais sobre adjacência de cômodos — tarefas que anteriormente exigiam pipelines de visão computacional construídos especificamente para cada tipo de documento.

Em 2026, VLMs de alta capacidade estão disponíveis como APIs comerciais e como modelos de peso aberto. GPT-4V e GPT-4o, Gemini 2.0 e Claude com visão lideram em benchmarks como MMMU (Massive Multidiscipline Multimodal Understanding) e DocVQA. Checkpoints de peso aberto incluindo LLaVA-NeXT, PaliGemma 2 e InternVL2 são amplamente implantados em pesquisa e produção. Modelos de topo se aproximam do desempenho em nível humano em vários benchmarks de resposta a perguntas visuais; raciocínio espacial de grão fino, contagem precisa de objetos e leitura de texto muito pequeno ou degradado permanecem como áreas ativas de melhoria.

Exemplo

Uma empresa de logística roteia fotografias de envios recebidos por um VLM que lê rótulos escritos à mão, identifica regiões de embalagem danificadas e gera um registro JSON estruturado — substituindo uma etapa de inspeção manual que anteriormente exigia revisores humanos para cada pacote.

Termos relacionados

Modelo Multimodal Computer Use

← Glossário