IBM lança Granite 4.0 3B Vision para extrair dados de documentos e gráficos
IBM lançou Granite 4.0 3B Vision, um modelo multimodal compacto para documentos corporativos. Ele consegue extrair tabelas complexas, interpretar gráficos e…
Processado por IA de Hugging Face Blog; editado por Hamidun News
IBM e o time Granite apresentaram o Granite 4.0 3B Vision — um modelo multimodal compacto projetado para trabalhar com documentos corporativos. Não foi construído para tarefas visuais gerais, mas especificamente para extrair dados estruturados de tabelas, gráficos, formulários e PDFs complexos.
O que o modelo consegue fazer
O principal foco da IBM são cenários práticos onde modelos multimodais comuns frequentemente falham devido a layouts complexos e à necessidade de vincular com precisão texto ao contexto visual. O Granite 4.0 3B Vision consegue ler tabelas com linhas e colunas em múltiplos níveis, analisar diagramas em formatos legíveis por máquina e encontrar pares semânticos chave-valor em formulários e faturas. Ao mesmo tempo, o modelo mantém o modo de descrição de imagem: você pode dar a ele um documento ou imagem e pedir uma explicação detalhada do que contém.
- Extração de tabelas de imagens de documentos, incluindo estruturas complexas
- Conversão de gráficos em CSV, descrições textuais ou código
- Localização de pares semânticos chave-valor em formulários, faturas e questionários
- Funcionamento autônomo ou dentro de um pipeline com Docling
Como o Granite é construído
IBM explica a qualidade do modelo através de três soluções técnicas. Primeiro, o conjunto de dados ChartNet para compreensão de gráficos. Inclui 1,7 milhão de exemplos sintéticos e filtrados em 24 tipos de gráficos e 6 bibliotecas de visualização. Cada amostra tem cinco representações relacionadas: código para construção, imagem, tabela de dados, descrição textual e um conjunto de pares de Q&A. Essa anotação ensina o modelo não apenas a descrever uma imagem, mas a recuperar a estrutura de dados e o significado do gráfico.
A segunda solução é uma variante da arquitetura DeepStack Injection. IBM separa tipos de características visuais: as mais abstratas são alimentadas nas camadas iniciais para compreensão semântica, enquanto as altamente detalhadas vão às camadas posteriores para manter precisão na vinculação de elementos às suas localizações. A terceira solução é o empacotamento modular. O Granite 4.0 3B Vision vem como um adaptador LoRA sobre o Granite 4.0 Micro, portanto a mesma implementação pode lidar com solicitações multimodais e tarefas textuais comuns sem um modelo separado. Para pilhas empresariais, isso importa mais do que simplesmente aumentar o número de parâmetros.
Resultados em benchmarks
Em benchmarks, o modelo tem desempenho mais forte que muitos concorrentes maiores. No conjunto de validação ChartNet, alcançou o melhor resultado em Chart2Summary — 86,4%, e ficou em segundo lugar em Chart2CSV com 62,1%, atrás apenas do Qwen3.5-9B, que é mais do que o dobro do tamanho. Em extração de tabelas, Granite lidera em vários testes: 92,1 no PubTablesV2 recortado, 79,3 no PubTablesV2 de página completa, 64,0 no OmniDocBench e 88,1 no TableVQA. Para tarefas KVP no VAREX, o modelo mostrou 85,5% de correspondência exata em modo zero-shot.
IBM descreve separadamente dois modos de implementação. Na variante simples, o modelo funciona como uma ferramenta de extração autônoma para imagens individuais — por exemplo, formulários, recibos ou gráficos. Em um cenário maior, ele se conecta ao Docling, que trata de OCR, análise de layout, detecção de elementos visuais e segmentação de fragmentos. Por isso, Granite recebe tabelas e figuras já preparadas, e o pipeline reduz custos computacionais e aumenta a taxa de transferência em grandes arquivos de documentos.
O que significa
Para o mercado de IA empresarial, isto sinaliza que a corrida não é apenas sobre grandes modelos universais. IBM mostra um caminho diferente: um VLM compacto que resolve uma tarefa comercial estreita mas cara — transformar documentos, relatórios e formulários em dados estruturados. Se a qualidade for confirmada em implementações reais, esses modelos chegarão aos sistemas de trabalho mais rápido que plataformas multimodais mais pesadas.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.