IBM lança Granite 4.0 3B Vision para extrair dados de documentos e gráficos

Q: Qual é a fonte?

Publicado originalmente em Hugging Face Blog. O Hamidun News processa e adapta os materiais com IA.

Q: Quando foi publicado?

2 de mai. de 2026. Tempo de leitura: 3 min.

IBM lançou Granite 4.0 3B Vision, um modelo multimodal compacto para documentos corporativos. Ele consegue extrair tabelas complexas, interpretar gráficos e…

Redação da Hamidun News

Monitoramento de AI · Hugging Face Blog

2 de mai. de 2026· 2 min

Processado por IA de Hugging Face Blog; editado por Hamidun News

IBM lança Granite 4.0 3B Vision para extrair dados de documentos e gráficos — Fonte: Hugging Face Blog. Colagem: Hamidun News.

◐ Ouvir artigo

IBM e o time Granite apresentaram o Granite 4.0 3B Vision — um modelo multimodal compacto projetado para trabalhar com documentos corporativos. Não foi construído para tarefas visuais gerais, mas especificamente para extrair dados estruturados de tabelas, gráficos, formulários e PDFs complexos.

O que o modelo consegue fazer

O principal foco da IBM são cenários práticos onde modelos multimodais comuns frequentemente falham devido a layouts complexos e à necessidade de vincular com precisão texto ao contexto visual. O Granite 4.0 3B Vision consegue ler tabelas com linhas e colunas em múltiplos níveis, analisar diagramas em formatos legíveis por máquina e encontrar pares semânticos chave-valor em formulários e faturas. Ao mesmo tempo, o modelo mantém o modo de descrição de imagem: você pode dar a ele um documento ou imagem e pedir uma explicação detalhada do que contém.

Extração de tabelas de imagens de documentos, incluindo estruturas complexas
Conversão de gráficos em CSV, descrições textuais ou código
Localização de pares semânticos chave-valor em formulários, faturas e questionários
Funcionamento autônomo ou dentro de um pipeline com Docling

Como o Granite é construído

IBM explica a qualidade do modelo através de três soluções técnicas. Primeiro, o conjunto de dados ChartNet para compreensão de gráficos. Inclui 1,7 milhão de exemplos sintéticos e filtrados em 24 tipos de gráficos e 6 bibliotecas de visualização. Cada amostra tem cinco representações relacionadas: código para construção, imagem, tabela de dados, descrição textual e um conjunto de pares de Q&A. Essa anotação ensina o modelo não apenas a descrever uma imagem, mas a recuperar a estrutura de dados e o significado do gráfico.

A segunda solução é uma variante da arquitetura DeepStack Injection. IBM separa tipos de características visuais: as mais abstratas são alimentadas nas camadas iniciais para compreensão semântica, enquanto as altamente detalhadas vão às camadas posteriores para manter precisão na vinculação de elementos às suas localizações. A terceira solução é o empacotamento modular. O Granite 4.0 3B Vision vem como um adaptador LoRA sobre o Granite 4.0 Micro, portanto a mesma implementação pode lidar com solicitações multimodais e tarefas textuais comuns sem um modelo separado. Para pilhas empresariais, isso importa mais do que simplesmente aumentar o número de parâmetros.

Resultados em benchmarks

Em benchmarks, o modelo tem desempenho mais forte que muitos concorrentes maiores. No conjunto de validação ChartNet, alcançou o melhor resultado em Chart2Summary — 86,4%, e ficou em segundo lugar em Chart2CSV com 62,1%, atrás apenas do Qwen3.5-9B, que é mais do que o dobro do tamanho. Em extração de tabelas, Granite lidera em vários testes: 92,1 no PubTablesV2 recortado, 79,3 no PubTablesV2 de página completa, 64,0 no OmniDocBench e 88,1 no TableVQA. Para tarefas KVP no VAREX, o modelo mostrou 85,5% de correspondência exata em modo zero-shot.

IBM descreve separadamente dois modos de implementação. Na variante simples, o modelo funciona como uma ferramenta de extração autônoma para imagens individuais — por exemplo, formulários, recibos ou gráficos. Em um cenário maior, ele se conecta ao Docling, que trata de OCR, análise de layout, detecção de elementos visuais e segmentação de fragmentos. Por isso, Granite recebe tabelas e figuras já preparadas, e o pipeline reduz custos computacionais e aumenta a taxa de transferência em grandes arquivos de documentos.

O que significa

Para o mercado de IA empresarial, isto sinaliza que a corrida não é apenas sobre grandes modelos universais. IBM mostra um caminho diferente: um VLM compacto que resolve uma tarefa comercial estreita mas cara — transformar documentos, relatórios e formulários em dados estruturados. Se a qualidade for confirmada em implementações reais, esses modelos chegarão aos sistemas de trabalho mais rápido que plataformas multimodais mais pesadas.

Hamidun News

Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Canal do Telegram RSS hamidun.com

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

🎓 Academy — 7 dias grátis Consultoria grátis