Hugging Face Blog→ original

IBM lança Granite 4.0 3B Vision para extrair dados de documentos e gráficos

IBM lançou Granite 4.0 3B Vision, um modelo multimodal compacto para documentos corporativos. Ele consegue extrair tabelas complexas, interpretar gráficos e…

Processado por IA de Hugging Face Blog; editado por Hamidun News
IBM lança Granite 4.0 3B Vision para extrair dados de documentos e gráficos
Fonte: Hugging Face Blog. Colagem: Hamidun News.
◐ Ouvir artigo

IBM e o time Granite apresentaram o Granite 4.0 3B Vision — um modelo multimodal compacto projetado para trabalhar com documentos corporativos. Não foi construído para tarefas visuais gerais, mas especificamente para extrair dados estruturados de tabelas, gráficos, formulários e PDFs complexos.

O que o modelo consegue fazer

O principal foco da IBM são cenários práticos onde modelos multimodais comuns frequentemente falham devido a layouts complexos e à necessidade de vincular com precisão texto ao contexto visual. O Granite 4.0 3B Vision consegue ler tabelas com linhas e colunas em múltiplos níveis, analisar diagramas em formatos legíveis por máquina e encontrar pares semânticos chave-valor em formulários e faturas. Ao mesmo tempo, o modelo mantém o modo de descrição de imagem: você pode dar a ele um documento ou imagem e pedir uma explicação detalhada do que contém.

  • Extração de tabelas de imagens de documentos, incluindo estruturas complexas
  • Conversão de gráficos em CSV, descrições textuais ou código
  • Localização de pares semânticos chave-valor em formulários, faturas e questionários
  • Funcionamento autônomo ou dentro de um pipeline com Docling

Como o Granite é construído

IBM explica a qualidade do modelo através de três soluções técnicas. Primeiro, o conjunto de dados ChartNet para compreensão de gráficos. Inclui 1,7 milhão de exemplos sintéticos e filtrados em 24 tipos de gráficos e 6 bibliotecas de visualização. Cada amostra tem cinco representações relacionadas: código para construção, imagem, tabela de dados, descrição textual e um conjunto de pares de Q&A. Essa anotação ensina o modelo não apenas a descrever uma imagem, mas a recuperar a estrutura de dados e o significado do gráfico.

A segunda solução é uma variante da arquitetura DeepStack Injection. IBM separa tipos de características visuais: as mais abstratas são alimentadas nas camadas iniciais para compreensão semântica, enquanto as altamente detalhadas vão às camadas posteriores para manter precisão na vinculação de elementos às suas localizações. A terceira solução é o empacotamento modular. O Granite 4.0 3B Vision vem como um adaptador LoRA sobre o Granite 4.0 Micro, portanto a mesma implementação pode lidar com solicitações multimodais e tarefas textuais comuns sem um modelo separado. Para pilhas empresariais, isso importa mais do que simplesmente aumentar o número de parâmetros.

Resultados em benchmarks

Em benchmarks, o modelo tem desempenho mais forte que muitos concorrentes maiores. No conjunto de validação ChartNet, alcançou o melhor resultado em Chart2Summary — 86,4%, e ficou em segundo lugar em Chart2CSV com 62,1%, atrás apenas do Qwen3.5-9B, que é mais do que o dobro do tamanho. Em extração de tabelas, Granite lidera em vários testes: 92,1 no PubTablesV2 recortado, 79,3 no PubTablesV2 de página completa, 64,0 no OmniDocBench e 88,1 no TableVQA. Para tarefas KVP no VAREX, o modelo mostrou 85,5% de correspondência exata em modo zero-shot.

IBM descreve separadamente dois modos de implementação. Na variante simples, o modelo funciona como uma ferramenta de extração autônoma para imagens individuais — por exemplo, formulários, recibos ou gráficos. Em um cenário maior, ele se conecta ao Docling, que trata de OCR, análise de layout, detecção de elementos visuais e segmentação de fragmentos. Por isso, Granite recebe tabelas e figuras já preparadas, e o pipeline reduz custos computacionais e aumenta a taxa de transferência em grandes arquivos de documentos.

O que significa

Para o mercado de IA empresarial, isto sinaliza que a corrida não é apenas sobre grandes modelos universais. IBM mostra um caminho diferente: um VLM compacto que resolve uma tarefa comercial estreita mas cara — transformar documentos, relatórios e formulários em dados estruturados. Se a qualidade for confirmada em implementações reais, esses modelos chegarão aos sistemas de trabalho mais rápido que plataformas multimodais mais pesadas.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…