IBM releases Granite 4.0 3B Vision for extracting data from documents and charts
IBM has released Granite 4.0 3B Vision, a compact multimodal model for enterprise documents. It can extract complex tables, understand charts, and find key-valu
IBM и команда Granite представили Granite 4.0 3B Vision — компактную мультимодальную модель для работы с корпоративными документами. Она заточена не под общие визуальные задачи, а под извлечение структурированных данных из таблиц, графиков, форм и сложных PDF.
Что умеет модель
Главная ставка IBM — практические сценарии, где обычные мультимодальные модели часто ошибаются из-за сложной верстки и необходимости точно связывать текст с визуальным контекстом. Granite 4.0 3B Vision умеет читать таблицы с многоуровневыми строками и колонками, разбирать диаграммы в машиночитаемый формат и находить смысловые пары ключ-значение в формах и счетах. При этом модель сохраняет режим описания изображения: ей можно дать документ или картинку и попросить подробно объяснить, что на ней находится.
- Извлечение таблиц из документных изображений, включая сложные структуры Преобразование графиков в CSV, текстовое описание или код Поиск семантических пар ключ-значение в формах, счетах и анкетах * Работа как отдельно, так и внутри конвейера с Docling ## Как устроена Granite Качество модели IBM объясняет тремя техническими решениями. Первое — датасет ChartNet для понимания графиков. В него вошло 1,7 млн синтетических и отфильтрованных примеров по 24 типам графиков и 6 библиотекам визуализации. У каждого образца есть сразу пять связанных представлений: код построения, изображение, таблица с данными, текстовое описание и набор QA-пар. Такая разметка учит модель не просто описывать картинку, а восстанавливать структуру данных и смысл графика. Второе решение — вариант архитектуры DeepStack Injection. IBM разделяет типы визуальных признаков: более абстрактные подаются в ранние слои для понимания смысла, а высокодетальные — в поздние, чтобы не терять точность привязки к расположению элементов. Третье — модульная упаковка. Granite 4.0 3B Vision поставляется как LoRA-адаптер поверх Granite 4.0 Micro, поэтому одно и то же развертывание может обслуживать и мультимодальные запросы, и обычные текстовые задачи без отдельной модели. Для корпоративных стеков это важнее, чем просто рост числа параметров.
Результаты на тестах На бенчмарках модель выглядит сильнее многих более крупных конкурентов.
На проверочном наборе ChartNet она получила лучший результат по Chart2Summary — 86,4%, а по Chart2CSV заняла второе место с 62,1%, уступив только Qwen3.5-9B, которая больше чем вдвое крупнее. В извлечении таблиц Granite лидирует сразу на нескольких тестах: 92,1 на cropped PubTablesV2, 79,3 на full-page PubTablesV2, 64,0 на OmniDocBench и 88,1 на TableVQA.
Для задач KVP на VAREX модель показала 85,5% exact match в zero-shot режиме. Отдельно IBM описывает два режима внедрения. В простом варианте модель запускается как самостоятельный инструмент извлечения для отдельных изображений — например, форм, чеков или графиков.
В более крупном сценарии она подключается к Docling, который берет на себя OCR, layout parsing, поиск визуальных элементов и нарезку фрагментов. За счет этого Granite получает уже подготовленные таблицы и фигуры, а конвейер снижает вычислительные затраты и повышает пропускную способность на больших архивах документов.
Что это значит
Для рынка корпоративного AI это сигнал, что гонка идет не только за большими универсальными моделями. IBM показывает другой путь: компактный VLM, который решает узкую, но дорогую бизнес-задачу — превращает документы, отчеты и формы в структурированные данные. Если качество в реальных внедрениях подтвердится, такие модели будут быстрее доходить до рабочих систем, чем более тяжелые мультимодальные платформы.