IBM lance Granite 4.0 3B Vision pour extraire des données de documents et de graphiques
IBM a lancé Granite 4.0 3B Vision, un modèle multimodal compact pour les documents d'entreprise. Il peut extraire des tableaux complexes, comprendre des…
Traité par IA depuis Hugging Face Blog ; édité par Hamidun News
IBM et l'équipe Granite ont présenté Granite 4.0 3B Vision — un modèle multimodal compact conçu pour travailler avec des documents d'entreprise. Il n'a pas été construit pour des tâches visuelles générales, mais spécifiquement pour extraire des données structurées à partir de tableaux, graphiques, formulaires et PDF complexes.
Ce que le modèle peut faire
L'objectif principal d'IBM est les scénarios pratiques où les modèles multimodaux courants échouent souvent en raison de mises en page complexes et de la nécessité de lier avec précision le texte au contexte visuel. Granite 4.0 3B Vision peut lire des tableaux avec des lignes et des colonnes multi-niveaux, analyser des diagrammes en formats lisibles par machine et trouver des paires sémantiques clé-valeur dans les formulaires et les factures. En même temps, le modèle conserve le mode de description d'image : vous pouvez lui donner un document ou une image et demander une explication détaillée de ce qu'il contient.
- Extraction de tableaux à partir d'images de documents, y compris les structures complexes
- Conversion de graphiques en CSV, descriptions textuelles ou code
- Recherche de paires sémantiques clé-valeur dans les formulaires, factures et questionnaires
- Fonctionnement autonome ou au sein d'un pipeline avec Docling
Comment Granite est construit
IBM explique la qualité du modèle par trois solutions techniques. La première est l'ensemble de données ChartNet pour la compréhension des graphiques. Il comprend 1,7 million d'exemples synthétiques et filtrés dans 24 types de graphiques et 6 bibliothèques de visualisation. Chaque échantillon a cinq représentations liées : code de construction, image, tableau de données, description textuelle et un ensemble de paires Q&A. Cette annotation enseigne au modèle non seulement de décrire une image, mais de récupérer la structure des données et le sens du graphique.
La deuxième solution est une variante de l'architecture DeepStack Injection. IBM sépare les types de caractéristiques visuelles : les plus abstraites sont alimentées aux couches initiales pour la compréhension sémantique, tandis que les très détaillées vont aux couches ultérieures pour maintenir la précision dans la liaison des éléments à leurs emplacements. La troisième solution est l'empaquetage modulaire. Granite 4.0 3B Vision est fourni en tant qu'adaptateur LoRA au-dessus de Granite 4.0 Micro, donc le même déploiement peut gérer à la fois les demandes multimodales et les tâches de texte ordinaire sans modèle séparé. Pour les piles d'entreprise, cela importe plus que simplement augmenter le nombre de paramètres.
Résultats sur les benchmarks
Sur les benchmarks, le modèle fonctionne mieux que de nombreux concurrents plus importants. Sur l'ensemble de validation ChartNet, il a obtenu le meilleur résultat sur Chart2Summary — 86,4%, et s'est classé deuxième sur Chart2CSV avec 62,1%, derrière seulement Qwen3.5-9B, qui est plus que le double de la taille. Dans l'extraction de tableaux, Granite est en tête sur plusieurs tests : 92,1 sur PubTablesV2 recadré, 79,3 sur PubTablesV2 page complète, 64,0 sur OmniDocBench et 88,1 sur TableVQA. Pour les tâches KVP sur VAREX, le modèle a montré 85,5% de correspondance exacte en mode zero-shot.
IBM décrit séparément deux modes de déploiement. Dans la variante simple, le modèle s'exécute comme un outil d'extraction autonome pour des images individuelles — par exemple, des formulaires, des reçus ou des graphiques. Dans un scénario plus grand, il se connecte à Docling, qui gère l'OCR, l'analyse de mise en page, la détection d'éléments visuels et la segmentation de fragments. Pour cette raison, Granite reçoit des tableaux et des figures déjà préparés, et le pipeline réduit les coûts de calcul et augmente le débit sur de grandes archives de documents.
Ce que cela signifie
Pour le marché de l'IA d'entreprise, cela signale que la course ne concerne pas seulement les grands modèles universels. IBM montre une voie différente : un VLM compact qui résout une tâche commerciale étroite mais coûteuse — transformer les documents, rapports et formulaires en données structurées. Si la qualité se confirme dans les implémentations réelles, ces modèles atteindront les systèmes de travail plus rapidement que les plates-formes multimodales plus lourdes.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.