Hugging Face Blog→ original

IBM lanza Granite 4.0 3B Vision para extraer datos de documentos y gráficos

IBM lanzó Granite 4.0 3B Vision, un modelo multimodal compacto para documentos empresariales. Puede extraer tablas complejas, interpretar gráficos y…

Procesado por IA desde Hugging Face Blog; editado por Hamidun News
IBM lanza Granite 4.0 3B Vision para extraer datos de documentos y gráficos
Fuente: Hugging Face Blog. Collage: Hamidun News.
◐ Escuchar artículo

IBM y el equipo Granite han presentado Granite 4.0 3B Vision — un modelo multimodal compacto diseñado para trabajar con documentos corporativos. No ha sido construido para tareas visuales generales, sino específicamente para extraer datos estructurados de tablas, gráficos, formularios y PDF complejos.

Lo que el modelo puede hacer

El enfoque principal de IBM son escenarios prácticos donde los modelos multimodales comunes a menudo fallan debido a diseños complejos y la necesidad de vincular con precisión el texto al contexto visual. Granite 4.0 3B Vision puede leer tablas con filas y columnas multinivel, analizar diagramas en formatos legibles por máquina y encontrar pares semánticos clave-valor en formularios e facturas. Al mismo tiempo, el modelo mantiene el modo de descripción de imágenes: puede darle un documento o imagen y pedirle una explicación detallada de lo que contiene.

  • Extracción de tablas de imágenes de documentos, incluidas estructuras complejas
  • Conversión de gráficos en CSV, descripciones textuales o código
  • Búsqueda de pares semánticos clave-valor en formularios, facturas y cuestionarios
  • Funcionamiento autónomo o dentro de un pipeline con Docling

Cómo está construido Granite

IBM explica la calidad del modelo a través de tres soluciones técnicas. Primero está el conjunto de datos ChartNet para la comprensión de gráficos. Incluye 1,7 millones de ejemplos sintéticos y filtrados en 24 tipos de gráficos y 6 bibliotecas de visualización. Cada muestra tiene cinco representaciones relacionadas: código para la construcción, imagen, tabla de datos, descripción textual y un conjunto de pares de Q&A. Este etiquetado enseña al modelo no solo a describir una imagen, sino a recuperar la estructura de datos y el significado del gráfico.

La segunda solución es una variante de la arquitectura DeepStack Injection. IBM separa tipos de características visuales: las más abstractas se alimentan en capas tempranas para la comprensión semántica, mientras que las altamente detalladas van a capas posteriores para mantener la precisión en la vinculación de elementos a sus ubicaciones. La tercera solución es el empaquetamiento modular. Granite 4.0 3B Vision viene como un adaptador LoRA sobre Granite 4.0 Micro, por lo que la misma implementación puede manejar tanto solicitudes multimodales como tareas de texto común sin un modelo separado. Para pilas empresariales, esto importa más que simplemente aumentar el número de parámetros.

Resultados en puntos de referencia

En los puntos de referencia, el modelo funciona mejor que muchos competidores más grandes. En el conjunto de validación ChartNet, logró el mejor resultado en Chart2Summary — 86,4%, y se clasificó segundo en Chart2CSV con 62,1%, solo detrás de Qwen3.5-9B, que es más del doble del tamaño. En la extracción de tablas, Granite lidera en varias pruebas: 92,1 en PubTablesV2 recortado, 79,3 en PubTablesV2 de página completa, 64,0 en OmniDocBench y 88,1 en TableVQA. Para tareas KVP en VAREX, el modelo mostró 85,5% de coincidencia exacta en modo zero-shot.

IBM describe por separado dos modos de implementación. En la variante simple, el modelo funciona como una herramienta de extracción autónoma para imágenes individuales — por ejemplo, formularios, recibos o gráficos. En un escenario más grande, se conecta a Docling, que maneja OCR, análisis de diseño, detección de elementos visuales y segmentación de fragmentos. Por esto, Granite recibe tablas y figuras ya preparadas, y el pipeline reduce los costos computacionales e aumenta el rendimiento en grandes archivos de documentos.

Lo que significa

Para el mercado de IA empresarial, esto señala que la carrera no es solo sobre grandes modelos universales. IBM muestra un camino diferente: un VLM compacto que resuelve una tarea comercial estrecha pero costosa — convertir documentos, informes y formularios en datos estructurados. Si la calidad se confirma en implementaciones reales, estos modelos llegarán a sistemas de trabajo más rápido que las plataformas multimodales más pesadas.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…