MarkTechPost→ original

Zhipu AI lanza GLM-OCR, un modelo OCR compacto de 0,9 mil millones de parámetros para documentos

Zhipu AI presentó GLM-OCR, un modelo OCR multimodal compacto de 0,9 mil millones de parámetros para analizar documentos reales. El sistema puede trabajar con…

Procesado por IA desde MarkTechPost; editado por Hamidun News
Zhipu AI lanza GLM-OCR, un modelo OCR compacto de 0,9 mil millones de parámetros para documentos
Fuente: MarkTechPost. Collage: Hamidun News.
◐ Escuchar artículo

Zhipu AI junto con investigadores de la Universidad de Tsinghua presentó GLM-OCR — un modelo OCR multimodal con 0,9 mil millones de parámetros para analizar documentos reales. La apuesta se hizo no por el tamaño máximo, sino por el equilibrio entre calidad, velocidad y costo de inferencia.

Por qué OCR es difícil

El OCR común ha funcionado bien durante mucho tiempo con texto limpio en escaneos planos, pero los documentos reales son mucho más complicados. Mezclan tablas, fórmulas, sellos, campos manuscritos, bloques de código, columnas y orden de lectura no estándar. Precisamente en estos casos es donde fallan los pipelines clásicos: pueden reconocer caracteres, pero pierden la estructura de la página y el significado de las relaciones entre bloques.

Los modelos multimodales grandes mejoran la comprensión del documento en su conjunto, pero tienen otro problema: precio y velocidad. Si un modelo lee una página como un sistema visual-lingüístico común y genera una respuesta un token a la vez, la inferencia se vuelve cara y lenta. Para producción, donde necesitas procesar facturas, contratos, reportes y formularios en flujo, esto ya es una limitación de ingeniería, no una trivialidad académica.

Cómo funciona GLM-OCR

En el núcleo de GLM-OCR hay una combinación de un codificador visual CogViT con 0,4 mil millones de parámetros, un conector cross-modal ligero y un decodificador de lenguaje GLM con 0,5 mil millones de parámetros. La idea técnica principal es Multi-Token Prediction. En lugar de predecir estrictamente un token por paso, el modelo fue entrenado para generar diez tokens, y en la inferencia genera en promedio 5,2 tokens por paso.

Según los autores, esto proporciona aproximadamente un 50% de mejora en el throughput sin crecimiento acentuado de memoria gracias a un esquema de compartición de parámetros. A nivel de sistema, el modelo tampoco funciona como un modo plano "leer toda la página de una vez". Primero PP-DocLayout-V3 marca el documento en regiones semánticas, y luego GLM-OCR procesa regiones individuales en paralelo.

Para análisis de documentos, se generan Markdown y JSON estructurados en la salida, y para KIE, es decir, extracción de campos clave, la imagen completa del documento se proporciona junto con un prompt y el modelo genera inmediatamente JSON según un esquema dado.

  • Analiza páginas por regiones antes del reconocimiento
  • Procesa bloques encontrados en paralelo
  • Devuelve Markdown y JSON estructurados
  • Soporta por separado modo KIE para extracción de campos
  • Adecuado para API en nube y ejecución local

Qué mostraron las pruebas

En benchmarks públicos, el modelo muestra resultados fuertes, pero sin liderazgo universal. GLM-OCR obtuvo 94,6 en OmniDocBench v1.5, 94,0 en OCRBench para reconocimiento de texto, 96,5 en UniMERNet para fórmulas y 86,0 en TEDS_TEST para tablas.

En tareas de extracción de campos, el modelo mostró 93,7 en Nanonets-KIE y 86,1 en Handwritten-KIE. Este es un buen conjunto de números para un modelo de este tamaño, especialmente cuando se compara con sistemas multimodales significativamente más pesados. Al mismo tiempo, los propios autores dejan advertencias importantes.

En PubTabNet GLM-OCR no es el primero: MinerU 2.5 tiene 88,4 contra 85,2. Y en la columna de modelos de referencia Gemini-3-Pro muestra resultados más altos en KIE.

Es decir, la formulación correcta aquí es: GLM-OCR está entre los líderes entre soluciones abiertas y compactas, pero no cubre absolutamente todos los escenarios mejor que todos los demás. Desde una perspectiva práctica, el proyecto no parece ser puramente de laboratorio. Los autores declaran soporte para vLLM, SGLang y Ollama, así como fine-tuning a través de LLaMA-Factory.

El informe indica un throughput de 0,67 imágenes por segundo y 1,86 páginas PDF por segundo en su configuración de prueba. Para modo en nube, una API MaaS está disponible al precio de 0,2 yuan por millón de tokens: según los cálculos del equipo, un yuan es suficiente para aproximadamente 2000 escaneos A4 o 200 PDF simples de diez páginas.

Qué significa esto

El mercado de IA para documentos se está desplazando notablemente de modelos universales gigantes a sistemas especializados más compactos, donde no solo importa la calidad, sino también el costo predecible. Para el negocio, esta es una buena señal: las tareas de análisis de facturas, contratos, artículos científicos y formularios internos se están volviendo más fáciles de ejecutar en producción sin gastos excesivos en hardware e inferencia.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…