Zhipu AI lanza GLM-OCR, un modelo OCR compacto de 0,9 mil millones de parámetros para documentos
Zhipu AI presentó GLM-OCR, un modelo OCR multimodal compacto de 0,9 mil millones de parámetros para analizar documentos reales. El sistema puede trabajar con…
Procesado por IA desde MarkTechPost; editado por Hamidun News
Zhipu AI junto con investigadores de la Universidad de Tsinghua presentó GLM-OCR — un modelo OCR multimodal con 0,9 mil millones de parámetros para analizar documentos reales. La apuesta se hizo no por el tamaño máximo, sino por el equilibrio entre calidad, velocidad y costo de inferencia.
Por qué OCR es difícil
El OCR común ha funcionado bien durante mucho tiempo con texto limpio en escaneos planos, pero los documentos reales son mucho más complicados. Mezclan tablas, fórmulas, sellos, campos manuscritos, bloques de código, columnas y orden de lectura no estándar. Precisamente en estos casos es donde fallan los pipelines clásicos: pueden reconocer caracteres, pero pierden la estructura de la página y el significado de las relaciones entre bloques.
Los modelos multimodales grandes mejoran la comprensión del documento en su conjunto, pero tienen otro problema: precio y velocidad. Si un modelo lee una página como un sistema visual-lingüístico común y genera una respuesta un token a la vez, la inferencia se vuelve cara y lenta. Para producción, donde necesitas procesar facturas, contratos, reportes y formularios en flujo, esto ya es una limitación de ingeniería, no una trivialidad académica.
Cómo funciona GLM-OCR
En el núcleo de GLM-OCR hay una combinación de un codificador visual CogViT con 0,4 mil millones de parámetros, un conector cross-modal ligero y un decodificador de lenguaje GLM con 0,5 mil millones de parámetros. La idea técnica principal es Multi-Token Prediction. En lugar de predecir estrictamente un token por paso, el modelo fue entrenado para generar diez tokens, y en la inferencia genera en promedio 5,2 tokens por paso.
Según los autores, esto proporciona aproximadamente un 50% de mejora en el throughput sin crecimiento acentuado de memoria gracias a un esquema de compartición de parámetros. A nivel de sistema, el modelo tampoco funciona como un modo plano "leer toda la página de una vez". Primero PP-DocLayout-V3 marca el documento en regiones semánticas, y luego GLM-OCR procesa regiones individuales en paralelo.
Para análisis de documentos, se generan Markdown y JSON estructurados en la salida, y para KIE, es decir, extracción de campos clave, la imagen completa del documento se proporciona junto con un prompt y el modelo genera inmediatamente JSON según un esquema dado.
- Analiza páginas por regiones antes del reconocimiento
- Procesa bloques encontrados en paralelo
- Devuelve Markdown y JSON estructurados
- Soporta por separado modo KIE para extracción de campos
- Adecuado para API en nube y ejecución local
Qué mostraron las pruebas
En benchmarks públicos, el modelo muestra resultados fuertes, pero sin liderazgo universal. GLM-OCR obtuvo 94,6 en OmniDocBench v1.5, 94,0 en OCRBench para reconocimiento de texto, 96,5 en UniMERNet para fórmulas y 86,0 en TEDS_TEST para tablas.
En tareas de extracción de campos, el modelo mostró 93,7 en Nanonets-KIE y 86,1 en Handwritten-KIE. Este es un buen conjunto de números para un modelo de este tamaño, especialmente cuando se compara con sistemas multimodales significativamente más pesados. Al mismo tiempo, los propios autores dejan advertencias importantes.
En PubTabNet GLM-OCR no es el primero: MinerU 2.5 tiene 88,4 contra 85,2. Y en la columna de modelos de referencia Gemini-3-Pro muestra resultados más altos en KIE.
Es decir, la formulación correcta aquí es: GLM-OCR está entre los líderes entre soluciones abiertas y compactas, pero no cubre absolutamente todos los escenarios mejor que todos los demás. Desde una perspectiva práctica, el proyecto no parece ser puramente de laboratorio. Los autores declaran soporte para vLLM, SGLang y Ollama, así como fine-tuning a través de LLaMA-Factory.
El informe indica un throughput de 0,67 imágenes por segundo y 1,86 páginas PDF por segundo en su configuración de prueba. Para modo en nube, una API MaaS está disponible al precio de 0,2 yuan por millón de tokens: según los cálculos del equipo, un yuan es suficiente para aproximadamente 2000 escaneos A4 o 200 PDF simples de diez páginas.
Qué significa esto
El mercado de IA para documentos se está desplazando notablemente de modelos universales gigantes a sistemas especializados más compactos, donde no solo importa la calidad, sino también el costo predecible. Para el negocio, esta es una buena señal: las tareas de análisis de facturas, contratos, artículos científicos y formularios internos se están volviendo más fáciles de ejecutar en producción sin gastos excesivos en hardware e inferencia.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.