Zhipu AI lance GLM-OCR, un modèle OCR compact de 0,9 milliard de paramètres pour les documents
Zhipu AI a présenté GLM-OCR, un modèle OCR multimodal compact de 0,9 milliard de paramètres pour l'analyse de documents réels. Le système sait gérer les…
Traité par IA depuis MarkTechPost ; édité par Hamidun News
Zhipu AI, en collaboration avec des chercheurs de l'Université de Tsinghua, a présenté GLM-OCR — un modèle OCR multimodal avec 0,9 milliard de paramètres pour analyser des documents du monde réel. Le pari a été fait non pas sur la taille maximale, mais sur l'équilibre entre qualité, vitesse et coût d'inférence.
Pourquoi l'OCR est difficile
L'OCR ordinaire fonctionne bien depuis longtemps avec du texte propre sur des scans plats, mais les documents réels sont beaucoup plus compliqués. Ils mélangent tableaux, formules, timbres, champs manuscrits, blocs de code, colonnes et ordre de lecture non standard. C'est précisément sur ces cas que les pipelines classiques échouent : ils peuvent reconnaître des caractères, mais perdent la structure de la page et le sens des relations entre les blocs.
Les grands modèles multimodaux améliorent la compréhension du document dans son ensemble, mais ils ont un autre problème : le prix et la vitesse. Si un modèle lit une page comme un système visuel-linguistique ordinaire et génère une réponse un token à la fois, l'inférence devient chère et lente. Pour la production, où vous devez traiter des factures, des contrats, des rapports et des formulaires en continu, c'est déjà une limitation d'ingénierie, pas une bagatelle académique.
Comment fonctionne GLM-OCR
Au cœur de GLM-OCR se trouve une combinaison d'un encodeur visuel CogViT avec 0,4 milliard de paramètres, un connecteur cross-modal léger et un décodeur de langage GLM avec 0,5 milliard de paramètres. L'idée technique principale est Multi-Token Prediction. Au lieu de prédire strictement un token par étape, le modèle a été entraîné pour générer dix tokens, et lors de l'inférence, il génère en moyenne 5,2 tokens par étape.
Selon les auteurs, cela offre environ 50% d'amélioration du débit sans croissance prononcée de la mémoire grâce à un schéma de partage de paramètres. Au niveau du système, le modèle ne fonctionne pas non plus en mode plat « lire toute la page à la fois ». D'abord PP-DocLayout-V3 marque le document en régions sémantiques, puis GLM-OCR traite les régions individuelles en parallèle.
Pour l'analyse de documents, Markdown et JSON structurés sont générés en sortie, et pour KIE, c'est-à-dire l'extraction de champs clés, l'image complète du document est fournie avec une invite et le modèle génère immédiatement JSON selon un schéma donné.
- Analyse les pages par régions avant la reconnaissance
- Traite les blocs trouvés en parallèle
- Retourne Markdown et JSON structurés
- Supporte séparément le mode KIE pour l'extraction de champs
- Convient pour l'API cloud et l'exécution locale
Ce que les tests ont montré
Sur les benchmarks publics, le modèle affiche des résultats forts, mais sans leadership universel. GLM-OCR a obtenu 94,6 sur OmniDocBench v1.5, 94,0 sur OCRBench pour la reconnaissance de texte, 96,5 sur UniMERNet pour les formules et 86,0 sur TEDS_TEST pour les tableaux.
Dans les tâches d'extraction de champs, le modèle a obtenu 93,7 sur Nanonets-KIE et 86,1 sur Handwritten-KIE. C'est un bon ensemble de chiffres pour un modèle de cette taille, surtout comparé à des systèmes multimodaux nettement plus lourds. En même temps, les auteurs eux-mêmes laissent des réserves importantes.
Sur PubTabNet GLM-OCR n'est pas le premier : MinerU 2.5 a 88,4 contre 85,2. Et dans la colonne des modèles de référence Gemini-3-Pro affiche des résultats plus élevés en KIE.
C'est-à-dire que la formulation correcte ici est : GLM-OCR figure parmi les leaders parmi les solutions ouvertes et compactes, mais ne couvre pas absolument tous les scénarios mieux que tout le monde. D'un point de vue pratique, le projet ne semble pas être purement académique. Les auteurs déclarent le support pour vLLM, SGLang et Ollama, ainsi que le fine-tuning via LLaMA-Factory.
Le rapport indique un débit de 0,67 image par seconde et 1,86 pages PDF par seconde dans leur configuration de test. Pour le mode cloud, une API MaaS est disponible au prix de 0,2 yuan par million de tokens : selon les calculs de l'équipe, un yuan suffit pour environ 2000 scans A4 ou 200 PDF simples de dix pages.
Ce que cela signifie
Le marché de l'IA pour les documents se déplace notablement des modèles universels géants vers des systèmes spécialisés plus compacts où non seulement la qualité importe, mais aussi le coût prévisible. Pour l'entreprise, c'est un bon signal : les tâches d'analyse de factures, de contrats, d'articles scientifiques et de formulaires internes deviennent plus faciles à lancer en production sans dépenses excessives en matériel et en inférence.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.