Zhipu AI lança o GLM-OCR, um modelo OCR compacto de 0,9 bilhão de parâmetros para documentos
A Zhipu AI apresentou o GLM-OCR, um modelo OCR multimodal compacto de 0,9 bilhão de parâmetros para analisar documentos reais. O sistema consegue lidar com tabe

Zhipu AI вместе с исследователями Университета Цинхуа представила GLM-OCR — мультимодальную OCR-модель на 0,9 млрд параметров для разбора реальных документов. Ставка сделана не на максимальный размер, а на баланс качества, скорости и стоимости инференса.
Почему OCR сложен
Обычный OCR давно неплохо справляется с чистым текстом на ровных сканах, но реальные документы устроены намного хуже. В них смешиваются таблицы, формулы, печати, рукописные поля, кодовые блоки, колонки и нестандартный порядок чтения. Именно на таких кейсах ломаются классические пайплайны: они умеют распознать символы, но теряют структуру страницы и смысл связей между блоками. Большие мультимодальные модели улучшают понимание документа целиком, но у них другая проблема: цена и скорость. Если модель читает страницу как обычную визуально-языковую систему и генерирует ответ по одному токену, инференс становится дорогим и медленным. Для продакшена, где нужно обрабатывать счета, договоры, отчёты и анкеты в потоке, это уже инженерное ограничение, а не академическая мелочь.
Как устроен GLM-OCR В основе GLM-OCR лежит связка из визуального энкодера
CogViT на 0,4 млрд параметров, лёгкого кросс-модального коннектора и языкового декодера GLM на 0,5 млрд параметров. Главная техническая идея — Multi-Token Prediction. Вместо предсказания строго одного токена за шаг модель обучали выдавать по десять токенов, а на инференсе она в среднем генерирует 5,2 токена за шаг.
По данным авторов, это даёт около 50% прироста пропускной способности без резкого роста памяти за счёт схемы разделения параметров. На уровне системы модель тоже работает не как плоский режим «прочитай всю страницу целиком». Сначала PP-DocLayout-V3 размечает документ на смысловые области, а затем GLM-OCR параллельно распознаёт отдельные регионы.
Для парсинга документов на выходе формируются структурированные Markdown и JSON, а для KIE, то есть извлечения ключевых полей, полное изображение документа подаётся вместе с промптом и модель сразу генерирует JSON по заданной схеме.
- Разбирает страницы по областям перед распознаванием Параллельно обрабатывает найденные блоки Возвращает структурированный Markdown и JSON Отдельно поддерживает режим KIE для извлечения полей Подходит и для облачного API, и для локального запуска ## Что показали тесты На публичных бенчмарках результаты у модели сильные, но без универсального лидерства. GLM-OCR набрала 94,6 на OmniDocBench v1.5, 94,0 на OCRBench для текстового распознавания, 96,5 на UniMERNet для формул и 86,0 на TEDS_TEST для таблиц. В задачах извлечения полей модель показала 93,7 на Nanonets-KIE и 86,1 на Handwritten-KIE. Это хороший набор цифр для модели такого размера, особенно если сравнивать её с заметно более тяжёлыми мультимодальными системами. При этом авторы сами оставляют важные оговорки. На PubTabNet GLM-OCR не первая: у MinerU 2.5 там 88,4 против 85,2. А в колонке reference-моделей Gemini-3-Pro показывает более высокие результаты в KIE. То есть корректная формулировка здесь такая: GLM-OCR входит в число лидеров среди открытых и компактных решений, но не закрывает вообще все сценарии лучше всех. С практической стороны проект выглядит не как чисто лабораторный. Авторы заявляют поддержку vLLM, SGLang и Ollama, а также дообучение через LLaMA-Factory. В отчёте указана пропускная способность 0,67 изображения в секунду и 1,86 страницы PDF в секунду в их конфигурации тестирования. Для облачного режима доступен MaaS API с ценой 0,2 юаня за миллион токенов: по расчётам команды, одного юаня хватает примерно на 2000 сканов формата A4 или 200 простых PDF по десять страниц.
Что это значит
Рынок ИИ для документов всё заметнее смещается от гигантских универсальных моделей к более компактным специализированным системам, где важны не только качество, но и предсказуемая стоимость. Для бизнеса это хороший сигнал: задачи разбора счетов, договоров, научных статей и внутренних форм всё проще запускать в продакшене без чрезмерных затрат на железо и инференс.