Zhipu AI lança o GLM-OCR, um modelo OCR compacto de 0,9 bilhão de parâmetros para documentos
A Zhipu AI apresentou o GLM-OCR, um modelo OCR multimodal compacto de 0,9 bilhão de parâmetros para analisar documentos reais. O sistema consegue lidar com…
Processado por IA de MarkTechPost; editado por Hamidun News
A Zhipu AI, em conjunto com pesquisadores da Universidade de Tsinghua, apresentou GLM-OCR — um modelo OCR multimodal com 0,9 bilhão de parâmetros para analisar documentos do mundo real. A aposta foi feita não no tamanho máximo, mas no equilíbrio entre qualidade, velocidade e custo de inferência.
Por que OCR é difícil
OCR comum há muito cumpre bem com texto limpo em varreduras planas, mas documentos reais são muito mais complicados. Eles misturam tabelas, fórmulas, carimbos, campos manuscritos, blocos de código, colunas e ordem de leitura não padronizada. É exatamente nesses casos que os pipelines clássicos falham: conseguem reconhecer caracteres, mas perdem a estrutura da página e o significado das relações entre blocos.
Modelos multimodais grandes melhoram a compreensão do documento como um todo, mas enfrentam outro problema: preço e velocidade. Se um modelo lê uma página como um sistema visual-linguagem comum e gera uma resposta um token por vez, a inferência se torna cara e lenta. Para produção, onde você precisa processar faturas, contratos, relatórios e formulários em fluxo, isso já é uma limitação de engenharia, não uma trivialidade acadêmica.
Como GLM-OCR funciona
No cerne do GLM-OCR está uma combinação de um codificador visual CogViT com 0,4 bilhão de parâmetros, um conector cross-modal leve e um decodificador de linguagem GLM com 0,5 bilhão de parâmetros. A principal ideia técnica é Multi-Token Prediction. Em vez de prever estritamente um token por passo, o modelo foi treinado para gerar dez tokens, e na inferência ele gera em média 5,2 tokens por passo.
Segundo os autores, isso oferece cerca de 50% de melhoria de throughput sem crescimento acentuado de memória graças a um esquema de compartilhamento de parâmetros. No nível de sistema, o modelo também não funciona como um modo plano "leia a página inteira de uma vez". Primeiro PP-DocLayout-V3 marca o documento em regiões semânticas, e então GLM-OCR processa regiões individuais em paralelo.
Para análise de documentos, Markdown e JSON estruturados são gerados na saída, e para KIE, ou seja, extração de campos-chave, a imagem completa do documento é fornecida junto com um prompt e o modelo gera imediatamente JSON de acordo com um esquema fornecido.
- Analisa páginas por regiões antes do reconhecimento
- Processa blocos encontrados em paralelo
- Retorna Markdown e JSON estruturados
- Suporta separadamente modo KIE para extração de campos
- Adequado para API em nuvem e execução local
O que os testes mostraram
Em benchmarks públicos, o modelo mostra resultados fortes, mas sem liderança universal. GLM-OCR obteve 94,6 em OmniDocBench v1.5, 94,0 em OCRBench para reconhecimento de texto, 96,5 em UniMERNet para fórmulas e 86,0 em TEDS_TEST para tabelas.
Em tarefas de extração de campos, o modelo obteve 93,7 em Nanonets-KIE e 86,1 em Handwritten-KIE. Este é um bom conjunto de números para um modelo deste tamanho, especialmente quando comparado com sistemas multimodais significativamente mais pesados. Ao mesmo tempo, os próprios autores deixam ressalvas importantes.
Em PubTabNet GLM-OCR não é o primeiro: MinerU 2.5 tem 88,4 contra 85,2. E na coluna de modelos de referência Gemini-3-Pro mostra resultados mais altos em KIE.
Ou seja, a formulação correta aqui é: GLM-OCR está entre os líderes entre soluções abertas e compactas, mas não cobre absolutamente todos os cenários melhor que todos. De uma perspectiva prática, o projeto não parece ser puramente laboratorial. Os autores declaram suporte para vLLM, SGLang e Ollama, bem como ajuste fino através de LLaMA-Factory.
O relatório indica throughput de 0,67 imagens por segundo e 1,86 páginas PDF por segundo em sua configuração de teste. Para modo em nuvem, uma API MaaS está disponível ao preço de 0,2 yuan por milhão de tokens: de acordo com os cálculos da equipe, um yuan é suficiente para aproximadamente 2000 varreduras A4 ou 200 PDFs simples de dez páginas.
O que isso significa
O mercado de IA para documentos está se deslocando notavelmente de modelos universais gigantes para sistemas especializados mais compactos, onde não apenas a qualidade importa, mas também o custo previsível. Para os negócios, este é um bom sinal: tarefas de análise de faturas, contratos, artigos científicos e formulários internos estão ficando mais fáceis de executar em produção sem gastos excessivos com hardware e inferência.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.