36Kr (36氪)→ original

Zhipu GLM-OCR: como os chineses ensinaram um micro-modelo a enxergar tudo

A indústria de inteligência artificial há muito tempo se assemelha a uma competição de fisiculturismo na entressafra: cada novo anúncio era acompanhado de…

Processado por IA de 36Kr (36氪); editado por Hamidun News
Zhipu GLM-OCR: como os chineses ensinaram um micro-modelo a enxergar tudo
Fonte: 36Kr (36氪). Colagem: Hamidun News.
◐ Ouvir artigo

A indústria de inteligência artificial há muito tempo se assemelha a uma competição de fisiculturismo na entressafra: cada novo anúncio era acompanhado de vanglória sobre o número de bilhões de parâmetros e megawatts consumidos. Mas enquanto os líderes de mercado medem o tamanho de seus clusters, a chinesa Zhipu AI, frequentemente chamada de resposta local ao OpenAI, decidiu seguir o caminho do minimalismo elegante. Eles lançaram e, mais importante ainda, abriram o código-fonte do GLM-OCR — um modelo que prova que a visão de qualidade não requer um supercomputador do tamanho de uma geladeira.

O contexto é crucial aqui. A Zhipu AI há muito está entrincheirada no topo do setor de tecnologia da China com sua linha GLM, mas lançar um modelo com apenas 0,9 bilhão de parâmetros é um desafio direto ao conceito "quanto maior, melhor". Anteriormente, o reconhecimento de texto de qualidade (OCR) exigia algoritmos primitivos e imprecisos ou modelos multimodais pesados que consumiam memória de vídeo no café da manhã.

Agora vemos uma ferramenta especificamente afinada para uma tarefa, mas executando-a com precisão cirúrgica no hardware mais modesto. O que exatamente mudou tecnologicamente? GLM-OCR é otimizado nativamente para frameworks modernos como vLLM, SGLang e Ollama.

Estes não são apenas uma lista de nomes da moda, mas capacidade real de executar o modelo em um laptop ou até em um smartphone avançado. Latência de inferência baixa e overhead computacional mínimo a tornam uma candidata ideal para cenários de alta carga. Imagine um sistema de processamento de documentos em um banco ou empresa de logística que não precisa enviar cada digitalização para a nuvem, desperdiçando segundos esperando e centavos por requisição.

Por que isso importa agora? Estamos em um ponto de inflexão onde os negócios estão começando a contar dinheiro. O entusiasmo por "modelos universais que podem fazer tudo" está dando lugar à busca pragmática por ferramentas para processos de negócios específicos.

Usar o gigantesco GPT-4o apenas para ler números em um recibo é como usar um foguete espacial para uma viagem à padaria. Zhipu dá ao mercado uma "bicicleta" que chegará ao destino mais rápido e mais barato. Além disso, o código aberto permite que as empresas ajustem o modelo em seus dados específicos mantendo a confidencialidade dentro de seu próprio perímetro.

Atenção especial deve ser dada ao suporte de computação de borda. No mundo da Internet das Coisas e sistemas autônomos, a capacidade de uma rede neural "ver" e compreender texto sem acesso à internet é um fator crítico. Isso abre portas para uma nova geração de câmeras inteligentes, robôs industriais e dispositivos vestíveis que entendem o contexto do mundo ao seu redor em tempo real.

Desenvolvedores chineses mais uma vez demonstram que são os melhores em empacotar tecnologias complexas em soluções eficientes e acessíveis. Em última análise, o sucesso do GLM-OCR poderia desencadear uma onda de lançamentos semelhantes de outros players. Se um modelo pequeno manipula o reconhecimento de texto em um nível suficiente para 90% das tarefas comerciais, por que pagar mais?

Isto não é apenas o lançamento de outra rede neural, é um manifesto de eficiência contra o excesso. Enquanto os gigantes ocidentais constroem torres cada vez mais altas de GPUs, as empresas chinesas estão começando a dominar em uma "guerra de guerrilha" nos dispositivos dos usuários. Conclusão: Zhipu AI tornou OCR barato e acessível para todos.

Será 2024 o ano do triunfo dos micro-modelos sobre os gigantes?

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…