Zhipu GLM-OCR: cómo los chinos enseñaron a un micro-modelo a verlo todo
La industria de la inteligencia artificial se ha parecido durante mucho tiempo a una competencia de culturismo en fuera de temporada: cada nuevo anuncio iba…
Procesado por IA desde 36Kr (36氪); editado por Hamidun News
La industria de la inteligencia artificial se ha parecido durante mucho tiempo a una competencia de culturismo en fuera de temporada: cada nuevo anuncio iba acompañado de jactancia sobre la cantidad de miles de millones de parámetros y megavatios consumidos. Pero mientras los líderes del mercado miden el tamaño de sus clusters, la empresa china Zhipu AI, a menudo llamada la respuesta local a OpenAI, decidió tomar el camino del minimalismo elegante. Lanzaron y, más importante aún, abrieron el código fuente de GLM-OCR — un modelo que demuestra que la visión de calidad no requiere una supercomputadora del tamaño de un refrigerador.
El contexto es crucial aquí. Zhipu AI lleva mucho tiempo atrincherada en la cima del sector tecnológico chino con su línea GLM, pero lanzar un modelo con solo 0,9 mil millones de parámetros es un desafío directo al concepto "cuanto mayor, mejor". Anteriormente, el reconocimiento de texto de calidad (OCR) requería algoritmos primitivos e imprecisos o modelos multimodales pesados que consumían memoria de video en el desayuno.
Ahora vemos una herramienta específicamente afinada para una tarea, pero ejecutándola con precisión quirúrgica en el hardware más modesto. ¿Qué cambió exactamente tecnológicamente? GLM-OCR está optimizada de forma nativa para frameworks modernos como vLLM, SGLang y Ollama.
Estos no son solo una lista de nombres de moda, sino la capacidad real de ejecutar el modelo en una laptop o incluso en un smartphone avanzado. La latencia de inferencia baja y el overhead computacional mínimo la convierten en una candidata ideal para escenarios de alta carga. Imagina un sistema de procesamiento de documentos en un banco o empresa logística que no necesita enviar cada escaneo a la nube, desperdiciando segundos esperando y centavos por solicitud.
¿Por qué importa esto ahora? Estamos en un punto de inflexión donde los negocios están comenzando a contar dinero. El entusiasmo por "modelos universales que pueden hacer todo" está cediendo paso a la búsqueda pragmática de herramientas para procesos empresariales específicos.
Usar el gigantesco GPT-4o solo para leer números en un recibo es como usar un cohete espacial para un viaje a la panadería. Zhipu le da al mercado una "bicicleta" que llegará al destino más rápido y más barato. Además, el código abierto permite que las empresas ajusten el modelo en sus datos específicos manteniendo la confidencialidad dentro de su propio perímetro.
Se debe prestar especial atención al soporte de computación perimetral. En el mundo del Internet de las Cosas y los sistemas autónomos, la capacidad de una red neuronal de "ver" y entender texto sin acceso a internet es un factor crítico. Esto abre las puertas a una nueva generación de cámaras inteligentes, robots industriales y dispositivos portátiles que comprenden el contexto del mundo que los rodea en tiempo real.
Los desarrolladores chinos una vez más demuestran que son los mejores para empaquetar tecnologías complejas en soluciones eficientes y accesibles. En última instancia, el éxito de GLM-OCR podría desencadenar una onda de lanzamientos similares de otros actores. Si un modelo pequeño maneja el reconocimiento de texto a un nivel suficiente para el 90% de las tareas comerciales, ¿por qué pagar más?
Esto no es solo el lanzamiento de otra red neuronal, es un manifiesto de eficiencia contra el exceso. Mientras los gigantes occidentales construyen torres cada vez más altas de GPUs, las empresas chinas están comenzando a dominar en una "guerra de guerrillas" en los dispositivos de los usuarios. En conclusión: Zhipu AI ha hecho que OCR sea barato y accesible para todos.
¿Será 2024 el año del triunfo de los micro-modelos sobre los gigantes?
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.