36Kr (36氪)→ المصدر

Zhipu GLM-OCR: كيف علم الصينيون نموذجاً صغيراً أن يرى كل شيء

ظلت صناعة الذكاء الاصطناعي لفترة طويلة تشبه منافسة كمال الأجسام في فترة الراحة: كل إعلان جديد كان يصحبه التفاخر بعدد مليارات المعاملات والميجاوات المستهلكة…

معالج بواسطة الذكاء الاصطناعي من 36Kr (36氪)؛ بتحرير Hamidun News
Zhipu GLM-OCR: كيف علم الصينيون نموذجاً صغيراً أن يرى كل شيء
المصدر: 36Kr (36氪). كولاج: Hamidun News.
◐ استمع للمقال

ظلت صناعة الذكاء الاصطناعي لفترة طويلة تشبه منافسة كمال الأجسام في فترة الراحة: كل إعلان جديد كان يصحبه التفاخر بعدد مليارات المعاملات والميجاوات المستهلكة. لكن بينما يقيس قادة السوق حجم عناقيدهم، قررت شركة Zhipu AI الصينية، التي يشار إليها غالبًا باعتبارها الإجابة المحلية على OpenAI، أن تسير في طريق البساطة الأنيقة. أطلقوا وبأهمية أكبر، فتحوا الكود المصدري لـ GLM-OCR — نموذج يثبت أن الرؤية عالية الجودة لا تتطلب كمبيوتر عملاق بحجم الثلاجة.

السياق حاسم هنا. احتلت Zhipu AI منذ فترة طويلة صدارة قطاع التكنولوجيا الصيني بخط GLM الخاص بها، لكن إطلاق نموذج بحوالي 0.9 مليار معاملة يشكل تحديًا مباشرًا لمفهوم "كلما زاد الحجم كان أفضل".

في السابق، كان الاعتراف بالنصوص عالي الجودة (OCR) يتطلب إما خوارزميات بدائية وغير دقيقة أو نماذج متعددة الأنماط ثقيلة الوزن التي تستهلك ذاكرة الفيديو في الإفطار. الآن نرى أداة مصممة خصيصًا لمهمة واحدة، لكنها تنفذها بدقة جراحية على أبسط أجهزة. ماذا تغير بالضبط من الناحية التكنولوجية؟ تم تحسين GLM-OCR بشكل أصلي للأطر الحديثة مثل vLLM و SGLang و Ollama.

هذه ليست مجرد قائمة بالأسماء العصرية، بل القدرة الحقيقية على تشغيل النموذج على جهاز كمبيوتر محمول أو حتى هاتف ذكي متقدم. إن زمن الكمون المنخفض للاستدلال والحد الأدنى من التكاليف الحسابية تجعلها مرشحة مثالية للسيناريوهات عالية الحمل. تخيل نظام معالجة المستندات في بنك أو شركة لوجستية لا يحتاج إلى إرسال كل مسح ضوئي إلى السحابة، مما يضيع ثوانٍ في الانتظار والسنتات لكل طلب.

لماذا يهمنا هذا الآن؟ نحن في نقطة انعطاف حيث تبدأ الأعمال التجارية في عد الأموال. يتلاشى الحماس حول "النماذج الشاملة التي يمكنها أن تفعل كل شيء" لصالح البحث العملي عن أدوات لعمليات تجارية محددة. استخدام GPT-4o الضخم فقط لقراءة الأرقام على إيصال هو مثل استخدام صاروخ فضائي للذهاب إلى المخبزة.

تعطي Zhipu السوق "دراجة" ستصل إلى الوجهة بشكل أسرع وأرخص. علاوة على ذلك، يسمح المصدر المفتوح للشركات بضبط النموذج على بيانات محددة خاصة بها مع الحفاظ على السرية ضمن محيطها الخاص. يجب إيلاء اهتمام خاص لدعم الحوسبة الطرفية.

في عالم إنترنت الأشياء والأنظمة المستقلة، تعتبر قدرة الشبكة العصبية على "الرؤية" وفهم النصوص دون الوصول إلى الإنترنت عاملاً حرجًا. هذا يفتح الأبواب أمام جيل جديد من الكاميرات الذكية والروبوتات الصناعية والأجهزة القابلة للارتداء التي تفهم السياق من حول العالم في الوقت الفعلي. يثبت المطورون الصينيون مرة أخرى أنهم الأفضل في تغليف التقنيات المعقدة في حلول فعالة وسهلة الوصول.

في نهاية المطاف، قد يؤدي نجاح GLM-OCR إلى موجة من الإطلاقات المماثلة من لاعبين آخرين. إذا كان النموذج الصغير يتعامل مع التعرف على النصوص بمستوى كافٍ لـ 90% من المهام التجارية، فلماذا ندفع أكثر؟ هذا ليس مجرد إطلاق شبكة عصبية أخرى، إنه بيان لكفاءة ضد الإفراط. بينما يبني العمالقة الغربيون أبراجًا أعلى وأعلى من معالجات الرسومات، تبدأ الشركات الصينية في السيطرة في "حرب العصابات" على أجهزة المستخدمين.

الخلاصة: جعلت Zhipu AI تقنية OCR رخيصة وسهلة الوصول للجميع.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…