SenseNova-MARS: SenseTime تفتح الكود لتعليم الذكاء الاصطناعي الرؤية والتفكير في نفس الوقت
في حين تتنافس OpenAI و Google على من يفرض قيودًا أكثر على الوصول إلى أهم تطوراتهما، اختارت عملاق التكنولوجيا الصيني SenseTime طريقًا مختلفًا. فتحت الشركة…
معالج بواسطة الذكاء الاصطناعي من Jiqizhixin (机器之心)؛ بتحرير Hamidun News
في حين تتنافس OpenAI و Google على من يفرض قيودًا أكثر على الوصول إلى أهم تطوراتهما، اختارت عملاق التكنولوجيا الصيني SenseTime طريقًا مختلفًا. فتحت الشركة الكود المصدري لنظامها SenseNova-MARS، معلنة تجاوز "الحد الأقصى" في مجال البحث متعدد الأنماط والاستدلال المنطقي. هذا ليس مجرد محرك بحث صور آخر، بل محاولة جادة لتعليم الشبكات العصبية فهم العالم بشكل شامل كما يفعل الإنسان.
لفهم حجم هذا الحدث، يجب التذكر بالسياق. لقد طورت SenseTime منذ فترة طويلة خط نماذج SenseNova الخاص بها، لكن نظام MARS (نظام تحليل واسترجاع متعدد الأنماط) تحديدًا يصبح الجسر بين الاعتراف البسيط بالأشياء والتحليل المعقد. في السابق، كان بإمكان الذكاء الاصطناعي أن يقول: "في هذا الفيديو، شخص يعبر الطريق."
الآن، MARS قادر على شرح لماذا قد يكون هذا الإجراء خطيرًا في موقف معين، استنادًا إلى قواعد المرور وسرعة السيارات. هذا هو بالضبط نوع التفكير متعدد الأنماط الذي تسعى جميع المختبرات في العالم للحصول عليه حاليًا.
ما الذي تغير بالضبط؟ طبقت SenseTime معمارية تسمح للنموذج ليس فقط بمطابقة الاستفسارات النصية مع الميزات البصرية، بل أيضًا ببناء سلاسل منطقية. هذا يحل المشكلة الرئيسية للأنظمة متعددة الأنماط الحديثة — سطحيتها. يعمل MARS مع الفيديو والصور على مستوى المعاني، وليس مجرد البكسل. إذا كنت تبحث عن لحظة محددة في أرشيف ضخم من التسجيلات، سيعثر النظام عليها ليس من خلال كلمة مفتاحية، بل من خلال وصف موقف يتطلب فهمًا سياقيًا.
لماذا هذا مهم الآن؟ سوق الذكاء الاصطناعي الصيني يتعرض لضغط هائل من العقوبات والمنافسة الداخلية مع Alibaba و Baidu. في هذه الظروف، يصبح المصدر المفتوح سلاحًا قويًا. بإعطاء MARS للمجتمع، تستأجر SenseTime فعليًا آلاف المطورين في جميع أنحاء العالم لاختبار مجاني وتحسين تكنولوجيتها. هذه خطوة كلاسيكية: إذا لم تستطع الفوز في سباق قوة مغلق، فقد رئاسة حركة مفتوحة.
بالنسبة للصناعة، هذا إشارة إلى أن عصر روبوتات الدردشة البسيطة قد انتهى نهائيًا. المستقبل ينتمي للأنظمة التي "ترى" و"تفهم" في نفس الوقت. إذا كان يتطلب في السابق إنشاء بحث فيديو متقدم ملايين الدولارات في تطوير خوارزميات احتكارية، فالآن انخفضت حاجز الدخول بشكل كبير. يوفر MARS الأدوات لإنشاء أنظمة أمان من الجيل التالي، وأرشيفات ذكية، وأنظمة مراقبة متقدمة لا تراقب فقط، بل تحلل ما يحدث في الوقت الفعلي.
من المثير للاهتمام كيف ستستجيب الشركات الغربية لهذا. نرى أن الطبيعة المغلقة لـ GPT-4o أو Gemini 1.5 Pro تبدأ في إزعاج المطورين الذين يحتاجون إلى المرونة والقدرة على الضبط الدقيق للمهام المحددة. SenseTime توفر لهم هذه الفرصة. بالطبع، يبقى السؤال حول الجودة في ضوء افتقار الصين إلى أقوى المعالجات، لكن الحلول المعمارية لـ MARS تبدو مقنعة جدًا.
الشيء الرئيسي: SenseTime تراهن على الانتشار الجماعي والانفتاح. هل سيصبح MARS معيارًا للأنظمة متعددة الأنماط، أم أن هذه مجرد محاولة للحفاظ على الماء في ظل العزلة التكنولوجية؟ سنرى الإجابة في الأشهر القادمة، عندما تظهر أول عمليات النسخ والحلول من جهات خارجية بناءً على هذا النموذج.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.