تحليلات الفيديو في المدن: لماذا معالجة الفيديو التقليدية غير فعالة
تحليل الفيديو التقليدي غير مناسب للمدن - الانسداد والإضاءة المتغيرة والأجسام المتناثرة تعيق الخوارزميات الكلاسيكية. أظهر المطورون كيف تسمح نماذج الشبكات العصبية
معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
معالجة الفيديو التقليدية في البيئات الحضرية حكاية خرافية. تنهار الخوارزميات التقليدية للكشف عن الحركة وتتبع الأجسام أمام واقع الشوارع الحية والإضاءة المتغيرة والانسداد. وجد مطورو تحليلات الفيديو الذكية حلاً: الانتقال إلى نماذج الشبكات العصبية وهندسة معمارية تتكيف مع كل سيناريو محدد.
لماذا الطريقة التقليدية لا تعمل
في المدن، يتعين على تحليلات الفيديو مواجهة عدد من المشاكل الحرجة:
- الانسداد - الناس والسيارات تحجب بعضها البعض، وتظهر الأجسام وتختفي من الإطار
- تباين الإضاءة - من شمس الفجر إلى أضواء الشارع ليلاً
- الأجسام المتناثرة - يجب تتبع راكب دراجة وسط تدفق السيارات
- الانعكاسات والظلال - تربك نوافذ الواجهات وبرك المياه على الرصيف الخوارزميات
- انجراف الكاميرا - الاهتزازات والرياح والتحولات الموسمية في التثبيت
تنتج الطرق التقليدية (كشف الحد الأدنى لتغييرات البكسل والتدفق البصري) عشرات التنبيهات الكاذبة في الساعة وتفوت الأحداث المريبة.
نماذج الشبكات العصبية كحل
يغير الذكاء الاصطناعي القواعد. عائلات YOLO الحديثة ومحولات الرؤية ترى الأجسام وليس البكسل. تتعرف على الأشخاص بأي وضعية وملابس والسيارات بغض النظر عن زاوية المشاهدة والوجوه واللوحات المرقمة والإجراءات في الوقت الفعلي (السقوط والشجار) والحالات الشاذة (حقيبة مركونة وشخص في مكان غير مخصص). هذا يتطلب معالج رسومات. في أنظمة المراقبة الحضرية يستخدمون NVIDIA Jetson لحسابات الحافة - مباشرة على الكاميرا أو في خزانة على العمود. المجموعة النموذجية: RTX 4090 أو A100 في المركز و Jetson Orin على المحيط.
ما هي المجموعة التي يختارها المطورون
تسمح الهندسة المعمارية المعيارية بتجميع الأنظمة من المكونات. لكشف الأجسام - YOLOv10 أو Faster R-CNN أو ViT-detection بمعدل إطارات مستهدف بين 25-30 حتى على تدفق 4K. يتم بناء التتبع على Deep SORT (يكمل الكاشف بتضمينات المظهر) أو ByteTrack (يعمل بدون ميزات). تصنيف السلوك يتطلب نماذج منفصلة للسمات (الجنس والعمر ونوع الملابس) والإجراءات (المشي والوقوف والركض والسقوط). يتم تخزين الفيديو في H.265 (يضغط بمعدل أفضل بمرتين من H.264)، البيانات الوصفية في قواعد بيانات SQL أو السلاسل الزمنية مثل ClickHouse. الأوركسترا - Docker و Kubernetes على حافة الشبكة و Redis لتخزين البيانات الساخنة (المسارات الحالية) و Kafka أو NATS لتدفقات الأحداث بين الوحدات.
التكيف من خلال المرونة المعيارية
كل مدينة وكل تقاطع فريد. تسمح الهندسة المعمارية المعيارية بإعادة تدريب نماذج الكشف على الظروف المحلية في غضون ساعات وتغيير أوزان الميزات من خلال الإعدادات وإضافة كواشف جديدة دون إعادة بناء خط الأنابيب وتعطيل الوحدات غير الفعالة عند نقص الموارد. بعض الأنظمة تستخدم حتى التعلم الفيدرالي - تتعلم النماذج في نفس الوقت على جميع كاميرات المدينة، لكن البيانات تبقى محلية. هذا حرج لـ GDPR والخصوصية.
ماذا يعني هذا
تحليلات الفيديو في المدن لم تعد صندوقاً أسود. الذكاء الاصطناعي بالإضافة إلى الهندسة المعمارية المعيارية بالإضافة إلى الحوسبة الموزعة تمكن المدن من بناء أنظمة مراقبة ذكية قابلة للتوسع التي تتكيف مع المنطقة ولا تتطلب جيشاً من المطورين في كل حي.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.