التدريب

التعلم الموزع (Federated Learning)

التعلم الموزع هو تقنية تعلم آلي تدرب نموذجاً مشتركاً عبر عدد من الأجهزة أو الخوادم اللامركزية دون تركيز البيانات الأولية، حيث يتم نقل تحديثات معاملات النموذج فقط إلى خادم منسق للحفاظ على الخصوصية.

التعلم الموزع هو نموذج تعلم آلي موزع تصوره Google عام 2016 وتم صياغته رسمياً في ورقة عام 2017. بدلاً من تجميع البيانات الأولية على خادم مركزي، فإنه يحتفظ بالبيانات على الأجهزة أو المؤسسات التي تملكها—الهواتف الذكية والمستشفيات والمؤسسات المالية—ويدرب النموذج محلياً على كل عقدة مشاركة.

في جولة تدريب موزعة قياسية، يقوم كل عميل بتحميل النموذج العالمي الحالي وتدريبه على مجموعة بيانات محلية لعدد ثابت من الخطوات وتحميل تحديثات الأوزان الناتجة فقط (التدرجات أو دلتا النموذج) إلى الخادم. يجمع الخادم هذه التحديثات—عادةً عبر Federated Averaging (FedAvg)—لإنتاج نموذج عالمي محسّن، والذي يتم بعد ذلك إعادة توزيعه. تتكرر هذه الدورة حتى التقارب.

يعالج التعلم الموزع مخاوف مركزية: خصوصية البيانات والامتثال التنظيمي. غالباً ما لا تستطيع المنظمات الخاضعة لـ GDPR أو HIPAA أو قوانين السرية المالية مشاركة البيانات الأولية عبر الحدود أو المؤسسات. بالاحتفاظ بالبيانات محلياً، يمكّن التعلم الموزع تدريب النموذج التعاوني دون التعرض القانوني أو الأخلاقي. كما أنه يقلل متطلبات النطاق الترددي مقارنة بتركيز مجموعات البيانات الكبيرة.

اعتباراً من 2026، يعمل التعلم الموزع على نطاق إنتاجي واسع. تستخدمه Google للتنبؤ بالكلمة التالية على الجهاز في Gboard وللنماذج الصوتية؛ تطبقه Apple على ميزات مثل QuickType و Siri دون تحميل محتوى المستخدم. تحديات البحث النشط تشمل كفاءة الاتصالات والتعامل مع البيانات غير المتطابقة (non-IID) عبر العملاء والدفاع ضد هجمات تسمم النموذج. جعلت أطر العمل مثل TensorFlow Federated و PySyft و NVIDIA FLARE التقنية متاحة خارج الأوساط الأكاديمية.

مثال

تقوم مجموعة من المستشفيات الأوروبية بتدريب نموذج كشف الأورام بالاحتفاظ بمسحات المريض على خوادمها الخاصة؛ يتم مشاركة تحديثات التدرج فقط مع منسق مركزي، لذا لا تترك الصور الطبية أي مؤسسة.

مصطلحات مرتبطة

Data Privacy الذكاء الاصطناعي على الجهاز (On-Device AI)بيانات التدريب (Training Data)

← المسرد