السلامة

توافق الذكاء الاصطناعي (AI Alignment)

توافق الذكاء الاصطناعي هو مجال البحث والهندسة المعني بضمان أن أنظمة الذكاء الاصطناعي تسعى لتحقيق أهداف وتظهر سلوكيات متسقة مع نوايا الإنسان وقيمه واهتماماته، خاصة عندما تصبح الأنظمة أكثر قدرة.

توافق الذكاء الاصطناعي هو تخصص البحث الذي يركز على جعل أنظمة الذكاء الاصطناعي تتصرف وفقاً لأهداف ومقيم وتفضيلات مطوريها ومستخدميها. والقلق الأساسي هو أن نظام الذكاء الاصطناعي قد يحسن بقوة كبيرة الهدف الذي يتم تحديده بدقة، مما ينتج عنه نتائج ترضي الهدف الرسمي مع كونها ضارة أو غير مرغوبة من منظور بشري — وهي فئة من الفشل يُسمى أحياناً عدم تعميم الهدف أو الحصول على المكافأة.

تشمل نهج التوافق التعلم المعزز من ملاحظات الإنسان (RLHF)، حيث يصنف المقيّمون البشريون مخرجات النموذج لتشكيل السلوك نحو الردود المرغوبة؛ والذكاء الاصطناعي الدستوري (CAI)، الذي طورته Anthropic، والذي يستخدم مجموعة مكتوبة من المبادئ والنقد الذاتي للنموذج لتوجيه التدريب؛ والطرق القائمة على النقاش، حيث تناقش أنظمة الذكاء الاصطناعي المواقف المتنافسة للتقييم البشري. يعالج بحث الإشراف القابل للتوسع المشكلة الأصعب المتمثلة في ضمان أن يتمكن البشر من تقييم سلوك الذكاء الاصطناعي بشكل هادف حتى عندما يصبح الذكاء الاصطناعي أكثر قدرة من البشر في المهمة ذات الصلة.

تأتي أهمية مشكلة التوافق لأن الفجوة بين الهدف المعلن والسلوك المقصود الحقيقي يمكن أن تسبب نتائج ضارة عند مستويات كفاية كافية. حتى دون السيناريوهات القصوى، يظهر عدم التوافق اليوم كالملايسة (موافقة النماذج مع المستخدمين بدلاً من كونها صادقة)، والحصول على المكافأة، والنماذج التي تنتج بثقة معلومات كاذبة لأن الطلاقة تم مكافأتها على الدقة أثناء التدريب.

اعتباراً من عام 2026، يكون بحث التوافق نشطاً في Anthropic وGoogle DeepMind وOpenAI ومراكز أكاديمية بما في ذلك مركز الذكاء الاصطناعي المتوافق مع الإنسان في UC Berkeley (CHAI). تتم نشر تقنيات عملية مثل RLHF وتحسين التفضيل المباشر (DPO) في كل نموذج لغة تجاري رئيسي. يتفق الباحثون على نطاق واسع على أن الطرق الحالية تعالج السلوك على مستوى السطح بدلاً من مواصفات الهدف العميق، وأن التوافق لأنظمة مستقبلية أكثر قدرة بشكل كبير يبقى مشكلة لم يتم حلها.

مثال

استخدم الباحثون في Anthropic الذكاء الاصطناعي الدستوري لتدريب Claude على رفض الطلبات الضارة ليس من خلال التصفية المبرمجة بشكل صارم بل من خلال استيعاب مجموعة من المبادئ المكتوبة، مما يسمح له بتعميم الرفضات المناسبة على الحالات الجديدة غير المغطاة صراحة أثناء التدريب.

مصطلحات مرتبطة

التعلم المعزز من ملاحظات الإنسان (Reinforcement Learning from Human Feedback, RLHF)Constitutional AI سلامة الذكاء الاصطناعي (AI Safety)Reward Hacking

← المسرد