TI-DPO: طريقة جديدة لمواءمة الذكاء الاصطناعي عبر تقييم أهمية التوكنات
في مؤتمر ICLR 2026 المرموق، قُدّمت طريقة TI-DPO (Token Importance Direct Preference Optimization). وغالبًا ما تتجاهل خوارزمية DPO التقليدية التفاصيل لأنها…
معالج بواسطة الذكاء الاصطناعي من Jiqizhixin (机器之心)؛ بتحرير Hamidun News
# TI-DPO: كيفية جعل الذكاء الاصطناعي يستمع بعناية أكبر
في مؤتمر ICLR 2026، قدم الباحثون طريقة أعادت تصور منهجية محاذاة نماذج اللغة الكبيرة. يحل TI-DPO (Token Importance Direct Preference Optimization) مشكلة طويلة الأمد في التعلم الآلي: عندما تقيّم النظام الاستجابة برمتها وتفقد التفاصيل المهمة. تخيل معلماً يصحح اختباراً بإعطاء درجة لورقة بأكملها دفعة واحدة، بدلاً من التركيز على أخطاء محددة في الأماكن الرئيسية. هذا بالضبط ما كان يحدث مع طريقة DPO التقليدية، والنهج الجديد يغير هذا المنطق على مستوى أساسي.
قبل فهم كيفية عمل TI-DPO، يستحق الأمر فهم ما هو DPO ولماذا هو ضروري. Direct Preference Optimization هو خوارزمية تساعد النماذج على التعلم من أمثلة التفضيلات البشرية. بدلاً من مجرد إخبار النموذج "هذا جيد، هذا سيء"، يقدم DPO أزواجاً من الاستجابات: واحدة أفضل وأخرى أسوأ. يتعلم النموذج تدريجياً تكرار تفضيلات الناس. إنها مثل تعليم موسيقار بالاستماع إلى أي النوتات تبدو صحيحة في السياق. لكن هناك مشكلة: يقيّم DPO الاستجابة بوزن متساوٍ في كل مكان. إذا أخطأت الشبكة العصبية في بداية الجملة — فهذا سيء. إذا أخطأت في النهاية — فهذا سيء أيضاً. لكن من منظور الفهم البشري، الخطأ في جزء حرج من النص أكثر أهمية بكثير.
يدخل TI-DPO مفهوم الأهمية لكل رمز — وحدة نصية يعالجها النموذج. تحلل الخوارزمية أي أجزاء من الاستجابة حرجة فعلاً لفهم صحيح. الرموز في بداية بيان منطقي، في أسماء الكيانات، في الأرقام الرئيسية — تتلقى وزناً أكبر أثناء التدريب. الكلمات البسيطة مثل "و"، "أو"، "مع" لها وزن أقل. يسمح هذا للنموذج بتركيز جهوده على ما يهم فعلاً. من الناحية التقنية، يتم تنفيذ هذا من خلال الترجيح الديناميكي: ينسب النظام معاملات لكل رمز بناءً على تحليل السياق وملاءمته لحل المهمة. عندما يخطئ النموذج في مكان مهم، تكون عقوبة هذا الخطأ أكبر بكثير من عقوبة الخطأ في موضع أقل أهمية.
تظهر نتائج البحث تقدماً كبيراً. تُظهر النماذج المدربة مع TI-DPO تحسناً في عدة مقاييس رئيسية: من تماسك الاستدلال إلى دقة المعلومات والأمان. تصبح الاستجابات ليست أكثر صحة فحسب، بل أيضاً أفضل تنظيماً. يفهم النظام بشكل أفضل أين يركز ليلبي التوقعات البشرية. هذا حرج بشكل خاص للمهام حيث قد يفسد خطأ واحد في المكان الصحيح الاستجابة برمتها — على سبيل المثال، في الاستشارات الطبية أو المشورة القانونية أو الشروحات العلمية.
بالنسبة للصناعة، يمثل هذا خطوة طبيعية في تطور طرق محاذاة الذكاء الاصطناعي. إذا كان DPO خطوة للأمام مقابل RLHF، فإن TI-DPO يوفر أداة أكثر دقة. تقوم الشركات التي تطور نماذج لغة كبيرة بتجريب نهج مماثلة بالفعل، لكن توحيد الطريقة في ICLR يشرعنها داخل المجتمع العلمي ويسرع التبني. يفتح هذا أيضاً اتجاهات بحث جديدة: كيف يمكننا تحديد أهمية الرموز بشكل صحيح؟ كيف يمكننا تكييف الطريقة لأنواع مختلفة من المهام؟ ما خصائص النص البنيوية التي تترابط بشكل أفضل مع التفضيلات البشرية؟
يستمر تحول نهج محاذاة الذكاء الاصطناعي. يوضح TI-DPO أن الشيطان في التفاصيل — حرفياً. عندما يبدأ النظام في النظر ليس فقط إلى النتيجة، بل إلى جودة كل خطوة نحوها، يصبح أذكى وأكثر موثوقية وأكثر فائدة. هذه ليست ثورة، بل تطور تدريجي يجعل الذكاء الاصطناعي أداة يمكن للناس أن يثقوا بها حقاً.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.