Habr AI→ المصدر

ترتيب البيانات المثالي في LLM: الخوارزميات مقابل البساطة

واجه الكثيرون الذين حاولوا استخدام نماذج اللغة الكبيرة (LLMs) لفرز البيانات، على سبيل المثال، لاختيار أفضل عنصر من قائمة، نتائج مخيبة للآمال. المشكلة لا تكمن…

معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
ترتيب البيانات المثالي في LLM: الخوارزميات مقابل البساطة
المصدر: Habr AI. كولاج: Hamidun News.
◐ استمع للمقال

واجه الكثيرون الذين حاولوا استخدام نماذج اللغة الكبيرة (LLMs) لفرز البيانات، على سبيل المثال، لاختيار أفضل عنصر من قائمة، نتائج مخيبة للآمال. المشكلة لا تكمن دائماً في النموذج نفسه، بل في النهج المتبع للفرز. أجريت مؤخراً تجربة قارنت فيها خمس طرق فرز مختلفة على 164 منشوراً من قناتي على تطبيق تليجرام، وأثبتت النتائج أنها كاشفة جداً.

يثبت النهج الساذج، حيث يطلب من نماذج اللغة الكبيرة ببساطة تقييم كل عنصر في القائمة وفرزها حسب التقييمات، أنه غير فعال في الغالب. يعود هذا إلى أن نماذج اللغة الكبيرة عرضة للأخطاء المنهجية وليست متسقة دائماً في تقييماتها. علاوة على ذلك، يمكن أن تتأثر بترتيب العناصر في القائمة. باختصار، نماذج اللغة الكبيرة غير مصممة للفرز المباشر.

أحد النهج البديل المثير للاهتمام الذي استكشفته هو خوارزمية TrueSkill، التي تم تطويرها في الأصل لنظام مطابقة اللاعبين في Xbox Live. تقيّم TrueSkill مهارات اللاعبين بناءً على نتائج مبارياتهم وتستخدم هذه التقييمات للتنبؤ باحتمالية الفوز في الألعاب المستقبلية. في سياق فرز البيانات، يمكن استخدام TrueSkill لمقارنة عناصر القائمة مع بعضها البعض وبناء تصنيف بناءً على هذه المقارنات.

تعمل TrueSkill بنمذجة مهارة كل عنصر كتوزيع طبيعي. عندما يتم مقارنة عنصرين، تقوم الخوارزمية بتحديث توزيعات مهاراتهما بناءً على نتيجة المقارنة. تتكرر هذه العملية لجميع أزواج العناصر في القائمة حتى تستقر توزيعات المهارات. تُستخدم القيم المتوسطة الناتجة عن التوزيعات بعد ذلك لترتيب العناصر.

في تجربتي، أظهرت TrueSkill نتائج أفضل بكثير من النهج الساذج. وفرت ارتباطاً أعلى مع البيانات الحقيقية وكانت أقل عرضة للأخطاء المنهجية. ومع ذلك، من المهم ملاحظة أن TrueSkill تتطلب عدداً كبيراً من المقارنات لتحقيق دقة جيدة. قد تكون هذه مشكلة للمجموعات الكبيرة من البيانات.

ما الاستنتاجات التي يمكن استخلاصها من هذه التجربة؟ أولاً، لا تعتمد على النهج الساذج لفرز البيانات في نماذج اللغة الكبيرة. ثانياً، توجد خوارزميات بديلة، مثل TrueSkill، يمكن أن تحسن النتائج بشكل كبير. ثالثاً، يعتمد اختيار الخوارزمية الصحيحة على المهمة المحددة وحجم قائمة البيانات. في المستقبل، قد تظهر خوارزميات أكثر كفاءة لفرز البيانات في نماذج اللغة الكبيرة، مصممة خصيصاً لهذا الغرض. سيؤدي هذا إلى فتح فرص جديدة لاستخدام نماذج اللغة الكبيرة في المهام التي تتطلب ترتيباً دقيقاً واختياراً.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…