MarkTechPost→ المصدر

كشفت Meta عن Autodata — نظام قائم على الوكلاء لإنشاء بيانات تدريب عالية الجودة

أعلنت Meta عن Autodata — نظام تعمل فيه نماذج LLM كعلماء بيانات مستقلين، وتقوم بشكل تكراري بإنشاء أمثلة تدريبية والتحقق منها وصقلها. وفي أول تطبيق له، Agentic…

معالج بواسطة الذكاء الاصطناعي من MarkTechPost؛ بتحرير Hamidun News
كشفت Meta عن Autodata — نظام قائم على الوكلاء لإنشاء بيانات تدريب عالية الجودة
المصدر: MarkTechPost. كولاج: Hamidun News.
◐ استمع للمقال

قدمت Meta في 1 مايو نظام Autodata — إطار عمل تقوم فيه وكلاء LLM بجمع والتحقق من وتحسين مجموعات بيانات التدريب بشكل مستقل. الفكرة هي تحويل النموذج من مجرد مولد بيانات اصطناعية إلى عالم بيانات مستقل يحسّن جودة الأمثلة بشكل متكرر.

لماذا يعتبر Autodata ضروريًا

كانت البيانات الاصطناعية منذ فترة طويلة واحدة من الطرق الرئيسية لتسريع تدريب النماذج: فهي أرخص من التعليق اليدوي، وتساعد في تغطية السيناريوهات النادرة، وتسمح بإنشاء مهام أكثر تعقيدًا من تلك الموجودة بسهولة في المقاييس المفتوحة. لكن معظم الأساليب الشهيرة — من Self-Instruct إلى متغيرات grounded- و CoT — لها قيد مشترك: فهي تنشئ البيانات في عملية واحدة، ويتم التحكم في الجودة بعد الإنشاء من خلال التصفية أو التحسين اليدوي.

يغيّر Autodata منطق العملية نفسها. بدلاً من إنشاء الأمثلة مرة واحدة والأمل في العثور على أمثلة جيدة بينها، تقترح Meta حلقة مغلقة تشبه طريقة عمل عالم البيانات الحي. يعتمد الوكيل على المستندات المصدر، وينشئ المهام، ويحلل حيث تكون سهلة جدًا أو مزعجة جدًا أو غير مفيدة بشكل كافٍ، ثم يعيد كتابة صيغة الإنشاء الخاصة به ويحاول مرة أخرى. بشكل أساسي، يذهب حساب الاستدلال الإضافي ليس فقط إلى إجابات النموذج، بل أيضًا إلى تحسين البيانات التي يتعلم عليها بعد ذلك.

كيفية عمل الدورة

يُطلق على أول تطبيق عملي للإطار اسم Agentic Self-Instruct. فيه، يعمل LLM المركزي كمُنسِّق ويدير عدة وكلاء متخصصين، كل واحد منهم مسؤول عن مرحلة منفصلة من التحقق من الجودة. هذا خط الأنابيب ضروري حتى تحتوي مجموعة البيانات ليس على أمثلة صحيحة فحسب، بل على تلك الأمثلة التي يُظهر فيها النموذج القوي باستمرار نتائج أفضل من النموذج الضعيف.

يستخدم الوكيل المواد المصدر مثل المقالات العلمية أو التعليمات البرمجية أو غيرها من مستندات المجال كأساس.

  • Challenger ينشئ سؤالاً جديداً وسياقاً وإجابة مرجعية ومعايير تقييم بناءً على المستند المصدر.
  • Weak solver يحاول حل المهمة في وضع محدود ويجب أن يفشل بشكل ملحوظ في كثير من الأحيان.
  • Strong solver يحل نفس المهمة بتكوين أقوى ويجب أن يجتاز عتبة الجودة.
  • Verifier/Judge يتحقق من المثال نفسه ثم يقيّم إجابات كلا النموذجين وفقاً لمعايير محددة مسبقاً.

إذا تبين أن السؤال سهل جداً، فإن النموذج الضعيف يحصل على نقاط عديدة جداً ويتم رفض المثال. إذا كان صعباً جداً، فإن النموذج القوي يفشل أيضاً ويجب على الوكيل أن يجد زاوية هجوم مختلفة. لقبول الأمثلة، تستخدم Meta عتبات محددة: يجب أن تكون النتيجة المتوسطة للـ weak solver لا تزيد عن 65٪، والـ strong solver — لا تقل عن 60٪ وليست أكثر من 95٪، والفجوة بينهما — 20 نقطة مئوية على الأقل.

عادة ما يتطلب المستند الواحد عدة جولات من هذا التحسين.

"يسمح إنشاء البيانات بواسطة الوكلاء بتحويل حساب الاستدلال الإضافي إلى

تدريب نموذج أفضل جودة".

ما أظهرته الاختبارات

اختبرت Meta نظام Agentic Self-Instruct على مهام أبحاث علوم الكمبيوتر. عالجت النظام أكثر من 10 آلاف مقالة من مقياس S2ORC من عام 2022 فما بعده وقامت في النهاية بجمع 2117 زوج سؤال-إجابة اجتازت جميع معايير الجودة.

النتيجة الرئيسية — ليس فقط زيادة في كمية البيانات، بل زيادة في قوتها التمييزية. في Self-Instruct CoT العادي، أظهر النموذج الضعيف والقوي نتائج متطابقة تقريباً: 71.4٪ مقابل 73.3٪، فجوة بمقدار 1.9 نقطة مئوية فقط. في الوضع الوكيل، انخفض weak solver إلى 43.7٪، وارتفع strong solver إلى 77.8٪، مما أدى إلى توسيع الفجوة إلى 34 نقطة مئوية.

ثم قامت Meta بتحسين ليس الأسئلة نفسها، بل "سلوك" وكيل عالم البيانات. في حلقة خارجية، قام محسّن تطوري بتشغيل نسخ جديدة من مستودع الأسئلة والإجابات ومنطق التقييم، مع الاحتفاظ فقط بتلك التي حسّنت نتائج التحقق. بإجمالي 233 تكراراً تم تشغيله، مع 126 مقبولة، وارتفعت نسبة التشغيل الناجح من 12.8٪ إلى 42.4٪.

ومن بين التحسينات المكتشفة تلقائياً كان هناك التحقق الأكثر صرامة من صلة السؤال بمقالة محددة، والحماية من تسرب الحل في السياق، ورفض الأوزان السلبية في المعايير، وترجمة المعايير إلى صيغة JSON صارمة.

وهذا يغيّر بالفعل اقتصاديات ما بعد التدريب.

ماذا يعني هذا

يوضح Autodata أن الطبقة التالية من المنافسة في الذكاء الاصطناعي قد تنتقل من "من درّب النموذج الأكبر" إلى "من بنى أفضل خط أنابيب للبيانات". بالنسبة للفرق التطبيقية، هذا مهم بشكل خاص: بدلاً من التعليقات اليدوية اللامحدودة، يمكنك استثمار الحساب في وكيل يختار بنفسه الأمثلة الصعبة والدقيقة والمفيدة حقاً لضبط وتقييم النماذج.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…