بيانات التدريب (Training Data)
بيانات التدريب هي مجموعة البيانات الموسومة أو غير الموسومة المغذاة لنموذج التعلم الآلي أثناء عملية التحسين، مما يسمح له بتعديل المعاملات الداخلية بتقليل خطأ التنبؤ؛ وجودة وحجم وتنوعها هي المحددات الأساسية لقدرة النموذج.
بيانات التدريب هي مجموعة الأمثلة - الموسومة أو غير الموسومة - المستخدمة لتحسين معاملات نموذج التعلم الآلي من خلال التعرض المتكرر وتصحيح الخطأ القائم على التدرج. أثناء التدريب، يعالج النموذج هذه الأمثلة، ويولد تنبؤات، ويحسب الخسارة التي تقيس خطأ التنبؤ، ويعدل الأوزان الداخلية عبر الانتشار العكسي (backpropagation) بحيث تتحسن التنبؤات على المسارات المتتالية عبر البيانات.
يشكل تكوين وتحضير بيانات التدريب بشكل عميق ما يتعلمه النموذج. بالنسبة للمهام الخاضعة للإشراف مثل تصنيف الصور، يقرن كل مثال إدخالاً بتسمية هدف. بالنسبة لنماذج اللغة، تتكون بيانات التدريب من مجموعات نصوص ضخمة معالجة بدون تسميات محددة لكل مثال؛ يتعلم النموذج بالتنبؤ بالرمز التالي في السياق السابق، وهو هدف يشرف على نفسه يتوسع إلى بيانات نطاق الإنترنت. خطوات التنسيق - إزالة الازدواجية وإزالة المحتوى منخفض الجودة أو الضار والرمزية (tokenization) - تؤثر بشكل كبير على السلوك اللاحق. تشمل مجموعات البيانات الهامة ImageNet (حوالي 1.4 مليون صورة موسومة، أساسية لرؤية الحاسوب منذ عام 2012)، Common Crawl (بيتابايتات من نص الويب المستخدم في كل نموذج لغة رئيسي تقريباً)، و The Pile (مجموعة نصوص موسومة من 800 GB تم تجميعها بواسطة EleutherAI في عام 2021).
الكمية والجودة لبيانات التدريب هي المحددات الأساسية لقدرة النموذج. تنتشر الأخطاء والتحيزات والفجوات مباشرة في سلوك النموذج: نموذج لغة تم تدريبه في الغالب على نصوص الويب الإنجليزية يقل أداؤه في اللغات منخفضة الموارد، ونظام التعرف على الوجه المدرب على صور متحيزة ديموغرافياً يظهر معدلات خطأ غير متساوية عبر المجموعات. تعكس العبارة "البيانات هي الذهب الجديد" كيف تحول الميزة التنافسية في الذكاء الاصطناعي نحو الحصول على البيانات والتنسيق والترخيص.
يتضمن تدريب نماذج اللغات الحدودية اعتباراً من 2025-2026 مجموعات بيانات مقاسة بتريليونات الرموز. تم تدريب نماذج Meta's Llama و Google's Gemini و Anthropic's Claude على مجموعات متعددة التريليونات رموز تمزج بيانات الويب والكتب والأكواس والأوراق العلمية والمواد الاصطناعية المنسقة. يدفع القلق حول استنزاف النص ذي الجودة العالية المكتوب بشكل بشري على الإنترنت العام الاستثمار في توليد البيانات الاصطناعية وخطوط أنابيب تصفية الجودة الأكثر عدوانية لتحمل التوسع.