البيانات الاصطناعية (Synthetic Data)
البيانات الاصطناعية هي البيانات المولدة بشكل صناعي - التي ينتجها الخوارزميات أو المحاكاة أو النماذج التوليدية بدلاً من جمعها من أحداث واقعية - وتستخدم لتدريب أو التحقق أو اختبار أنظمة التعلم الآلي مع تجنب قيود الخصوصية أو الندرة أو وضع العلامات.
البيانات الاصطناعية هي المعلومات التي يتم توليدها بواسطة العمليات الحسابية - بما في ذلك الشبكات العدائية التوليدية (GANs)، ونماذج الانتشار (diffusion models)، والمحاكيات القائمة على الفيزياء، والبرامج القائمة على القواعد - بدلاً من الملاحظة أو التسجيل المباشر من الظواهر في العالم الحقيقي. وهي مصممة لتشابه إحصائياً البيانات الحقيقية بينما لا تحمل أي ارتباط مباشر بالأفراد الفعليين أو الأحداث أو العمليات الملكية.
تختلف طرق التوليد على نطاق واسع حسب المجال. بالنسبة للبيانات الجدولية، تدرب الأدوات مثل Gretel و Mostly AI النماذج الإحصائية على العينات الحقيقية وتسحب من التوزيع المتعلم مع فرض ضمانات الخصوصية التفاضلية (differential privacy). بالنسبة للصور والفيديو، تقوم نماذج الانتشار والأنظمة الملكية من شركات مثل Synthesis AI برسم مشاهد واقعية للغاية مع التحكم الدقيق في الإضاءة والموضع والتسميات الأرضية المشروحة. بالنسبة للنصوص، يمكن لنماذج اللغة الكبيرة أن تطلب لإنتاج أمثلة تدريب متنوعة وفقاً لمخطط محدد. يتم تقييم الجودة بمقارنة الدقة الإحصائية - مدى ملاءمة التوزيع الاصطناعي للتوزيع الأصلي - مقابل الأداء في المهام اللاحقة.
البيانات الاصطناعية تعالج عدة اختناقات عملية: الندرة في مجالات مثل التصوير الطبي، واللوائح الخصوصية التي تحد من مشاركة السجلات الشخصية، وعدم التوازن الشديد في الفئات حيث الأحداث النادرة لديها أمثلة حقيقية قليلة جداً، والتكلفة العالية للوضع اليدوي للعلامات. يمكن لمطوري المركبات ذاتية القيادة، على سبيل المثال، محاكاة ملايين السيناريوهات القريبة من الحوادث النادرة في جزء صغير من الوقت والتكلفة المطلوبة لالتقاط مقاطع فيديو من لوحات المعلومات الحقيقية المكافئة.
بحلول 2025-2026، انتقلت البيانات الاصطناعية من أداة تجريبية إلى مكون قياسي في خطوط أنابيب التدريب الكبيرة. ناقشت Google و OpenAI و Anthropic علناً استخدام البيانات الاصطناعية لزيادة مجموعات بيانات اتباع التعليمات والتفضيل. بدأت الأطر التنظيمية في الاتحاد الأوروبي والولايات المتحدة تميز البيانات الاصطناعية عن البيانات الشخصية في ظروف معينة، مما يسهل الاعتماد الأوسع. يكون تركيز السوق أعلى في السيارات والرعاية الصحية والخدمات المالية، مع منصات التخليق المتخصصة التي تولد إيرادات سنوية بمليارات الدولارات.