النماذج

الذكاء الاصطناعي التوليدي (Generative AI)

يشير الذكاء الاصطناعي التوليدي إلى أنظمة تعلم الآلة التي تنتج محتوى جديد — نصوص وصور وصوت وفيديو أو كود — عن طريق تعلم الأنماط الإحصائية من مجموعات بيانات تدريب كبيرة. على عكس النماذج التمييزية التي تصنف البيانات الموجودة، تركب النماذج التوليدية المخرجات التي لم تكن موجودة من قبل.

تتعلم أنظمة الذكاء الاصطناعي التوليدي نمذجة التوزيع الأساسي لبيانات التدريب والعينة من هذا التوزيع لإنشاء حالات جديدة. تتضمن الفئة نماذج اللغة الكبيرة (LLMs) للنصوص والكود ونماذج الانتشار للصور والفيديو والنماذج الانحدارية للتركيب الصوتي. يتم تدريب الأنظمة الحديثة على مجموعات بيانات تتراوح من مئات المليارات إلى تريليونات الرموز أو مليارات أزواج الصور والنصوص، مما يتطلب مجموعات حسابية لآلاف المسرعات تعمل لأسابيع أو أشهر.

المعماريات السائدة هي محولات الانحدار الذاتي — سلسلة GPT و LLaMA و Claude و Gemini — لتوليد النصوص، ونماذج الانتشار الكامنة — Stable Diffusion و DALL-E 3 و Flux — للتركيب الصوري. يتم التدريب المسبق لنماذج النصوص عن طريق التنبؤ بالرمز التالي ثم محاذاتها مع التفضيلات البشرية من خلال ضبط التعليمات الدقيق والتعلم التعزيزي من تعليقات البشر (RLHF) أو تحسين التفضيل المباشر (DPO). تقوم نماذج الصور بإزالة الضوضاء بشكل متكرر من عينات من ضوضاء غاوسية موجهة بواسطة تضمينات نصية، وهي عملية تم تحسينها من خلال التدريب المسبق على تباين لغة الصورة.

يأتمتة الذكاء الاصطناعي التوليدي ويعزز المهام التي كانت تتطلب سابقاً خبرة بشرية متخصصة: الكتابة والكود والتصميم الجرافيكي وتأليف الموسيقى وإنتاج الفيديو. يمكن لنموذج واحد قادر أن يعمل في نفس الوقت كمساعد برمجة ووكيل خدمة عملاء وملخص مستند ومحلل بيانات. قدرت أبحاث McKinsey في عام 2023 الأثر الاقتصادي السنوي المحتمل بـ 2.6–4.4 تريليون دولار عبر الصناعات من مكاسب الإنتاجية التي تمكنها هذه الأنظمة.

اعتباراً من عام 2026، تتضمن نماذج النصوص الرائدة GPT-4o و o3 من OpenAI و Claude 4-series من Anthropic و Gemini 2.x من Google ونماذج مفتوحة المصدر مثل LLaMA 3 من Meta. نضجت توليد الفيديو مع أنظمة مثل Sora من OpenAI و Veo 2 من Google و Kling تنتج مقاطع واقعية فوتوغرافية متعددة الثواني من الطلبات النصية. أصبحت النماذج متعددة الأوجه التي تعالج وتولد عبر النصوص والصور والصوت والفيديو في نفس الوقت معيارية، وانخفضت تكاليف الاستدلال بحوالي درتين من حيث الحجم مقارنة بعام 2023.

مثال

تنشر شركة برامج مساعد ترميز ذكاء اصطناعي توليدي مضبوط بدقة على قاعدة الكود الداخلية الخاصة بها؛ يستخدمه المطورون لصياغة دوال نموذجية وإنشاء اختبارات وحدات وترجمة وحدات Python إلى TypeScript، مما يقلل الوقت المنفق على مهام الترميز الروتينية بنسبة مقدرة 30–40٪.

مصطلحات مرتبطة

آخر الأخبار حول الموضوع

← المسرد