مولدات الصور بالـ AI ليست مبدعة: لماذا وما الذي يمكن فعله
مولدات الصور بالـ AI موجودة، لكن لديها مشكلة: فهي تنتج رسوما توضيحية مبتذلة. وحتى النماذج القوية يصعب دفعها إلى الإبداع. ما الحل؟ أن تصف بدقة قدر الإمكان ما تحت

يمكن توليد الرسومات التوضيحية للنص في بضع دقائق. لكن لماذا تبدو النتيجة غالباً بلا وجه وغير مثيرة للاهتمام؟ ## المولد موجود، الإبداع غير موجود لقد منحت نماذج الذكاء الاصطناعي لإنشاء الصور فعلاً أداة ضخمة للمحررين والمسوقين ومطوري الويب. وصف نصي → شبكة عصبية → رسومة توضيحية جاهزة لا تحتاج إلى تكليف مصمم بها.
بدا أن مشكلة المحتوى البصري قد تم حلها بشكل نهائي. لكن في الممارسة العملية، الأمر ليس كذلك. حتى أقوى النماذج (DALL-E و Midjourney و Flux) تنتج بكل سرور صوراً سطحية وعادية.
تركيبات ثانوية. وجوه بلا شخصية. مشاهد رأيتها آلاف المرات.
المشكلة ليست أن الصورة لا تتطابق مع نمط الموقع. يمكن إصلاح النمط الخاطئ. المشكلة الحقيقية مختلفة تماماً: مع استفسار عادي، الشبكة العصبية ببساطة لا تبدع.
تنتج ما هو موثوق. ما هو معروف. ما تم توليده بالفعل مليون مرة.
لماذا النماذج تخاف من التجريب إليكم جذر المشكلة: يتم تدريب الذكاء
الاصطناعي على ملايين الأمثلة من الإنترنت. فما هي نسبة الصور الأصلية والإبداعية حقاً؟ صغيرة جداً وضئيلة جداً. معظم المحتوى تكرار.
تنويعات على نفس الموضوع. عندما تعطي وصفاً موجزاً، تميل النموذج نحو النتيجة المتوسطة والمحتملة إحصائياً. علاوة على ذلك، تميل الشبكات العصبية نحو التسوية.
إذا كتبت "مبرمج في مكتب"، ستختار النموذج شيئاً وسطاً بين آلاف صور المكاتب من Pinterest و Adobe Stock. النتيجة آمنة واحترافية لكنها مملة. تعتمد النموذج على إحصائيات بيانات التدريب حيث تظهر الصور السطحية بتكرار أعلى المطالبات الموجزة والغير دقيقة تؤدي إلى نتائج متوسطة تتجنب الشبكات العصبية التجريب بدون تعليمات صريحة الأوصاف القياسية تقريباً تضمن صوراً قياسية * يتطلب صياغة دقيقة جداً لاستخراج شيء مثير للاهتمام ## كيفية جعل الشبكة العصبية مبدعة لا توجد زر سحري.
لكن توجد استراتيجية: صِغ بأكبر دقة ممكنة ما تريده. "مكتب" بسيط لن يكفي—تحتاج إلى "مكتب مفتوح من الثمانينيات مع أقسام زجاجية وإضاءة صفراء من مصابيح فلورسنت وألوان مكتومة". "روبوت" بسيط لن يكفي—تحتاج إلى "ذراع روبوتية بأنظمة هيدروليكية وتكبير على تفاصيل الآلية والمعادن الباردة والإضاءة الصناعية".
كلما وصفت بشكل أكثر تحديداً التفاصيل البصرية والجماليات والإضاءة والحقبة والمزاج والملمس—كلما قلت احتمالية دخول الشبكة العصبية لنمط التسوية الإحصائية. أحياناً يساعد تحديد أسلوب بصري أو مصدر إلهام: "بأسلوب ملصق علمي من الستينيات" و"رؤية تاركوفسكي السينمائية" و"تصوير ناشيونال جيوجرافيك".
ماذا يعني هذا مولدات الصور تعمل فعلاً لكنها تتطلب مهارة. ليس مجرد
الضغط على زر. إنها بالأحرى حرفة: القدرة على تصور صورة بدقة وصفها بطريقة لا تدخل الشبكة العصبية نمط التسوية الإحصائية. بالنسبة لفرق المحتوى يعني هذا الطلب على متخصص جديد—بين كاتب النسخ والمصمم يتقن هندسة المطالبات واللغة البصرية معاً.
Хотите не читать про ИИ, а внедрить его?
«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.