Habr AI→ المصدر

كيفية كتابة المطالبات لـ Midjourney و DALL-E و Kandinsky للحصول على صور دقيقة

إذا كان المولد يرسم قطة بستة عيون، فإن المشكلة غالباً لا تكون في النموذج بل في الطلب. تشرح المقالة كيفية بناء المطالبات طبقة تلو الأخرى: الموضوع والأسلوب…

معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
كيفية كتابة المطالبات لـ Midjourney و DALL-E و Kandinsky للحصول على صور دقيقة
المصدر: Habr AI. كولاج: Hamidun News.
◐ استمع للمقال

تحليل مولدات الصور يوضح السبب الذي يجعل النماذج غالبًا لا تلبي توقعات المستخدم. الفكرة الرئيسية بسيطة: المشكلة عادة لا تكون في النموذج، بل في طلب غامض جدًا.

لماذا لا تظهر النتائج المتوقعة

عندما يكتب المستخدم شيئًا مثل "قطة جميلة" أو "صورة شخصية جوية"، يُضطر النموذج إلى ملء التفاصيل بنفسه. بالنسبة إلى Midjourney و DALL-E و Kandinsky، هذه الكلمات عامة جدًا: فهي لا تحدد المشهد أو الأسلوب أو الإضاءة أو الزاوية. نتيجة لذلك، يختار المولد نسخة مُتوسطة، والتي تتحول بسهولة إلى مجموعة غريبة من الأشياء الاصطناعية والتفاصيل غير الضرورية والنسيج العشوائي. من هنا الصور التي تود إرسالها مباشرة إلى سلة المحذوفات.

الشبكات العصبية لتوليد الصور هي منفذة ممتازة، لكنها قارئة أفكار سيئة جدًا.

يؤكد المؤلفون أن النماذج تعمل بشكل أفضل مع التحديد، وليس مع العاطفة. إذا كنت بحاجة إلى واقعية فوتوغرافية، قل ذلك. إذا كانت الإضاءة الذهبية الدافئة والمقطع القريب وعدسة 85 ملم أو تصميم بالألوان المائية يحاكي النقوش من القرن التاسع عشر مهمة، فحدد كل ذلك مباشرة في الطلب. حتى ترتيب الكلمات يمكن أن يؤثر على النتيجة، لأن أجزاء مختلفة من الطلب تحدد الأولويات للتوليد. هذا ملحوظ بشكل خاص في المشاهد المعقدة بأجسام متعددة وخلفيات.

كيفية بناء طلب

يُنصح بتكوين طلب فعال مثل مواصفات تقنية قصيرة، وليس كرغبة مجردة. كلما قل تخمين النموذج، اقتربت النتيجة من التوقعات. بشكل أساسي، إنها مجموعة من طبقات الوصف الإلزامية التي يقرأها النموذج كنقاط مرجعية. بدونها، يعود إلى القوالب المتوسطة من بيانات التدريب. لذلك غالبًا ما تبدو الطلبات الجيدة جافة، تقريبًا مثل ملخص الإنتاج.

يمكن أن تبدو البنية الأساسية هكذا:

  • الكائن أو المشهد الرئيسي — من أو ما يتم تصويره، في أي إجراء وبيئة.
  • الأسلوب — صورة، ثلاثي الأبعاد، رسم توضيحي، أنيمي، ألوان مائية، نقش، أو إشارة إلى مدرسة بصرية.
  • الإضاءة والكاميرا — إضاءة ناعمة، إضاءة خلفية، low key، مقطع قريب، لقطة عامة، 35 ملم، 85 ملم، f/1.4.
  • التكوين والتفاصيل — الخلفية، المواد، الأجواء، لوحة الألوان، الموضع، التعبير، الموسم، وقت اليوم.
  • المعاملات التقنية — نسبة العرض إلى الارتفاع، الجودة، stylize، seed، وإعدادات أخرى للنموذج المحدد.

يساعد هذا النهج في تحويل فكرة غامضة إلى مجموعة من الخصائص القابلة للإدارة. في المقالة، ينصحون بالانتقال من العام إلى الخاص: أولاً وصف الكائن والسياق، ثم أضف الأسلوب والمعدلات التقنية. من المهم عدم تحميل الطلب بتناقضات. إذا طلبت في نفس الوقت الواقعية الفوتوغرافية والبساطة والتفاصيل المفرطة ونمط الرسوم المتحركة، سيبدأ النموذج في "تمزيق" الصورة بين نقاط مرجعية غير متوافقة. من الأسهل إجراء عدة تكرارات قصيرة بدلاً من طلب واحد محمّل لجميع الحالات دفعة واحدة.

كيفية التحكم في المخرجات

يُخصص قسم منفصل للتعديل الدقيق للنتائج. أوزان الكلمات والتعليمات السلبية ومعاملات التوليد مفيدة هنا. إذا كانت الخدمة تدعم تضخيم الرموز الفردية، يمكنك زيادة أولوية كائن أو أسلوب مهم. طلب سلبي، بالعكس، يزيل العناصر غير الضرورية: أصابع إضافية، أطراف إضافية، خلفية غير واضحة، نص، علامات مائية، أو أشياء غير مرغوبة في الصورة. هذا مهم بشكل خاص في عمليات التوليد المدفوعة، حيث تكلف كل محاولة إضافية الوقت أو المال.

يذكّر المؤلفون أيضًا بأن إعدادات النموذج ليست تفصيلة ثانوية. نسبة العرض إلى الارتفاع تحدد التكوين، وSeed يساعد في تكرار النتائج الناجحة، وتؤثر درجة التصميم والجودة على مدى "حرية" التفسير. في الممارسة العملية، هذا يعني دورة بسيطة: قدم طلبًا أساسيًا، تحقق من الأخطاء، عدّل معامل واحد، وتحقق مرة أخرى. هذا النهج التكراري يكون دائمًا فعالًا تقريبًا أكثر من إعادة كتابة الطلب بالكامل بعد كل توليد فاشل.

نصيحة عملية أخرى — لا تحاول وضع كل الأفكار في سطر واحد مرة واحدة. من الأفضل أولاً تجميع "هيكل عظمي" للصورة: كائن وأسلوب وإضاءة وزاوية. ثم أضف المواد والخلفية والأجواء أو التأثيرات الإضافية واحدة تلو الأخرى. هذا يسهل فهم أي كتلة محددة تكسر الصورة. إذا فقد الشخصية الواقعية بعد إضافة إضاءة سينمائية، يجب البحث عن المشكلة ليس في النموذج بأكمله، بل في المعدّل المحدد.

ماذا يعني هذا

المادة مفيدة لأنها تحول العمل مع مولدات الصور من وضع "السحر" إلى وضع الحرفة المفهومة. كلما وصف المستخدم المشهد والقيود واللغة البصرية بدقة أكبر، قل العشوائية في النتيجة. بالنسبة إلى المصممين والمسوقين ومنشئي المحتوى، هذا لم يعد مهارة اختيارية، بل طريقة عملية للحصول على الصورة الصحيحة بشكل أسرع دون توليدات لا نهائية. إنه يوفر المزيد من التحكم في النتيجة ويقلل من عدد التجارب الضائعة.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…