كيفية كتابة المطالبات لـ Midjourney و DALL-E و Kandinsky للحصول على صور دقيقة

إذا كان المولد يرسم قطة بستة عيون، فإن المشكلة غالباً لا تكون في النموذج بل في الطلب. تشرح المقالة كيفية بناء المطالبات طبقة تلو الأخرى: الموضوع والأسلوب والإضاءة والتكوين والمعاملات. كما توصي بشكل منفصل باستخدام التعليمات السلبية وأوزان الكلمات والتحسين التكراري بدلاً من الإعادة العشوائية. يساعد هذا في الوصول إلى الصورة المطلوبة بشكل أسرع وتقليل الأخطاء.

Khamidun Zhemal

رصد الذكاء الاصطناعي · Habr AI

30 أبريل 2026· 3 د

معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News

كيفية كتابة المطالبات لـ Midjourney و DALL-E و Kandinsky للحصول على صور دقيقة — المصدر: Habr AI. كولاج: Hamidun News.

◐ استمع للمقال

تحليل مولدات الصور يوضح السبب الذي يجعل النماذج غالبًا لا تلبي توقعات المستخدم. الفكرة الرئيسية بسيطة: المشكلة عادة لا تكون في النموذج، بل في طلب غامض جدًا.

لماذا لا تظهر النتائج المتوقعة

عندما يكتب المستخدم شيئًا مثل "قطة جميلة" أو "صورة شخصية جوية"، يُضطر النموذج إلى ملء التفاصيل بنفسه. بالنسبة إلى Midjourney و DALL-E و Kandinsky، هذه الكلمات عامة جدًا: فهي لا تحدد المشهد أو الأسلوب أو الإضاءة أو الزاوية. نتيجة لذلك، يختار المولد نسخة مُتوسطة، والتي تتحول بسهولة إلى مجموعة غريبة من الأشياء الاصطناعية والتفاصيل غير الضرورية والنسيج العشوائي. من هنا الصور التي تود إرسالها مباشرة إلى سلة المحذوفات.

الشبكات العصبية لتوليد الصور هي منفذة ممتازة، لكنها قارئة أفكار سيئة جدًا.

يؤكد المؤلفون أن النماذج تعمل بشكل أفضل مع التحديد، وليس مع العاطفة. إذا كنت بحاجة إلى واقعية فوتوغرافية، قل ذلك. إذا كانت الإضاءة الذهبية الدافئة والمقطع القريب وعدسة 85 ملم أو تصميم بالألوان المائية يحاكي النقوش من القرن التاسع عشر مهمة، فحدد كل ذلك مباشرة في الطلب. حتى ترتيب الكلمات يمكن أن يؤثر على النتيجة، لأن أجزاء مختلفة من الطلب تحدد الأولويات للتوليد. هذا ملحوظ بشكل خاص في المشاهد المعقدة بأجسام متعددة وخلفيات.

كيفية بناء طلب

يُنصح بتكوين طلب فعال مثل مواصفات تقنية قصيرة، وليس كرغبة مجردة. كلما قل تخمين النموذج، اقتربت النتيجة من التوقعات. بشكل أساسي، إنها مجموعة من طبقات الوصف الإلزامية التي يقرأها النموذج كنقاط مرجعية. بدونها، يعود إلى القوالب المتوسطة من بيانات التدريب. لذلك غالبًا ما تبدو الطلبات الجيدة جافة، تقريبًا مثل ملخص الإنتاج.

يمكن أن تبدو البنية الأساسية هكذا:

الكائن أو المشهد الرئيسي — من أو ما يتم تصويره، في أي إجراء وبيئة.
الأسلوب — صورة، ثلاثي الأبعاد، رسم توضيحي، أنيمي، ألوان مائية، نقش، أو إشارة إلى مدرسة بصرية.
الإضاءة والكاميرا — إضاءة ناعمة، إضاءة خلفية، low key، مقطع قريب، لقطة عامة، 35 ملم، 85 ملم، f/1.4.
التكوين والتفاصيل — الخلفية، المواد، الأجواء، لوحة الألوان، الموضع، التعبير، الموسم، وقت اليوم.
المعاملات التقنية — نسبة العرض إلى الارتفاع، الجودة، stylize، seed، وإعدادات أخرى للنموذج المحدد.

يساعد هذا النهج في تحويل فكرة غامضة إلى مجموعة من الخصائص القابلة للإدارة. في المقالة، ينصحون بالانتقال من العام إلى الخاص: أولاً وصف الكائن والسياق، ثم أضف الأسلوب والمعدلات التقنية. من المهم عدم تحميل الطلب بتناقضات. إذا طلبت في نفس الوقت الواقعية الفوتوغرافية والبساطة والتفاصيل المفرطة ونمط الرسوم المتحركة، سيبدأ النموذج في "تمزيق" الصورة بين نقاط مرجعية غير متوافقة. من الأسهل إجراء عدة تكرارات قصيرة بدلاً من طلب واحد محمّل لجميع الحالات دفعة واحدة.

كيفية التحكم في المخرجات

يُخصص قسم منفصل للتعديل الدقيق للنتائج. أوزان الكلمات والتعليمات السلبية ومعاملات التوليد مفيدة هنا. إذا كانت الخدمة تدعم تضخيم الرموز الفردية، يمكنك زيادة أولوية كائن أو أسلوب مهم. طلب سلبي، بالعكس، يزيل العناصر غير الضرورية: أصابع إضافية، أطراف إضافية، خلفية غير واضحة، نص، علامات مائية، أو أشياء غير مرغوبة في الصورة. هذا مهم بشكل خاص في عمليات التوليد المدفوعة، حيث تكلف كل محاولة إضافية الوقت أو المال.

يذكّر المؤلفون أيضًا بأن إعدادات النموذج ليست تفصيلة ثانوية. نسبة العرض إلى الارتفاع تحدد التكوين، وSeed يساعد في تكرار النتائج الناجحة، وتؤثر درجة التصميم والجودة على مدى "حرية" التفسير. في الممارسة العملية، هذا يعني دورة بسيطة: قدم طلبًا أساسيًا، تحقق من الأخطاء، عدّل معامل واحد، وتحقق مرة أخرى. هذا النهج التكراري يكون دائمًا فعالًا تقريبًا أكثر من إعادة كتابة الطلب بالكامل بعد كل توليد فاشل.

نصيحة عملية أخرى — لا تحاول وضع كل الأفكار في سطر واحد مرة واحدة. من الأفضل أولاً تجميع "هيكل عظمي" للصورة: كائن وأسلوب وإضاءة وزاوية. ثم أضف المواد والخلفية والأجواء أو التأثيرات الإضافية واحدة تلو الأخرى. هذا يسهل فهم أي كتلة محددة تكسر الصورة. إذا فقد الشخصية الواقعية بعد إضافة إضاءة سينمائية، يجب البحث عن المشكلة ليس في النموذج بأكمله، بل في المعدّل المحدد.

ماذا يعني هذا

المادة مفيدة لأنها تحول العمل مع مولدات الصور من وضع "السحر" إلى وضع الحرفة المفهومة. كلما وصف المستخدم المشهد والقيود واللغة البصرية بدقة أكبر، قل العشوائية في النتيجة. بالنسبة إلى المصممين والمسوقين ومنشئي المحتوى، هذا لم يعد مهارة اختيارية، بل طريقة عملية للحصول على الصورة الصحيحة بشكل أسرع دون توليدات لا نهائية. إنه يوفر المزيد من التحكم في النتيجة ويقلل من عدد التجارب الضائعة.

Hamidun News

أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 50 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

قناة Telegram RSS hamidun.com

هل تحتاج إلى ذكاء اصطناعي يعمل داخل شركتك — وليس فقط في موجز الأخبار؟

أبني ذكاءً اصطناعياً جاهزاً للإنتاج للشركات — أنظمة CRM مخصّصة، أدوات داخلية، وكلاء مستقلون، أتمتة سير العمل. ملك لك، مصمّم وفق عمليتك، دون رسوم لكل مستخدم. من إعداد جمال خميدون، مدير المنتجات في AlpinaGPT (منصة ذكاء اصطناعي، أكثر من 6000 مستخدم).

احجز استشارة مجانية →