Habr AI→ оригинал

كيفية كتابة المطالبات لـ Midjourney و DALL-E و Kandinsky للحصول على صور دقيقة

إذا كان المولد يرسم قطة بستة عيون، فإن المشكلة غالباً لا تكون في النموذج بل في الطلب. تشرح المقالة كيفية بناء المطالبات طبقة تلو الأخرى: الموضوع والأسلوب والإضا

كيفية كتابة المطالبات لـ Midjourney و DALL-E و Kandinsky للحصول على صور دقيقة
Источник: Habr AI. Коллаж: Hamidun News.

Разбор о генераторах изображений объясняет, почему модели так часто промахиваются мимо ожиданий пользователя. Главная мысль простая: проблема обычно не в модели, а в слишком расплывчатом запросе.

Почему выходит не то

Когда пользователь пишет что-то вроде «красивый кот» или «атмосферный портрет», модель вынуждена додумывать детали сама. Для Midjourney, DALL-E или Kandinsky такие слова слишком общие: они не задают ни сцену, ни стиль, ни свет, ни ракурс. В результате генератор выбирает усреднённый вариант, который легко превращается в странный набор артефактов, лишних деталей и случайных текстур. Отсюда и кадры, которые хочется сразу отправить в корзину.

Нейросети для генерации изображений — отличные исполнители, но ужасные телепаты.

Авторы подчёркивают, что модели лучше работают не с эмоцией, а с конкретикой. Если нужен фотореализм, надо так и сказать. Если важен тёплый золотой свет, крупный план, объектив 85 мм или акварельная стилизация под гравюры XIX века, всё это лучше прописать прямо в запросе. Даже порядок слов может влиять на итог, потому что разные части промпта задают приоритеты для генерации. Особенно заметно это в сложных сценах с несколькими объектами и фоном.

Из чего собрать промпт

Рабочий промпт предлагают собирать как короткое техническое задание, а не как абстрактное пожелание. Чем меньше модель гадает, тем ближе результат к ожиданию. По сути, это набор обязательных слоёв описания, которые модель читает как ориентиры.

Без них она снова возвращается к усреднённым шаблонам из обучающей выборки. Именно поэтому хорошие промпты часто выглядят сухо, почти как бриф для съёмки. Базовая структура может выглядеть так: * Главный объект или сцена — кто или что изображено, в каком действии и окружении.

Стиль — фото, 3D, иллюстрация, аниме, акварель, гравюра или отсылка к визуальной школе. Свет и камера — мягкий свет, контровой свет, low key, крупный план, wide shot, 35 mm, 85 mm, f/1.4.

Композиция и детали — фон, материалы, настроение, цветовая палитра, поза, мимика, сезон, время суток. Технические параметры — соотношение сторон, качество, stylize, seed и другие настройки конкретной модели. Такой подход помогает превращать расплывчатую идею в набор управляемых признаков.

В статье советуют двигаться от общего к частному: сначала описать объект и контекст, потом добавить стиль и технические модификаторы. Важно не перегружать промпт противоречиями. Если одновременно просить фотореализм, минимализм, гипердетализацию и мультяшность, модель начнёт «рвать» картинку между несовместимыми ориентирами.

Проще сделать несколько коротких итераций, чем один перегруженный запрос на все случаи сразу.

Как управлять выдачей Отдельный блок посвящён точечной настройке результата.

Здесь полезны вес слов, негативные инструкции и параметры генерации. Если сервис поддерживает усиление отдельных токенов, можно повышать приоритет важного объекта или стиля. Негативный промпт, наоборот, убирает лишнее: дополнительные пальцы, лишние конечности, размытый фон, текст, водяные знаки или нежелательные предметы в кадре.

Это особенно важно в платных генерациях, где каждая лишняя попытка стоит времени или денег. Авторы также напоминают, что настройки модели — не второстепенная мелочь. Соотношение сторон определяет композицию, seed помогает повторять удачные результаты, а степень стилизации и качество влияют на то, насколько «вольной» будет интерпретация.

На практике это означает простой цикл: сделал базовый запрос, посмотрел на сбои, поправил один параметр и проверил снова. Такой итеративный подход почти всегда эффективнее, чем полностью переписывать промпт после каждой неудачной генерации. Ещё один практический совет — не пытаться уместить в одну строку все идеи сразу.

Сначала лучше собрать «скелет» изображения: объект, стиль, свет и ракурс. Затем по одному добавлять материалы, фон, настроение или дополнительные эффекты. Так проще понять, какой именно блок ломает картинку.

Если после добавления cinematic lighting персонаж теряет реализм, искать причину нужно не во всей модели, а в конкретном модификаторе.

Что это значит

Материал полезен тем, что переводит работу с генераторами изображений из режима «магии» в режим понятного ремесла. Чем точнее пользователь описывает сцену, ограничения и визуальный язык, тем меньше случайности в результате. Для дизайнеров, маркетологов и авторов контента это уже не факультативный навык, а практический способ быстрее получать нужную картинку без бесконечных перегенераций. Это даёт больше контроля над результатом и сокращает число пустых экспериментов.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…