Habr AI→ original

Cómo Escribir Prompts para Midjourney, DALL-E y Kandinsky para Obtener Imágenes Precisas

Si un generador dibuja un gato con seis ojos, el problema a menudo no está en el modelo, sino en la solicitud. El artículo explica cómo construir prompts…

Procesado por IA desde Habr AI; editado por Hamidun News
Cómo Escribir Prompts para Midjourney, DALL-E y Kandinsky para Obtener Imágenes Precisas
Fuente: Habr AI. Collage: Hamidun News.
◐ Escuchar artículo

Un análisis de generadores de imágenes explica por qué los modelos frecuentemente no cumplen las expectativas del usuario. La idea principal es simple: el problema generalmente no está en el modelo, sino en una solicitud demasiado vaga.

Por qué no sale lo esperado

Cuando un usuario escribe algo como "un gato bonito" o "retrato atmosférico", el modelo se ve obligado a llenar los detalles por sí mismo. Para Midjourney, DALL-E o Kandinsky, tales palabras son demasiado generales: no establecen una escena, estilo, iluminación o ángulo. Como resultado, el generador elige una variante promediada, que fácilmente se convierte en un conjunto extraño de artefactos, detalles innecesarios y texturas aleatorias. De ahí los fotogramas que desearías enviar directamente a la papelera.

Las redes neuronales para generación de imágenes son excelentes

ejecutoras, pero terribles lectoras de mentes.

Los autores enfatizan que los modelos funcionan mejor con especificidades, no con emociones. Si necesitas fotorrealismo, dilo así. Si es importante una luz dorada cálida, primer plano, lente de 85 mm o estilización en acuarela siguiendo grabados del siglo XIX, especifica todo directamente en el prompt. Incluso el orden de las palabras puede afectar el resultado, porque diferentes partes del prompt establecen prioridades para la generación. Esto es especialmente notable en escenas complejas con múltiples objetos y fondos.

Cómo estructurar un prompt

Se sugiere que un prompt funcional se construya como una especificación técnica breve, no como un deseo abstracto. Cuanto menos adivine el modelo, más cercano será el resultado a las expectativas. Esencialmente, es un conjunto de capas obligatorias de descripción que el modelo lee como puntos de referencia. Sin ellas, vuelve a plantillas promediadas de los datos de entrenamiento. Por eso los buenos prompts a menudo se ven secos, casi como un brief de rodaje.

La estructura básica puede verse así:

  • Objeto o escena principal — quién o qué se retrata, en qué acción y entorno.
  • Estilo — foto, 3D, ilustración, anime, acuarela, grabado o referencia a una escuela visual.
  • Luz y cámara — luz suave, contraluz, low key, primer plano, plano general, 35 mm, 85 mm, f/1.4.
  • Composición y detalles — fondo, materiales, atmósfera, paleta de colores, pose, expresión, estación, hora del día.
  • Parámetros técnicos — relación de aspecto, calidad, stylize, seed y otras configuraciones del modelo específico.

Este enfoque ayuda a transformar una idea vaga en un conjunto de características manejables. En el artículo, aconsejan pasar de lo general a lo específico: primero describe el objeto y contexto, luego añade estilo y modificadores técnicos. Es importante no sobrecargar el prompt con contradicciones. Si simultáneamente pides fotorrealismo, minimalismo, hiperdetalle y estilo de dibujos animados, el modelo comenzará a "desgarrar" la imagen entre puntos de referencia incompatibles. Es más fácil hacer varias iteraciones cortas que una solicitud sobrecargada para todo de una vez.

Cómo controlar la salida

Una sección separada se dedica al ajuste fino de los resultados. Pesos de palabras, instrucciones negativas y parámetros de generación son útiles aquí. Si el servicio admite amplificación de tokens individuales, puedes aumentar la prioridad de un objeto o estilo importante. Un prompt negativo, por el contrario, elimina elementos innecesarios: dedos extras, miembros adicionales, fondo borroso, texto, marcas de agua u objetos no deseados en el fotograma. Esto es especialmente importante en generaciones de pago, donde cada intento adicional cuesta tiempo o dinero.

Los autores también recuerdan que las configuraciones del modelo no son un detalle secundario. La relación de aspecto determina la composición, seed ayuda a repetir resultados exitosos, y el grado de estilización y calidad afectan lo "libre" que será la interpretación. En la práctica, esto significa un ciclo simple: haz una solicitud básica, verifica fallos, ajusta un parámetro y verifica nuevamente. Este enfoque iterativo es casi siempre más efectivo que reescribir completamente el prompt después de cada generación fallida.

Otro consejo práctico — no intentes meter todas las ideas en una línea de una vez. Es mejor primero armar el "esqueleto" de la imagen: objeto, estilo, luz y ángulo. Luego añade materiales, fondo, atmósfera o efectos adicionales uno por uno. Esto facilita entender qué bloque específico está rompiendo la imagen. Si después de añadir cinematic lighting el personaje pierde realismo, el problema debe buscarse no en todo el modelo, sino en el modificador específico.

Qué significa esto

El material es útil porque desplaza el trabajo con generadores de imágenes del modo "magia" a oficio comprensible. Cuanto más precisamente describa el usuario la escena, restricciones y lenguaje visual, menos aleatoriedad habrá en el resultado. Para diseñadores, especialistas en marketing y creadores de contenido, esto ya no es una habilidad opcional, sino una forma práctica de obtener la imagen correcta más rápidamente sin regeneraciones infinitas. Proporciona más control sobre el resultado y reduce el número de experimentos desperdiciados.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…