Habr AI→ original

Los generadores de imágenes con AI no son creativos: por qué y qué hacer

Hay generadores de imágenes con AI, pero tienen un problema: producen ilustraciones banales. Incluso los modelos más potentes son difíciles de hacer más creativ

Los generadores de imágenes con AI no son creativos: por qué y qué hacer
Fuente: Habr AI. Collage: Hamidun News.
◐ Escuchar artículo

Las ilustraciones para el texto se pueden generar en un par de minutos. ¿Pero por qué el resultado suele parecer sin rostro e desinteresante?

El

Generador Existe, la Creatividad No Los modelos de IA para crear imágenes realmente han dado una herramienta enorme a editores, especialistas en marketing y desarrolladores web. Descripción de texto → red neuronal → ilustración lista que no necesita ser encargada a un diseñador. Parecía que el problema del contenido visual estaba resuelto de una vez por todas.

Pero en la práctica, no funciona así. Incluso los modelos más poderosos (DALL-E, Midjourney, Flux) generan con entusiasmo imágenes banales y mundanas. Composiciones secundarias.

Rostros sin carácter. Escenas que has visto miles de veces. El problema no es que la imagen no encaje con el estilo del sitio.

El estilo incorrecto se puede solucionar. El verdadero problema es diferente: con una solicitud estándar, la red neuronal simplemente no crea. Produce lo que es confiable.

Lo que se conoce. Lo que ya se ha generado un millón de veces.

Por

Qué los Modelos Temen Experimentar Aquí está la raíz del problema: la IA se entrena en millones de ejemplos de internet. ¿Y cuál es la proporción de imágenes verdaderamente originales y creativas? Insignificantemente pequeña. La mayoría del contenido es repetición. Variaciones sobre un mismo tema. Cuando das una descripción breve, el modelo tiende hacia el resultado promediado y estadísticamente probable. Además, las redes neurales tienden al compromiso. Si escribes "programador en una oficina," el modelo elegirá algo intermedio entre miles de fotos de oficina de Pinterest y Adobe Stock. El resultado es seguro, profesional, pero aburrido.

  • El modelo se basa en estadísticas de datos de entrenamiento, donde las imágenes banales aparecen con más frecuencia Los prompts breves e imprecisos conducen a resultados promediados Las redes neurales evitan la experimentación sin instrucciones explícitas Las descripciones estándar casi garantizan imágenes estándar Se requiere una formulación muy precisa para extraer algo interesante ## Cómo Hacer Creativa la Red Neuronal No hay botón mágico. Pero hay una estrategia: formula lo más precisamente posible lo que quieres. Simplemente "oficina" no es suficiente—necesitas "oficina open-plan de los años 80 con divisiones de vidrio, luz amarilla de lámparas fluorescentes, paleta atenuada." Simplemente "robot" no es suficiente—necesitas "brazo robotizado con hidráulica, primer plano en los detalles del mecanismo, metal frío, iluminación industrial." Cuanto más específicamente describas detalles visuales, estética, iluminación, época, atmósfera, textura—menos probable es que la red neuronal entre en modo de compromiso estadístico. A veces ayuda especificar un estilo visual o fuente de inspiración: "en el estilo de un cartel científico de los años 60," "visión cinematográfica de Tarkovsky," "fotografía National Geographic."

Qué Significa Esto Los generadores de imágenes realmente funcionan, pero requieren habilidad.

No es solo presionar un botón. Es más bien una artesanía: la capacidad de visualizar con precisión una imagen y describirla de manera que la red neuronal no caiga en modo de compromiso estadístico. Para equipos de contenido, esto significa demanda de un nuevo especialista—entre redactor y diseñador, que domine tanto prompt engineering como lenguaje visual simultáneamente.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.
¿Qué te parece?
Cargando comentarios…