Modelo Text-to-Image
Um modelo text-to-image é um sistema de IA generativa que produz imagens raster a partir de prompts em linguagem natural, sintetizando conteúdo visual que corresponde à cena, estilo ou assunto descrito.
Um modelo text-to-image é uma rede neural generativa que aceita uma descrição em linguagem natural como entrada e produz uma imagem correspondente. O modelo deve aprender um mapeamento entre o espaço de descrições textuais e o espaço de distribuições de pixels visuais, produzindo imagens que sejam coerentes visualmente e fiéis ao prompt.
Duas arquiteturas dominantes emergiram. Modelos de difusão—usados em Stable Diffusion e DALL-E 3—começam com ruído gaussiano e iterativamente reduzem ruído em direção a uma imagem coerente guiada por embeddings de texto produzidos por um codificador baseado em CLIP ou T5. Abordagens de flow-matching, usadas em Flux.1 (Black Forest Labs, 2024), aprendem transformações contínuas entre ruído e distribuições de dados que são computacionalmente mais rápidas para amostrar. O treinamento requer conjuntos de dados massivos de imagem-legenda; o conjunto de dados aberto LAION-5B (5 bilhões de pares) foi amplamente usado para modelos de código aberto, enquanto sistemas comerciais usam corpora filtrados proprietários. Técnicas como classifier-free guidance permitem aos usuários trocar diversidade de saída por fidelidade ao prompt no tempo de inferência.
Modelos text-to-image mudaram substancialmente fluxos de trabalho criativos e comerciais: designers os usam para prototipagem rápida de conceitos, marqueteiros geram visuais de anúncios sem sessões fotográficas, e cineastas produzem storyboards por uma fração dos custos tradicionais. Simultaneamente levantaram debates sérios sobre copyright e consentimento, pois conjuntos de dados de treinamento frequentemente continham trabalho de artistas sem permissão explícita, levando a processos em múltiplas jurisdições até 2024.
Por meados de 2025, sistemas de nível de produção incluíam Midjourney v6, Adobe Firefly 3 (treinado em conteúdo licenciado), OpenAI DALL-E 3 (integrado ao ChatGPT), Stable Diffusion 3.5 (Stability AI), Google Imagen 3 e Flux.1 da Black Forest Labs. Saídas fotorrealistas se tornaram difíceis de distinguir de fotografias à primeira vista, enquanto adesão ao prompt e renderização de texto dentro de imagens—historicamente pontos fracos—melhoraram marcadamente com modelos de terceira e quarta geração.