Модели

Генерация изображений по тексту

Генерация изображений по тексту (Text-to-Image) — технология, при которой нейронная сеть создаёт изображение на основе текстового описания (промпта) на естественном языке.

Text-to-Image — направление генеративного ИИ, в котором модель принимает текстовый запрос и синтезирует соответствующее изображение. Область охватывает создание фотореалистичных сцен, иллюстраций, дизайн-концептов и художественных работ в различных стилях.

Современные системы в большинстве своём используют диффузионные модели: процесс начинается с изображения чистого шума, которое модель итеративно «очищает», ориентируясь на текстовый сигнал, закодированный через text encoder — обычно CLIP или T5. Среди ключевых систем: DALL-E 3 (OpenAI, 2023), Midjourney (v6–v7), Stable Diffusion 3, FLUX (Black Forest Labs, 2024), Imagen 3 (Google). Ряд систем использует авторегрессионные трансформеры вместо диффузии.

Технология меняет рабочие процессы в дизайне, рекламе, издательском деле и кино. Маркетинговые команды применяют её для быстрого создания визуалов, разработчики игр — для генерации концепт-артов. Одновременно она поднимает острые правовые вопросы об использовании защищённых авторским правом изображений в обучающих данных.

К 2026 году ведущие модели демонстрируют высокий уровень фотореализма и точно следуют сложным текстовым инструкциям. OpenAI интегрировала DALL-E 3 в ChatGPT, Google предлагает Imagen через Vertex AI и Gemini. В рамках AI Act Евросоюза синтетические изображения обязаны маркироваться как созданные ИИ.

Пример

Агентство цифрового маркетинга генерирует пять вариантов рекламного баннера за несколько минут, отправляя DALL-E 3 текстовый промпт с описанием продукта, цветовой гаммы и желаемого настроения, — вместо заказа у иллюстратора.

Связанные термины

Диффузионная модель Мультимодальная модель

← Глоссарий