نموذج تحويل النص إلى صور (Text-to-Image Model)
نموذج تحويل النص إلى صور هو نظام ذكاء اصطناعي توليدي ينتج صوراً نقطية من نصوص طبيعية اللغة، حيث يدمج محتوى بصرياً يطابق المشهد أو الأسلوب أو الموضوع المشار إليه.
نموذج تحويل النص إلى صور هو شبكة عصبية توليدية تقبل وصفاً باللغة الطبيعية كمدخل وتخرج صورة مقابلة. يجب أن يتعلم النموذج تعييناً بين فضاء الأوصاف النصية وفضاء توزيعات البكسل البصرية، منتجاً صوراً متماسكة بصرياً وموفية للمطالبة.
برزت معماريتان سائدتان. نماذج الانتشار—المستخدمة في Stable Diffusion و DALL-E 3—تبدأ من الضوضاء الغاوسية وتقلل الضوضاء بشكل متكرر نحو صورة متماسكة موجهة بواسطة تضمينات نصية ينتجها محرر CLIP أو قائم على T5. تتعلم مناهج مطابقة التدفق، المستخدمة في Flux.1 (Black Forest Labs، 2024)، تحويلات مستمرة بين توزيعات الضوضاء والبيانات التي تكون أسرع حسابياً في الأخذ. يتطلب التدريب مجموعات بيانات ضخمة للصور والتعليقات؛ كانت مجموعة بيانات LAION-5B المفتوحة (5 مليارات زوج) مستخدمة على نطاق واسع لنماذج مفتوحة المصدر، بينما تستخدم الأنظمة التجارية مجموعات نصوص مملوكة مفلترة. تسمح تقنيات مثل التوجيه الخالي من المصنف للمستخدمين بالمقايضة بين تنوع المخرجات وأمانة المطالبة في وقت الاستدلال.
غيّرت نماذج تحويل النص إلى صور بشكل جوهري سير العمل الإبداعية والتجارية: يستخدمها المصممون للنمذجة السريعة للمفاهيم، ويولد المسوقون صوراً إعلانية دون جلسات تصوير، وينتج صناع الأفلام لوحات أحداث بجزء من التكاليف التقليدية. لقد أثارت في الوقت نفسه نقاشات جادة حول حقوق الطبع والموافقة، حيث غالباً ما تحتوي مجموعات البيانات التدريبية على أعمال الفنانين دون إذن صريح، مما أدى إلى دعاوى قضائية في عدة اختصاصات بحلول عام 2024.
بحلول منتصف 2025، اشتملت الأنظمة الجاهزة للإنتاج على Midjourney v6 و Adobe Firefly 3 (المدرب على محتوى مرخص) و OpenAI DALL-E 3 (المدمج في ChatGPT) و Stable Diffusion 3.5 (Stability AI) و Google Imagen 3 و Flux.1 من Black Forest Labs. أصبح من الصعب التمييز بين المخرجات الواقعية الفوتوغرافية والصور الفوتوغرافية للوهلة الأولى، بينما تحسنت الالتزام بالمطالبات وتصيير النص داخل الصور—نقاط الضعف التاريخية—بشكل ملحوظ مع نماذج الجيل الثالث والرابع.