كيف نعلّم نموذجًا لغويًا أن يكتب بأسلوب لا يمكن تمييزه عن أسلوب تحرير بشري
نُشر على Habr شرحٌ لمهمة تقنية لافتة: كيف نعلّم نموذجًا لغويًا أن يكتب ليس فقط نصوصًا جيدة، بل نصوصًا بأسلوب جهة نشر محددة — بوابة محلية، قناة على Telegram،…
معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
لا يعمل مطالبة مثل 'اكتب مثل صحفي'. هذا أول شيء يكتشفه أي شخص يحاول استخدام نماذج اللغة لتوليد محتوى لمنفذ إعلامي معين. يخرج النص سلساً، وصحيحاً نحوياً، وأحياناً حتى جذاباً—لكنه لا يبدو وكأنه المنشور المطلوب. يبدو وكأنه ChatGPT يتظاهر بأنه صحفي. قررت مجموعة من المطورين حل هذه المشكلة بالضبط، مع ظهور تحليلهم التقني المفصل على Habr.
مؤلف المنشور—لينا، التي تنشر للمرة الأولى على المنصة—تصف المهمة بصراحة عزل. لم تكن الهدف أن تكتب النموذج 'بشكل جيد'. كانت الهدف أن يكون النص غير قابل للتمييز عن ما كتبه فريق تحرير محدد: بوابة مدينة محددة، قناة Telegram محددة، منشور متخصص محدد. الفرق بين هاتين الصيغتين هو هاوية تبتلع معظم محاولات أتمتة المحتوى.
لماذا هذا صعب حتى؟ أسلوب المنشور ليس مجموعة من القواعد التي يمكن كتابتها في مطالبة نظام. إنها مئات من الأنماط الضمنية: طول الجملة، تكرار التعبيرات المحادثة، التفضيل بين بنى بناء جملة معينة، الطرق المميزة لبدء وإنهاء الفقرات، حتى 'العيوب' النمطية—مثل عادة فريق تحرير معين في الإفراط في استخدام الشرطات أو وضع نقاط بعد كل عنصر قائمة. تقوم نماذج اللغة افتراضياً بحساب متوسط كل هذا إلى نوع من 'نص مكتوب بشكل عام جيد' لا ينتمي إلى أحد.
يصل النهج السذج—مطالبة مفصلة تصف الأسلوب—إلى سقف تقريباً على الفور. يمكنك أن تكتب: 'استخدم جملاً قصيرة، نبرة محادثة، ابدأ بسؤال استفزازي'. ستتبع النموذج التعليمات بجد، لكن النتيجة ستكون كاريكاتيرا وليست محاكاة. إنه مثل طلب من ممثل أن يلعب 'شخص حزين'—سيريك نمطاً من الحزن، وليس شخص حزين محدد. تصف مطالبة الأسلوب نوعاً، وليس صوتاً.
الخطوة المنطقية التالية هي أمثلة few-shot، حيث يتم إعطاء النماذج عدة نصوص نموذجية من المنشور المستهدف مباشرة في سياق الطلب. يعمل هذا بشكل ملحوظ بشكل أفضل، لكنه ينشئ مشاكل جديدة. نافذة السياق ليست لا نهائية، وكلما زاد عدد الأمثلة التي تحملها، قل المجال المتبقي للمهمة الفعلية. علاوة على ذلك، تبدأ النموذج في نسخ عبارات وحقائق محددة من الأمثلة بدلاً من تجريد الأسلوب. إنه يحفظ السطح وليس الهيكل.
الحل الحقيقي الفعال، الذي تتوصل إليه الفريق، يقع في تقاطع عدة نهج. يسمح الضبط الدقيق على مجموعة من نصوص المنشور للنموذج 'بامتصاص' الأنماط الأسلوبية على مستوى الأوزان وليس السياق. لكن هناك مخاطر هنا أيضاً: تحتاج إلى حجم كافٍ من البيانات، الفلترة الدقيقة مطلوبة، و—والأهم من ذلك—تحتاج إلى مقاييس تقيس التشابه الأسلوبي وليس فقط جودة النص. المعايير القياسية مثل الارتباك أو درجة BLEU غير مفيدة هنا. طورت الفريق مقاييسهم الخاصة، وتحلل توزيع طول الجملة والتنوع المعجمي وتكرار العلامات الأسلوبية والمعاملات الأخرى التي معاً تنشئ 'بصمة' المنشور.
هذه الحالة مثيرة للاهتمام ليس فقط كتحدٍ تقني. إنها تسلط الضوء على سؤال أساسي حول مستقبل وسائل الإعلام: إذا كان من الممكن تعليم نموذج لمحاكاة أسلوب تحريري بشكل لا يمكن تمييزه، فماذا يعني هذا لمفهوم الصوت التحريري نفسه؟ من ناحية، إنها أداة توسع قوية—فريق تحرير صغير يمكنه إنشاء محتوى أكثر مع الحفاظ على التماسك الأسلوبي. من ناحية أخرى، إنها تطمس الخط بين الكتابة والمحاكاة. إذا لم يتمكن القارئ من تمييز نص النموذج عن نص الصحفي، فمن هو المؤلف؟
هناك أيضاً جانب عملي. سوق المحتوى مغمور بالفعل بنصوص AI عامة التي تبدو بنفس الطريقة جميعاً. المنشورات القادرة على الحفاظ على صوت فريد—حتى بمساعدة نماذج معايرة بدقة—تحصل على ميزة تنافسية. المفارقة هي أن التكنولوجيا التي تهدد بإزالة الشخصية من المحتوى يمكن أن تصبح أداة للحفاظ على فرديتها.
النشر على Habr هو في الأساس توثيق مفتوح لنهج تطوره العديد من شركات الإعلام خلف الأبواب المغلقة. وهذا الانفتاح بالذات هو ما يجعلها ذات قيمة. ستصبح مهمة المحاكاة الأسلوبية أكثر تعقيداً فقط مع بدء المنشورات في طلب الأدوات القائمة على AI ليس فقط الكفاءة، بل الطابع. أولئك الذين يتعلمون حل هذه المشكلة بشكل منهجي، بدلاً من خلال إعادة كتابة لا نهائية للمطالبات، سيحددون معيار جودة محتوى AI في السنوات القادمة.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.