Habr AI→ المصدر

جوجل و OpenAI يواجهان الحد الأقصى: ماذا سيحدث إذا نفدت الإنترنت من النصوص البشرية؟

وقع الذكاء الاصطناعي التوليدي في تبعية غريبة: النماذج تحتاج نصوصاً يكتبها البشر، لكنها بنفس الوقت تقلل من الحافز لإنتاجها. ملخصات الذكاء الاصطناعي في نتائج…

معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
جوجل و OpenAI يواجهان الحد الأقصى: ماذا سيحدث إذا نفدت الإنترنت من النصوص البشرية؟
المصدر: Habr AI. كولاج: Hamidun News.
◐ استمع للمقال

الضعف الرئيسي للذكاء الاصطناعي التوليدي هو أنه يزدهر على النصوص البشرية بينما يدمر في نفس الوقت الشروط التي ينشأ فيها هذا النص. طالما تعد محركات البحث والروبوتات الحوارية وملخصات الذكاء الاصطناعي المستخدمين بإجابات سريعة دون زيارة الموقع الأصلي، فإنها تقلل من إيرادات أولئك الذين ينتجون المادة الأصلية. على المدى القصير، تفوز النماذج من خلال الملاءمة، لكن على المدى الطويل فإنها تخاطر بالبقاء بدون قاعدة تدريب عالية الجودة والبدء في التعلم من انعكاساتها الخاصة.

المشكلة الأولى هي اقتصاديات النشر. بعد إطلاق Google AI Overviews في مايو 2024، بدأ البحث يجيب بشكل متزايد مباشرة في النتائج، دون إرسال القراء إلى المصدر الأصلي. وفقاً لبيانات Chartbeat التي نشرتها Axios في 17 مارس 2026، خسرت المواقع الصغيرة بحركة مرور تتراوح بين 1 و10 آلاف مشاهدة يومياً حوالي 60% من إحالات البحث خلال عامين.

انخفضت المواقع المتوسطة بنسبة 47%، والكبيرة بنسبة 22%. أظهرت دراسة Pew Research Center من 22 يوليو 2025 تأثيراً مماثلاً على مستوى سلوك المستخدمين: عندما تتضمن نتائج البحث ملخص ذكاء اصطناعي، ينقر الأشخاص على الروابط العادية بشكل أقل بكثير. بالنسبة لوسائل الإعلام والمنتديات والمدونات المتخصصة والمؤلفين المستقلين، هذا ليس مقياساً تجريدياً، بل ضربة مباشرة للإعلانات والاشتراكات والحافز على الاستمرار في الكتابة.

المشكلة الثانية هي البيانات نفسها. نما نماذج اللغة الكبيرة في الأصل على مصفوفات عملاقة من نصوص الإنترنت. كان للأنظمة المبكرة مثل GPT-3 مجموعة بيانات التدريب الرئيسية مجمعة من الويب والمصادر ذات الصلة.

لكن حجم المحتوى البشري عالي الجودة ليس لا نهائياً. في يونيو 2024، قدّر باحثو Epoch AI أنه بمعدلات التوسع السابقة، قد تصل الصناعة إلى حد النصوص المتاحة علناً والملائمة للتدريب بين عامي 2026 و2032. هذا هو السبب في بدء اللاعبين الرئيسيين في توقيع صفقات مع Reddit والناشرين والمالكين الآخرين للأرشيفات الكبيرة: تحولت مسألة الوصول إلى البيانات من تفصيل تقني إلى أصل استراتيجي.

في هذا السياق، يبدو الإغراء بالتحول إلى البيانات الاصطناعية شبه حتمي. إذا لم يكن هناك نص حقيقي كافٍ، فمن المنطقي طلب من نموذج واحد توليد مادة للنموذج التالي. المشكلة هي أن هذا النظام يقلل الجودة بشكل تدريجي.

تصف دراسة نُشرت في Nature في 25 يوليو 2024 تأثير انهيار النموذج: مع التدريب العودي على البيانات المُولدة آلياً، تبدأ النماذج في فقدان الحقائق النادرة، وتمويه الأنماط المعقدة، وتضخيم الأخطاء والانحيازات الموجودة بالفعل. يشبه الأمر نسخ نفس الصفحة عدة مرات: المعنى العام لا يزال مرئياً، لكن التفاصيل تتلاشى مع كل تكرار. حتى OpenAI اعترفت علناً بأن البيانات الاصطناعية قد تساعد في حالات محددة، لكنها لا تبدو بديلاً كاملاً للمجموعة البشرية المتنوعة.

هناك فخ آخر أيضاً: فصل النص البشري عن النص الآلي أصعب بكثير عملياً مما يبدو. لا تزال كاشفات محتوى الذكاء الاصطناعي تخطئ، خاصة في النصوص القصيرة أو المعدَّلة أو المحايدة أسلوبياً. أظهرت بعض الدراسات معدلات إيجابية خاطئة عالية في نصوص الأشخاص الذين الإنجليزية ليست لغتهم الأم.

هذا يعني أن الصناعة ستجد صعوبة في مجرد 'تنظيف الإنترنت' واختيار البيانات البشرية الموثوقة فقط. علاوة على ذلك، التقييمات الأكاديمية الحديثة تسجل بالفعل أن نسبة مساعدة الذكاء الاصطناعي في المنشورات الجديدة تنمو بسرعة، والمحتوى عبر الإنترنت نفسه يصبح أكثر رتابة من حيث المعنى وأكثر عقماً في النبرة. بعبارة أخرى، المشكلة ليست فقط كمية النصوص بل تنوعها.

إذا لم يتم كسر هذه الحلقة، فسيبدأ الإنترنت في العمل بشكل أسوأ لجميع المشاركين. سينشر المؤلفون المواد العميقة بتكرار أقل لأنه أصبح من الصعب تحقيق الربح منها. ستستمر المنصات في ملء نتائج البحث بملخصات قصيرة من الذكاء الاصطناعي، مما يوفر نقرة للمستخدمين، لكن يقلل من غنى نظام مصادر المعلومات.

ومطورو النماذج سيحصلون على كمية متزايدة من المحتوى الثانوي الذي يبدو واثقاً لكنه يحمل معرفة جديدة أقل. يبدو أن الحل لا يكمن في حجم أكبر من التوليد، بل في الحفاظ على الحوافز للكتابة البشرية: من خلال رسوم الترخيص، والنسب الشفاف، والاستخدام الأكثر حذراً لملخصات الذكاء الاصطناعي، وإعطاء الأولوية لجودة البيانات على الحجم الخام. وإلا، فإن الذكاء الاصطناعي سينتهي به الحال بالفعل في الفخ الذي بنى لنفسه.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…