MIT Technology Review→ المصدر

MIT Technology Review: كيف تتشكل طبقة البنية التحتية لبيانات الويب الخاصة بـ AI

يتطلب ازدهار AI بيانات على نطاق صناعي، لكن جزءًا كبيرًا من الويب يظل غير متاح للنماذج: فالمحتوى محجوب أو غير مهيكل أو خلف جدران دفع. وترصد MIT Technology…

معالج بواسطة الذكاء الاصطناعي من MIT Technology Review؛ بتحرير Hamidun News
MIT Technology Review: كيف تتشكل طبقة البنية التحتية لبيانات الويب الخاصة بـ AI
المصدر: MIT Technology Review. كولاج: Hamidun News.
◐ استمع للمقال

تشهد صناعة الذكاء الاصطناعي طفرة، لكنها تواجه مفارقة: البيانات موجودة على الإنترنت، لكن الحصول عليها بالشكل المناسب للذكاء الاصطناعي أمر في غاية الصعوبة. تصف مجلة MIT Technology Review ظهور طبقة بنية تحتية جديدة تسد الفجوة بين الويب المفتوح واحتياجات نماذج الذكاء الاصطناعي.

من أين يأتي المشكلة

عندما تبني شركة منتج ذكاء اصطناعي، فإنها تحتاج إلى بيانات حالية من الإنترنت — الأسعار والأخبار ووصفات المنتجات والمقالات العلمية وتقييمات المستخدمين. لكن الويب تم إنشاؤه للأشخاص وليس للآلات. تسلم الصفحات المحتوى في HTML متعدد الطبقات. تحظر المواقع الوصول الآلي من خلال CAPTCHA وتحديد المعدل وأنظمة الحماية من الروبوتات. يتم تحميل بعض المعلومات بشكل ديناميكي عبر JavaScript — لن تراها طلبات HTTP العادية. توجد معلومات أخرى خلف المصادقة أو الوصول المدفوع. ونتيجة لذلك، تنشأ فجوة مستمرة: البيانات موجودة، لكن نماذج الذكاء الاصطناعي لا يمكنها الوصول إليها.

في الماضي، كانت الفرق تسد هذه الفجوة داخليًا — توظف المهندسين وتكتب المحللات وتحافظ عليها مع تغير المواقع. ومع احتياج تطبيقات الذكاء الاصطناعي إلى مزيد من البيانات في فترات زمنية أقصر، لم تعد الحلول المحلية كافية.

طبقة البنية التحتية الجديدة

تحدد مجلة MIT Technology Review تشكيل فئة جديدة من الشركات والأدوات، يُطلق عليها بالفعل اسم "طبقة البنية التحتية لبيانات الويب" للذكاء الاصطناعي. هذه ليست مجرد محللات — إنها بنية تحتية كاملة لتسليم البيانات المُدارة. تتضمن الطبقة عدة مكونات رئيسية:

  • جمع البيانات — التحايل على الحجوب وعرض JavaScript وإدارة الوكلاء وإدارة جلسات المتصفح
  • البنية — تحويل HTML والملفات وجداول البيانات إلى تنسيقات لخطوط أنابيب RAG والضبط الدقيق
  • التحديث — مراقبة التغييرات في المصادر وتحديث البيانات بشكل مستمر
  • التوسع — جمع متوازي لمليارات الصفحات دون إرهاق المصادر
  • الامتثال — العمل ضمن robots.txt وشروط الاستخدام وحقوق النشر

لا شيء من هذه المهام جديد بحد ذاته. ما هو جديد هو تجميع كل هذا في منصة واحدة مع اتفاقيات مستوى الخدمة ومراقبة توفر البيانات وواجهات برمجية لفرق الذكاء الاصطناعي.

لماذا هذا حرج الآن

تقاربت عدة اتجاهات في نفس الوقت. تنتقل تطبيقات LLM من المرحلة التجريبية إلى الإنتاج الفعلي: فهي تحتاج ليس إلى مجموعات بيانات لمرة واحدة، بل إلى تدفق مستمر من البيانات الطازجة. زادت متطلبات الجودة — غالباً ما يتم شرح هلوسات النموذج ببيانات تدريب قديمة أو غير كاملة. يبدأ المنظمون في طرح أسئلة حول مصادر واستخدام محتوى الويب القانوني، مما يجعل "نظافة البيانات" ليست فقط متطلباً تقنياً بل قانونياً أيضاً. بالنسبة للمؤسسات الكبيرة، فإن شراء بنية بيانات جاهزة كخدمة أكثر فعالية من حيث التكلفة من الحفاظ عليها داخلياً. السوق من مزودي متخصصين يستجيب — والمنافسة في المجال ملحوظة بالفعل.

ماذا يعني هذا

تصبح البيانات من الويب المفتوح أصلاً استراتيجياً جنباً إلى جنب مع القوة الحاسوبية. ستحصل الشركات التي بنت خط أنابيب موثوق للحصول عليه وتنظيمه على ميزة في جودة منتجات الذكاء الاصطناعي — خاصة حيث يكون صلة وخصوصية المعلومات أكثر أهمية من حجم بيانات التدريب.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…