وصفت Wildberries & Russ مستوى نضج البيانات المطلوب للوكلاء الذكيين الدقيقين
اقترحت Wildberries & Russ نموذج نضج وصف البيانات يتراوح بين Rare و Well-Done وأظهرت لماذا يبدأ وكلاء الذكاء الاصطناعي بالهلوسة حتى في مهام SQL البسيطة بدون…
معالج بواسطة الذكاء الاصطناعي من Habr AI؛ بتحرير Hamidun News
تقترح Wildberries & Russ النظر إلى جودة وصف البيانات بنفس البراغماتية التي ننظر بها إلى درجة نضج الستيك: من Rare إلى Well-Done. المنطق بسيط: كلما وصفت الشركة جداولها وحقولها وشروطها التجارية ومقاييسها بشكل أفضل، قل هلوسة وكلاء الذكاء الاصطناعي واقتربوا من رؤى الأعمال الحقيقية بدلاً من الإجابات المعقولة ولكن عديمة الفائدة. تعتقد الشركة أن المشكلة الرئيسية مع البيانات الكبيرة اليوم ليست نقص النماذج، بل ضعف حوكمة البيانات.
في المؤسسات الكبيرة، تظهر جداول جديدة بشكل أسرع من قدرة الفريق على وصفها يدويًا. نتيجة لذلك، يقضي المحللون وقتًا في البحث عن المصادر الضرورية، وتبدأ المقاييس في الاختلاف بين التقارير، ويصبح الوصول إلى مجموعات البيانات غير المضمونة خطرًا أمنيًا. هذا حاد بشكل خاص عندما تكون البيانات الشخصية متورطة وتوجد متطلبات صارمة للتحكم في الوصول.
يتوقف النهج اليدوي ببساطة عن التوسع في مثل هذه البيئة. المستوى الأول من النضج، Rare، يُعتبر الحد الأدنى الكافي للعمل الآمن مع البيانات في هذا النموذج. في هذا المستوى، يجب أن تكون لكل مجموعة بيانات مالك ونموذج فيزيائي وعلامة سرية.
يمكن استخراج النموذج الفيزيائي تلقائيًا من جداول النظام وفهارس البيانات، وإذا كانت أوصاف الحقول فارغة، يمكن للذكاء الاصطناعي محاولة استعادتها باستخدام اتفاقيات التسمية وقواعد المعرفة الشركة. تعمل الأتمتة بشكل أسوأ مع المالكين: يمكن للنموذج أن يقترح مرشحًا، لكن المسؤولية لا تزال يتم تعيينها يدويًا. ومع ذلك، يبدو وسم البيانات الحساسة كواحدة من أولى المهام العملية لنموذج اللغة الكبير: يمكن للنموذج تحليل أسماء الجداول والأعمدة والمصطلحات التجارية وتعيين علامات الأمان حتى قبل المسح العميق للمحتوى.
في مستوى Medium، ينتقل التركيز من البنية التقنية إلى المعنى التجاري. يظهر قاموس وطبقة منطقية هنا تترجم لغة الجداول والأعمدة إلى كيانات الأعمال والسمات التي لها معنى للعمل. تخفي هذه الطبقة البادئات الخدمة والتسلسلات المعقدة وتفاصيل التخزين، ويمكن لأمناء البيانات استخدام الذكاء الاصطناعي كمساعد للربط بين الحقول والمصطلحات الموجودة والبحث عن الفجوات في الأوصاف.
إذا كان الوكيل متصلاً بفهرس البيانات الوصفية عبر MCP، فيمكنه تسليم المخططات الضرورية حسب الطلب ومطابقتها مع القاموس وتسريع العمل الذي استغرق ساعات من قبل. بالإضافة إلى ذلك، تقترح Wildberries & Russ استخراج العلاقات ليس فقط من بنية التخزين، بل أيضًا من سجلات استعلامات SQL: تكشف عن الجداول التي يربطها المحللون في أغلب الأحيان والمرشحات التي يستخدمونها وكيفية استهلاك البيانات فعلاً. المستوى الأعلى، Well-Done، مطلوب ليس فقط للتنقل بين البيانات، بل لنظم text-to-SQL والوكلاء الكاملة.
هنا، فوق الأوصاف الفيزيائية والمنطقية، يتم بناء طبقة دلالية: الحقائق والمقاييس والأبعاد والعلاقات والمرشحات والاستعلامات بلغة طبيعية المتحققة مع إجابات SQL الجاهزة. هذه هي الطبقة التي توضح للنموذج ما تقصده الأعمال بـ "العميل النشط" أو "إجمالي الإيرادات" أو المقاييس الأخرى، بدلاً من إجباره على التخمين من أسماء الحقول. المقالة توفر مثالاً توضيحياً: إذا سألت نموذج ذكاء اصطناعي كم عدد العملاء النشطين في مارس، قد يعد النموذج بدون دلالات ببساطة الصفوف التي تحمل حالة نشطة، على الرغم من أنه وفقاً لقواعد الشركة، يكون العميل نشطاً إذا قام بطلب واحد على الأقل فوق حد معين.
وفقاً للمؤلف، هنا تصبح المعايير المفتوحة مثل OSI حرجة، لأنها تسمح بوصف معنى البيانات بتنسيق محمول متوافق مع أدوات الطبقة الدلالية الحديثة. يُلاحظ أيضاً التأثير العملي: في مواد Snowflake لـ Cortex Analyst، هناك إشارة إلى تحسن بنسبة حوالي 20 في المائة في الدقة عند العمل من خلال دلالات موصوفة بشكل صحيح، والهدف المستهدف للسيناريوهات الحقيقية هو دقة SQL تزيد عن 90 في المائة. ماذا يعني هذا عمليًا: السوق ينزح تدريجياً عن فكرة أن من الكافي ببساطة توصيل نموذج اللغة الكبير بقاعدة بيانات وانتظار السحر.
يُظهر نهج Wildberries & Russ مسارًا أكثر وضوحًا: أولاً إحضار النظام إلى مالكي البيانات والبنية والتصنيف، ثم تجميع قاموس منطقي، وبعد ذلك فقط بناء طبقة دلالية للوكلاء. بالنسبة للشركات التي تريد تنفيذ مساعدي الذكاء الاصطناعي في التحليلات، هذا يبدو وكأنه حقيقة غير سارة لكن مفيدة: جودة إجابة النموذج الآن تعتمد مباشرة ليس فقط على النموذج نفسه، بل على نضج وصف البيانات داخل الأعمال.
هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟
AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.