AWS Machine Learning Blog→ المصدر

Databricks وAWS SageMaker: pipeline للـfine-tuning الآمن لـLLM

نشرت AWS وDatabricks نهجًا لإجراء fine-tuning لـLLM عبر تكامل Unity Catalog وSageMaker AI. يتضمن سير العمل وصولًا آمنًا إلى البيانات الخاضعة للحوكمة، وpreproces

Databricks وAWS SageMaker: pipeline للـfine-tuning الآمن لـLLM
المصدر: AWS Machine Learning Blog. كولاج: Hamidun News.
◐ استمع للمقال

أظهرت AWS و Databricks كيفية بناء خط أنابيب لضبط نموذج LLM بدقة يعالج في آن واحد تحديين: الحفاظ على السيطرة على البيانات والنماذج من خلال كتالوج مركزي دون فقدان الوظائف وسرعة التطوير.

معمارية سير العمل

يدمج الحل ثلاثة مكونات. يتعامل Databricks Unity Catalog مع الحوكمة والوصول — يحدد جدول واحد من يمكنه الوصول إلى أي بيانات. يُحضِّر Amazon EMR Serverless البيانات للتدريب، بينما ينفذ SageMaker AI ضبط النموذج نفسه. بعد التدريب، يتم تسجيل القطع (أوزان النموذج والمقاييس) مرة أخرى في Unity Catalog. يسمح هذا النهج لفرق مهندسي البيانات ومهندسي ML وعلماء البيانات بالعمل في مساحة موحدة دون الحاجة إلى نسخ البيانات بين الخدمات أو تكوين طبقات وصول منفصلة لكل أداة.

المراحل الرئيسية

  • الحوكمة عند الإدخال: يحدد Unity Catalog سياسات الوصول إلى البيانات المصدرية — أي جداول مرئية وأي حقول مخفية
  • المعالجة المسبقة: يحول EMR Serverless البيانات الخام إلى صيغة مناسبة لتدريب LLM
  • الضبط الدقيق: يضبط SageMaker AI Ministral-3-3B-Instruct (نموذج Mistral) باستخدام البيانات المعدة
  • تتبع النسب: تبقى السلسلة الكاملة من جداول المصدر إلى النموذج النهائي قابلة للتتبع — للتدقيق والامتثال
  • تسجيل القطع الأثرية: يتم إرجاع النموذج المدرب والمقاييس إلى Unity Catalog كأصول مُدارة

لماذا هذا مطلوب الآن

تواجه العديد من المؤسسات أحد السيناريوهين. إما أن تكون البيانات والنماذج متناثرة عبر خدمات مختلفة دون رؤية — من يستخدم ماذا، من أين تأتي البيانات، من غيّرها. أو تحاول الشركات فرض النظام من خلال أنظمة المراقبة والوصول المخصصة، لكن هذا يتطلب أشهراً من التطوير والصيانة.

"بدلاً من بناء الحوكمة من البداية، نزودك بتكامل جاهز، حيث تتحدث جميع

المكونات نفس اللغة بالفعل"

يلغي حل AWS و Databricks هذا الخيار. يتم دمج الحوكمة والنسب في المعمارية من البداية، وليس إضافتهما فوقها.

ماذا يعني هذا

بالنسبة للمنظمات الكبيرة والمؤسسات المالية، هذا يعني أنه يمكن الآن نشر ضبط LLM بدقة دون خطر فقدان السيطرة على البيانات. بالنسبة لفرق الهندسة — لا توجد حاجة لكتابة أنظمة تتبع مخصصة. يسد التكامل الفجوة بين متطلبات الأمان وسرعة تطوير ML.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.
ما رأيك؟
جارٍ تحميل التعليقات…