Hugging Face Blog→ المصدر

أظهرت NVIDIA طريقة فعالة لتدريب Cosmos على فيديوهات الروبوتات من خلال LoRA

نشر مهندسو NVIDIA دليلاً لتدريب نموذج Cosmos Predict 2.5 باستخدام طريقة LoRA/DoRA. يسمح هذا بتكييف نموذج الفيديو للمهام المحددة دون الحاجة إلى إعادة تدريب كاملة

معالج بواسطة الذكاء الاصطناعي من Hugging Face Blog؛ بتحرير Hamidun News
أظهرت NVIDIA طريقة فعالة لتدريب Cosmos على فيديوهات الروبوتات من خلال LoRA
المصدر: Hugging Face Blog. كولاج: Hamidun News.
◐ استمع للمقال

قدمت NVIDIA دليلاً عملياً لضبط نموذج Cosmos Predict 2.5 الخاص بها باستخدام LoRA و DoRA — طرق التكييف الفعالة من حيث المعاملات. يحول هذا العمل إعادة التدريب الكاملة المكلفة إلى عملية يمكن لأي فريق تنفيذها على معالج رسومات واحد.

لماذا هذا مهم

Cosmos Predict 2.5 هو نموذج فيديو قوي بملياري معامل، يولد فيديوهات واقعية فيزيائياً بناءً على النصوص أو الصور أو فيديوهات أخرى. يتطلب إعادة التدريب الكامل العادي لمثل هذا النموذج موارد حوسبة ضخمة ويؤدي غالباً إلى النسيان — تفقد النموذج معارفه العامة عند التكييف مع مهمة محددة.

يحل LoRA (التكييف منخفض الرتبة) هذه المشكلة: بدلاً من تغيير كل ملياري معامل، يتم تدريب محولات صغيرة فقط في طبقات الانتباه والتغذية الأمامية. هذا يقلل استهلاك الذاكرة بشكل كبير ويسمح بالعمل على أجهزة محدودة الميزانية.

كيفية عمله عملياً

أظهرت NVIDIA النتائج باستخدام مجموعة بيانات GR1-100 (92 فيديو لعمليات التلاعب بالروبوتات):

  • التدريب على معالج رسومات H100 واحد: 17 ساعة
  • التدريب على 8 معالجات رسومات H100: ساعتان ونصف
  • تحتل المحولات بضعة ميجابايتات فقط (مقابل جيجابايتات عديدة من نقطة التفتيش الكاملة)
  • يمكن التبديل بسهولة بين المحولات — إصدارات مختلفة للنطاقات المختلفة

تم تدريب النموذج لـ 500 حقبة على فيديوهات التلاعب: عندما يكون من الضروري أخذ جسم من السجادة إلى وعاء، أو تقديم العصير في كوب أخضر وهكذا. ساعدت التعليمات النصية لكل فيديو النموذج على فهم بالضبط ما يجب توليده.

ما الذي أحققه التدريب

كانت النموذج الأساسي مرتبكة في النتيجة: تولد أيدي بشرية بدلاً من أيدي الروبوتات، كان الفيديو يهتز، تحركت الأشياء بشكل غير واقعي. بعد الضبط الدقيق من خلال LoRA/DoRA:

النماذج المضبوطة بدقة (LoRA r=32,

DoRA r=32) تستخدم اليد المحددة بشكل صحيح وأزالت الرجفة وحسّنت استقرار الفيديو.

من الناحية النوعية: اختفت الهلوسات، يستخدم النموذج اليد الصحيحة بثبات، تتحرك الأشياء بشكل واقعي فيزيائياً، يتم تنفيذ التعليمات بدقة أكبر. من الناحية الكمية: تحسنت درجات الاستقرار الهندسي (Sampson Error) والواقعية الفيزيائية واتباع التعليمات في جميع التكوينات — LoRA rank 8, LoRA rank 32, DoRA rank 32. يوفر Rank 32 دقة تعليمات أفضل، بينما rank 8 يتطلب ذاكرة أقل.

ماذا يعني هذا

فيديوهات الروبوتات الاصطناعية مهمة ساخنة: الحصول على بيانات حقيقية للعمليات مكلف وطويل الأمد. مع Cosmos + LoRA، يمكن لفريق الروبوتات توليد آلاف الأمثلة في ليلة واحدة على معالج رسومات واحد. هذا أرخص وأسرع، ويدرب الروبوتات الحقيقية على تنويعات حركة أنيقة. أصدرت NVIDIA الكود الكامل والوصفات والمحولات الجاهزة — انسخ والصق وقم بالتشغيل.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…