أظهرت NVIDIA طريقة فعالة لتدريب Cosmos على فيديوهات الروبوتات من خلال LoRA

Q: ما هو المصدر؟

نُشر أصلاً على Hugging Face Blog. يعالج Hamidun News المواد ويكيّفها بالذكاء الاصطناعي.

Q: متى نُشر؟

2026-05-21. وقت القراءة: 3 دقيقة.

نشر مهندسو NVIDIA دليلاً لتدريب نموذج Cosmos Predict 2.5 باستخدام طريقة LoRA/DoRA. يسمح هذا بتكييف نموذج الفيديو للمهام المحددة دون الحاجة إلى إعادة تدريب كاملة

هيئة تحرير Hamidun News

رصد الذكاء الاصطناعي · Hugging Face Blog

2026-05-21· 2 د

معالج بواسطة الذكاء الاصطناعي من Hugging Face Blog؛ بتحرير Hamidun News

أظهرت NVIDIA طريقة فعالة لتدريب Cosmos على فيديوهات الروبوتات من خلال LoRA — المصدر: Hugging Face Blog. كولاج: Hamidun News.

◐ استمع للمقال

قدمت NVIDIA دليلاً عملياً لضبط نموذج Cosmos Predict 2.5 الخاص بها باستخدام LoRA و DoRA — طرق التكييف الفعالة من حيث المعاملات. يحول هذا العمل إعادة التدريب الكاملة المكلفة إلى عملية يمكن لأي فريق تنفيذها على معالج رسومات واحد.

لماذا هذا مهم

Cosmos Predict 2.5 هو نموذج فيديو قوي بملياري معامل، يولد فيديوهات واقعية فيزيائياً بناءً على النصوص أو الصور أو فيديوهات أخرى. يتطلب إعادة التدريب الكامل العادي لمثل هذا النموذج موارد حوسبة ضخمة ويؤدي غالباً إلى النسيان — تفقد النموذج معارفه العامة عند التكييف مع مهمة محددة.

يحل LoRA (التكييف منخفض الرتبة) هذه المشكلة: بدلاً من تغيير كل ملياري معامل، يتم تدريب محولات صغيرة فقط في طبقات الانتباه والتغذية الأمامية. هذا يقلل استهلاك الذاكرة بشكل كبير ويسمح بالعمل على أجهزة محدودة الميزانية.

كيفية عمله عملياً

أظهرت NVIDIA النتائج باستخدام مجموعة بيانات GR1-100 (92 فيديو لعمليات التلاعب بالروبوتات):

التدريب على معالج رسومات H100 واحد: 17 ساعة
التدريب على 8 معالجات رسومات H100: ساعتان ونصف
تحتل المحولات بضعة ميجابايتات فقط (مقابل جيجابايتات عديدة من نقطة التفتيش الكاملة)
يمكن التبديل بسهولة بين المحولات — إصدارات مختلفة للنطاقات المختلفة

تم تدريب النموذج لـ 500 حقبة على فيديوهات التلاعب: عندما يكون من الضروري أخذ جسم من السجادة إلى وعاء، أو تقديم العصير في كوب أخضر وهكذا. ساعدت التعليمات النصية لكل فيديو النموذج على فهم بالضبط ما يجب توليده.

ما الذي أحققه التدريب

كانت النموذج الأساسي مرتبكة في النتيجة: تولد أيدي بشرية بدلاً من أيدي الروبوتات، كان الفيديو يهتز، تحركت الأشياء بشكل غير واقعي. بعد الضبط الدقيق من خلال LoRA/DoRA:

النماذج المضبوطة بدقة (LoRA r=32,

DoRA r=32) تستخدم اليد المحددة بشكل صحيح وأزالت الرجفة وحسّنت استقرار الفيديو.

من الناحية النوعية: اختفت الهلوسات، يستخدم النموذج اليد الصحيحة بثبات، تتحرك الأشياء بشكل واقعي فيزيائياً، يتم تنفيذ التعليمات بدقة أكبر. من الناحية الكمية: تحسنت درجات الاستقرار الهندسي (Sampson Error) والواقعية الفيزيائية واتباع التعليمات في جميع التكوينات — LoRA rank 8, LoRA rank 32, DoRA rank 32. يوفر Rank 32 دقة تعليمات أفضل، بينما rank 8 يتطلب ذاكرة أقل.

ماذا يعني هذا

فيديوهات الروبوتات الاصطناعية مهمة ساخنة: الحصول على بيانات حقيقية للعمليات مكلف وطويل الأمد. مع Cosmos + LoRA، يمكن لفريق الروبوتات توليد آلاف الأمثلة في ليلة واحدة على معالج رسومات واحد. هذا أرخص وأسرع، ويدرب الروبوتات الحقيقية على تنويعات حركة أنيقة. أصدرت NVIDIA الكود الكامل والوصفات والمحولات الجاهزة — انسخ والصق وقم بالتشغيل.

Hamidun News

أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

قناة Telegram RSS hamidun.com

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

🎓 Academy — 7 أيام مجاناً استشارة مجانية