NVIDIA показала эффективный способ обучить Cosmos на робо-видео через LoRA

Q: ما هو المصدر؟

نُشر أصلاً على Hugging Face Blog. يعالج Hamidun News المواد ويكيّفها بالذكاء الاصطناعي.

Q: متى نُشر؟

2026-05-21. وقت القراءة: 3 دقيقة.

Инженеры NVIDIA опубликовали гайд по обучению модели Cosmos Predict 2.5 методом LoRA/DoRA. Это позволяет адаптировать видео-модель к специфичным задачам без дор

هيئة تحرير Hamidun News

رصد الذكاء الاصطناعي · Hugging Face Blog

2026-05-21· 2 د

معالج بواسطة الذكاء الاصطناعي من Hugging Face Blog؛ بتحرير Hamidun News

NVIDIA показала эффективный способ обучить Cosmos на робо-видео через LoRA — المصدر: Hugging Face Blog. كولاج: Hamidun News.

NVIDIA представила практический гайд по fine-tuning своей модели Cosmos Predict 2.5 с помощью LoRA и DoRA — методов параметрически эффективной адаптации. Эта работа превращает дорогое полное переобучение в доступный процесс, который может запустить любая команда на одном GPU.

Почему это важно

Cosmos Predict 2.5 — это мощная видео-модель на 2 миллиарда параметров, которая генерирует физически правдоподобные видео на основе текста, изображений или других видео. Обычное полное переобучение такой модели требует огромных вычислительных ресурсов и часто приводит к забыванию — модель теряет общие знания при адаптации к конкретной задаче. LoRA (Low-Rank Adaptation) решает эту проблему: вместо изменения всех 2 миллиардов параметров, обучаются только маленькие адаптеры в слоях внимания и feedforward. Это снижает потребление памяти на порядок и позволяет работать на бюджетном железе.

Как это работает на практике

На примере датасета GR1-100 (92 видео манипуляций роботов) NVIDIA показала результаты: Обучение на 1× H100 GPU: 17 часов Обучение на 8× H100 GPU: 2.5 часа Адаптеры занимают всего несколько МБ (против многих ГБ полного checkpoint) Адаптеры легко переключаются — разные версии для разных доменов Модель обучалась 500 эпох на видео манипуляций: когда нужно взять предмет с коврика в миску, поднести сок в зелёную чашку и так далее. Текстовые инструкции для каждого видео помогали модели понять, что именно нужно генерировать.

Что дало обучение

Базовая модель на выходе путалась: генерировала человеческие руки вместо робо-рук, видео дрожало, предметы двигались неправдоподобно. После fine-tuning через LoRA/DoRA: > Fine-tuned models (LoRA r=32, DoRA r=32) correctly use specified hand and eliminated jitter and improved video stability. Качественно: исчезли галлюцинации, модель стабильно использует нужную руку, объекты движутся физически правдоподобно, инструкции выполняются точнее. Количественно: оценки по геометрической стабильности (Sampson Error), физической правдоподобности и следованию инструкциям выросли во всех конфигурациях — LoRA rank 8, LoRA rank 32, DoRA rank 32. Rank 32 даёт лучше точность инструкций, rank 8 требует меньше памяти.

Что это значит

Синтетические видео роботов — это горячая задача: получить реальные данные манипуляций дорого и долго. С Cosmos + LoRA команда робототехники может генерировать тысячи примеров за ночь на одном GPU. Это дешевле, быстрее, и обучает реальных роботов на стильных разновидностях движений. NVIDIA выпустила полный код, рецепты и готовые адаптеры — копи-паста и запуск.

Hamidun News

أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

قناة Telegram RSS hamidun.com

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

🎓 Academy — 7 أيام مجاناً استشارة مجانية