Hugging Face Blog→ المصدر

NVIDIA показала эффективный способ обучить Cosmos на робо-видео через LoRA

Инженеры NVIDIA опубликовали гайд по обучению модели Cosmos Predict 2.5 методом LoRA/DoRA. Это позволяет адаптировать видео-модель к специфичным задачам без дор

معالج بواسطة الذكاء الاصطناعي من Hugging Face Blog؛ بتحرير Hamidun News
NVIDIA показала эффективный способ обучить Cosmos на робо-видео через LoRA
المصدر: Hugging Face Blog. كولاج: Hamidun News.

NVIDIA представила практический гайд по fine-tuning своей модели Cosmos Predict 2.5 с помощью LoRA и DoRA — методов параметрически эффективной адаптации. Эта работа превращает дорогое полное переобучение в доступный процесс, который может запустить любая команда на одном GPU.

Почему это важно

Cosmos Predict 2.5 — это мощная видео-модель на 2 миллиарда параметров, которая генерирует физически правдоподобные видео на основе текста, изображений или других видео. Обычное полное переобучение такой модели требует огромных вычислительных ресурсов и часто приводит к забыванию — модель теряет общие знания при адаптации к конкретной задаче. LoRA (Low-Rank Adaptation) решает эту проблему: вместо изменения всех 2 миллиардов параметров, обучаются только маленькие адаптеры в слоях внимания и feedforward. Это снижает потребление памяти на порядок и позволяет работать на бюджетном железе.

Как это работает на практике

На примере датасета GR1-100 (92 видео манипуляций роботов) NVIDIA показала результаты: Обучение на 1× H100 GPU: 17 часов Обучение на 8× H100 GPU: 2.5 часа Адаптеры занимают всего несколько МБ (против многих ГБ полного checkpoint) Адаптеры легко переключаются — разные версии для разных доменов Модель обучалась 500 эпох на видео манипуляций: когда нужно взять предмет с коврика в миску, поднести сок в зелёную чашку и так далее. Текстовые инструкции для каждого видео помогали модели понять, что именно нужно генерировать.

Что дало обучение

Базовая модель на выходе путалась: генерировала человеческие руки вместо робо-рук, видео дрожало, предметы двигались неправдоподобно. После fine-tuning через LoRA/DoRA: > Fine-tuned models (LoRA r=32, DoRA r=32) correctly use specified hand and eliminated jitter and improved video stability. Качественно: исчезли галлюцинации, модель стабильно использует нужную руку, объекты движутся физически правдоподобно, инструкции выполняются точнее. Количественно: оценки по геометрической стабильности (Sampson Error), физической правдоподобности и следованию инструкциям выросли во всех конфигурациях — LoRA rank 8, LoRA rank 32, DoRA rank 32. Rank 32 даёт лучше точность инструкций, rank 8 требует меньше памяти.

Что это значит

Синтетические видео роботов — это горячая задача: получить реальные данные манипуляций дорого и долго. С Cosmos + LoRA команда робототехники может генерировать тысячи примеров за ночь на одном GPU. Это дешевле, быстрее, и обучает реальных роботов на стильных разновидностях движений. NVIDIA выпустила полный код, рецепты и готовые адаптеры — копи-паста и запуск.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…