NVIDIA показала эффективный способ обучить Cosmos на робо-видео через LoRA
Инженеры NVIDIA опубликовали гайд по обучению модели Cosmos Predict 2.5 методом LoRA/DoRA. Это позволяет адаптировать видео-модель к специфичным задачам без дор

NVIDIA представила практический гайд по fine-tuning своей модели Cosmos Predict 2.5 с помощью LoRA и DoRA — методов параметрически эффективной адаптации. Эта работа превращает дорогое полное переобучение в доступный процесс, который может запустить любая команда на одном GPU.
Почему это важно
Cosmos Predict 2.5 — это мощная видео-модель на 2 миллиарда параметров, которая генерирует физически правдоподобные видео на основе текста, изображений или других видео. Обычное полное переобучение такой модели требует огромных вычислительных ресурсов и часто приводит к забыванию — модель теряет общие знания при адаптации к конкретной задаче. LoRA (Low-Rank Adaptation) решает эту проблему: вместо изменения всех 2 миллиардов параметров, обучаются только маленькие адаптеры в слоях внимания и feedforward. Это снижает потребление памяти на порядок и позволяет работать на бюджетном железе.
Как это работает на практике
На примере датасета GR1-100 (92 видео манипуляций роботов) NVIDIA показала результаты: Обучение на 1× H100 GPU: 17 часов Обучение на 8× H100 GPU: 2.5 часа Адаптеры занимают всего несколько МБ (против многих ГБ полного checkpoint) Адаптеры легко переключаются — разные версии для разных доменов Модель обучалась 500 эпох на видео манипуляций: когда нужно взять предмет с коврика в миску, поднести сок в зелёную чашку и так далее. Текстовые инструкции для каждого видео помогали модели понять, что именно нужно генерировать.
Что дало обучение
Базовая модель на выходе путалась: генерировала человеческие руки вместо робо-рук, видео дрожало, предметы двигались неправдоподобно. После fine-tuning через LoRA/DoRA: > Fine-tuned models (LoRA r=32, DoRA r=32) correctly use specified hand and eliminated jitter and improved video stability. Качественно: исчезли галлюцинации, модель стабильно использует нужную руку, объекты движутся физически правдоподобно, инструкции выполняются точнее. Количественно: оценки по геометрической стабильности (Sampson Error), физической правдоподобности и следованию инструкциям выросли во всех конфигурациях — LoRA rank 8, LoRA rank 32, DoRA rank 32. Rank 32 даёт лучше точность инструкций, rank 8 требует меньше памяти.
Что это значит
Синтетические видео роботов — это горячая задача: получить реальные данные манипуляций дорого и долго. С Cosmos + LoRA команда робототехники может генерировать тысячи примеров за ночь на одном GPU. Это дешевле, быстрее, и обучает реальных роботов на стильных разновидностях движений. NVIDIA выпустила полный код, рецепты и готовые адаптеры — копи-паста и запуск.