NVIDIA показала эффективный способ обучить Cosmos на робо-видео через LoRA

Q: Источник материала?

Оригинальная публикация на Hugging Face Blog. Hamidun News обрабатывает и адаптирует материалы с помощью AI.

Q: Когда опубликовано?

2026-05-21. Время чтения: 3 мин.

Инженеры NVIDIA опубликовали гайд по обучению модели Cosmos Predict 2.5 методом LoRA/DoRA. Это позволяет адаптировать видео-модель к специфичным задачам без дор

ЖХ

Редакция Hamidun News

AI‑мониторинг · Hugging Face Blog

2026-05-21· 2 мин

NVIDIA показала эффективный способ обучить Cosmos на робо-видео через LoRA — Источник: Hugging Face Blog. Коллаж: Hamidun News.

◐ Слушать статью

NVIDIA представила практический гайд по fine-tuning своей модели Cosmos Predict 2.5 с помощью LoRA и DoRA — методов параметрически эффективной адаптации. Эта работа превращает дорогое полное переобучение в доступный процесс, который может запустить любая команда на одном GPU.

Почему это важно

Cosmos Predict 2.5 — это мощная видео-модель на 2 миллиарда параметров, которая генерирует физически правдоподобные видео на основе текста, изображений или других видео. Обычное полное переобучение такой модели требует огромных вычислительных ресурсов и часто приводит к забыванию — модель теряет общие знания при адаптации к конкретной задаче. LoRA (Low-Rank Adaptation) решает эту проблему: вместо изменения всех 2 миллиардов параметров, обучаются только маленькие адаптеры в слоях внимания и feedforward. Это снижает потребление памяти на порядок и позволяет работать на бюджетном железе.

Как это работает на практике

На примере датасета GR1-100 (92 видео манипуляций роботов) NVIDIA показала результаты: Обучение на 1× H100 GPU: 17 часов Обучение на 8× H100 GPU: 2.5 часа Адаптеры занимают всего несколько МБ (против многих ГБ полного checkpoint) Адаптеры легко переключаются — разные версии для разных доменов Модель обучалась 500 эпох на видео манипуляций: когда нужно взять предмет с коврика в миску, поднести сок в зелёную чашку и так далее. Текстовые инструкции для каждого видео помогали модели понять, что именно нужно генерировать.

Что дало обучение

Базовая модель на выходе путалась: генерировала человеческие руки вместо робо-рук, видео дрожало, предметы двигались неправдоподобно. После fine-tuning через LoRA/DoRA: > Fine-tuned models (LoRA r=32, DoRA r=32) correctly use specified hand and eliminated jitter and improved video stability. Качественно: исчезли галлюцинации, модель стабильно использует нужную руку, объекты движутся физически правдоподобно, инструкции выполняются точнее. Количественно: оценки по геометрической стабильности (Sampson Error), физической правдоподобности и следованию инструкциям выросли во всех конфигурациях — LoRA rank 8, LoRA rank 32, DoRA rank 32. Rank 32 даёт лучше точность инструкций, rank 8 требует меньше памяти.

Что это значит

Синтетические видео роботов — это горячая задача: получить реальные данные манипуляций дорого и долго. С Cosmos + LoRA команда робототехники может генерировать тысячи примеров за ночь на одном GPU. Это дешевле, быстрее, и обучает реальных роботов на стильных разновидностях движений. NVIDIA выпустила полный код, рецепты и готовые адаптеры — копи-паста и запуск.

ЖХ

Hamidun News

AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Telegram-канал RSS hamidun.com