Hugging Face Blog→ original

NVIDIA показала эффективный способ обучить Cosmos на робо-видео через LoRA

Инженеры NVIDIA опубликовали гайд по обучению модели Cosmos Predict 2.5 методом LoRA/DoRA. Это позволяет адаптировать видео-модель к специфичным задачам без дор

Traité par IA depuis Hugging Face Blog ; édité par Hamidun News
NVIDIA показала эффективный способ обучить Cosmos на робо-видео через LoRA
Source : Hugging Face Blog. Collage: Hamidun News.

NVIDIA представила практический гайд по fine-tuning своей модели Cosmos Predict 2.5 с помощью LoRA и DoRA — методов параметрически эффективной адаптации. Эта работа превращает дорогое полное переобучение в доступный процесс, который может запустить любая команда на одном GPU.

Почему это важно

Cosmos Predict 2.5 — это мощная видео-модель на 2 миллиарда параметров, которая генерирует физически правдоподобные видео на основе текста, изображений или других видео. Обычное полное переобучение такой модели требует огромных вычислительных ресурсов и часто приводит к забыванию — модель теряет общие знания при адаптации к конкретной задаче. LoRA (Low-Rank Adaptation) решает эту проблему: вместо изменения всех 2 миллиардов параметров, обучаются только маленькие адаптеры в слоях внимания и feedforward. Это снижает потребление памяти на порядок и позволяет работать на бюджетном железе.

Как это работает на практике

На примере датасета GR1-100 (92 видео манипуляций роботов) NVIDIA показала результаты: Обучение на 1× H100 GPU: 17 часов Обучение на 8× H100 GPU: 2.5 часа Адаптеры занимают всего несколько МБ (против многих ГБ полного checkpoint) Адаптеры легко переключаются — разные версии для разных доменов Модель обучалась 500 эпох на видео манипуляций: когда нужно взять предмет с коврика в миску, поднести сок в зелёную чашку и так далее. Текстовые инструкции для каждого видео помогали модели понять, что именно нужно генерировать.

Что дало обучение

Базовая модель на выходе путалась: генерировала человеческие руки вместо робо-рук, видео дрожало, предметы двигались неправдоподобно. После fine-tuning через LoRA/DoRA: > Fine-tuned models (LoRA r=32, DoRA r=32) correctly use specified hand and eliminated jitter and improved video stability. Качественно: исчезли галлюцинации, модель стабильно использует нужную руку, объекты движутся физически правдоподобно, инструкции выполняются точнее. Количественно: оценки по геометрической стабильности (Sampson Error), физической правдоподобности и следованию инструкциям выросли во всех конфигурациях — LoRA rank 8, LoRA rank 32, DoRA rank 32. Rank 32 даёт лучше точность инструкций, rank 8 требует меньше памяти.

Что это значит

Синтетические видео роботов — это горячая задача: получить реальные данные манипуляций дорого и долго. С Cosmos + LoRA команда робототехники может генерировать тысячи примеров за ночь на одном GPU. Это дешевле, быстрее, и обучает реальных роботов на стильных разновидностях движений. NVIDIA выпустила полный код, рецепты и готовые адаптеры — копи-паста и запуск.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…