كشفت Nvidia عن أول مجموعة بيانات مفتوحة ونماذج AI تأسيسية للروبوتات الطبية

Q: Источник материала?

Оригинальная публикация на Hugging Face Blog. Hamidun News обрабатывает и адаптирует материалы с помощью AI.

Q: Когда опубликовано?

2026-04-30. Время чтения: 3 мин.

نشرت Nvidia وشركاؤها Open-H-Embodiment، أول مجموعة بيانات مفتوحة كبيرة للروبوتات الطبية. وتضم 778 ساعة من البيانات عن الجراحة والموجات فوق الصوتية وتنظير القولو

ЖХ

Редакция Hamidun News

AI‑мониторинг · Hugging Face Blog

2026-04-30· 3 мин

كشفت Nvidia عن أول مجموعة بيانات مفتوحة ونماذج AI تأسيسية للروبوتات الطبية — Источник: Hugging Face Blog. Коллаж: Hamidun News.

Nvidia вместе с исследовательским сообществом представила Open-H-Embodiment — первый крупный открытый датасет для медицинской робототехники, а также две базовые модели для хирургических сценариев. Пакет опубликован на Hugging Face и должен сдвинуть медицинский ИИ от анализа изображений к системам, которые умеют действовать в физическом мире.

Что открыли

Главная идея релиза простая: для медицины уже мало моделей, которые только распознают снимки, сегментируют ткани или классифицируют патологии. В операционной, на УЗИ или при колоноскопии машине нужно работать с инструментом, понимать контакт с тканями, учитывать кинематику робота и замыкать цикл управления по обратной связи. Именно под это и собрали Open-H-Embodiment — общий фундамент для обучения и оценки Physical AI в медицинской робототехнике.

778 часов обучающих данных под лицензией CC-BY-4.0 35 организаций-участников из университетов, клиник и индустрии сценарии из хирургии, ультразвука и автономной колоноскопии данные из симуляции, тренажёрных упражнений и реальных процедур * поддержка коммерческих и исследовательских роботических платформ Для рынка важен не только объём, но и формат. Датасет объединяет зрение, усилия, кинематику и разные типы роботических тел в одном открытом наборе, чтобы команды могли сравнивать подходы на общей базе, а не на закрытых локальных коллекциях.

В проекте участвуют Nvidia, Johns Hopkins, Technical University of Munich, Stanford и десятки других команд, так что речь идёт не о разовой публикации, а о попытке задать отраслевой стандарт.

Как работают модели

Вместе с датасетом Nvidia выложила GR00T-H — Vision-Language-Action модель для хирургической робототехники, обученную примерно на 600 часах данных Open-H-Embodiment. Это, по сути, policy-модель, которая получает визуальный и текстовый контекст и переводит его в действия робота. Авторы отдельно подчёркивают, что для разных роботов ввели общий нормализованный action space, специальные проекции под конкретную кинематику и обучение на относительных движениях инструмента.

Прототип уже показал полное выполнение шва в бенчмарке SutureBot, то есть речь идёт не о коротком жесте, а о длинной последовательности точных действий. Вторая часть стека — Cosmos-H-Surgical-Simulator, world foundation model для action-conditioned симуляции хирургии. Её дообучили на Open-H-Embodiment, чтобы модель генерировала правдоподобное видео операции прямо из кинематических действий робота, включая сложные эффекты вроде деформации мягких тканей, бликов, крови и дыма.

Практический выигрыш заметный: 600 прогонов в таком симуляторе занимают около 40 минут против примерно двух дней на реальных стендовых тестах. Для дообучения использовали 64 GPU A100 и около 10 тысяч GPU-часов, так что это уже серьёзная инфраструктурная заготовка, а не лабораторный демо-ролик.

Что дальше

Самое интересное в этой истории — попытка перевести медицинскую робототехнику из режима «модель видит» в режим «модель действует и обобщает». Открытый датасет плюс две фундаментальные модели дают исследователям общий стек для sim-to-real экспериментов, синтетической генерации данных и переноса навыков между разными роботами. Это особенно важно для хирургии, где собрать большие качественные датасеты дорого, а ошибка в управлении стоит намного дороже, чем в обычной компьютерной визии.

«Хирургической робототехнике нужен свой ChatGPT-момент».

Именно так авторы описывают цель второй версии Open-H-Embodiment. Следующий этап — не просто лучшее управление инструментом, а автономия с элементами рассуждения: системы должны уметь объяснять шаги, планировать длинные процедуры, адаптироваться к сбоям и учиться на размеченных траекториях с указанием намерений, результатов и типов ошибок. Если сообщество действительно соберёт такие reasoning-ready данные, медицина может получить не очередной узкий алгоритм, а платформу для более универсальных роботических ассистентов.

Что это значит

Для ИИ-рынка это важный сдвиг: в медицине начинают открыто собирать не просто модели распознавания, а базовый слой для Physical AI, где данные, policy-модели и симуляторы выпускаются пакетом. Если подход взлетит, у стартапов, лабораторий и производителей роботов появится общий стартовый набор для ускорения исследований, снижения стоимости тестов и более быстрого перехода от прототипов к клинически полезным системам.

ЖХ

Hamidun News

AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Telegram-канал RSS hamidun.com