Hugging Face Blog→ оригинал

كشفت Nvidia عن أول مجموعة بيانات مفتوحة ونماذج AI تأسيسية للروبوتات الطبية

نشرت Nvidia وشركاؤها Open-H-Embodiment، أول مجموعة بيانات مفتوحة كبيرة للروبوتات الطبية. وتضم 778 ساعة من البيانات عن الجراحة والموجات فوق الصوتية وتنظير القولو

كشفت Nvidia عن أول مجموعة بيانات مفتوحة ونماذج AI تأسيسية للروبوتات الطبية
Источник: Hugging Face Blog. Коллаж: Hamidun News.

Nvidia вместе с исследовательским сообществом представила Open-H-Embodiment — первый крупный открытый датасет для медицинской робототехники, а также две базовые модели для хирургических сценариев. Пакет опубликован на Hugging Face и должен сдвинуть медицинский ИИ от анализа изображений к системам, которые умеют действовать в физическом мире.

Что открыли

Главная идея релиза простая: для медицины уже мало моделей, которые только распознают снимки, сегментируют ткани или классифицируют патологии. В операционной, на УЗИ или при колоноскопии машине нужно работать с инструментом, понимать контакт с тканями, учитывать кинематику робота и замыкать цикл управления по обратной связи. Именно под это и собрали Open-H-Embodiment — общий фундамент для обучения и оценки Physical AI в медицинской робототехнике.

778 часов обучающих данных под лицензией CC-BY-4.0 35 организаций-участников из университетов, клиник и индустрии сценарии из хирургии, ультразвука и автономной колоноскопии данные из симуляции, тренажёрных упражнений и реальных процедур * поддержка коммерческих и исследовательских роботических платформ Для рынка важен не только объём, но и формат. Датасет объединяет зрение, усилия, кинематику и разные типы роботических тел в одном открытом наборе, чтобы команды могли сравнивать подходы на общей базе, а не на закрытых локальных коллекциях.

В проекте участвуют Nvidia, Johns Hopkins, Technical University of Munich, Stanford и десятки других команд, так что речь идёт не о разовой публикации, а о попытке задать отраслевой стандарт.

Как работают модели

Вместе с датасетом Nvidia выложила GR00T-H — Vision-Language-Action модель для хирургической робототехники, обученную примерно на 600 часах данных Open-H-Embodiment. Это, по сути, policy-модель, которая получает визуальный и текстовый контекст и переводит его в действия робота. Авторы отдельно подчёркивают, что для разных роботов ввели общий нормализованный action space, специальные проекции под конкретную кинематику и обучение на относительных движениях инструмента.

Прототип уже показал полное выполнение шва в бенчмарке SutureBot, то есть речь идёт не о коротком жесте, а о длинной последовательности точных действий. Вторая часть стека — Cosmos-H-Surgical-Simulator, world foundation model для action-conditioned симуляции хирургии. Её дообучили на Open-H-Embodiment, чтобы модель генерировала правдоподобное видео операции прямо из кинематических действий робота, включая сложные эффекты вроде деформации мягких тканей, бликов, крови и дыма.

Практический выигрыш заметный: 600 прогонов в таком симуляторе занимают около 40 минут против примерно двух дней на реальных стендовых тестах. Для дообучения использовали 64 GPU A100 и около 10 тысяч GPU-часов, так что это уже серьёзная инфраструктурная заготовка, а не лабораторный демо-ролик.

Что дальше

Самое интересное в этой истории — попытка перевести медицинскую робототехнику из режима «модель видит» в режим «модель действует и обобщает». Открытый датасет плюс две фундаментальные модели дают исследователям общий стек для sim-to-real экспериментов, синтетической генерации данных и переноса навыков между разными роботами. Это особенно важно для хирургии, где собрать большие качественные датасеты дорого, а ошибка в управлении стоит намного дороже, чем в обычной компьютерной визии.

«Хирургической робототехнике нужен свой ChatGPT-момент».

Именно так авторы описывают цель второй версии Open-H-Embodiment. Следующий этап — не просто лучшее управление инструментом, а автономия с элементами рассуждения: системы должны уметь объяснять шаги, планировать длинные процедуры, адаптироваться к сбоям и учиться на размеченных траекториях с указанием намерений, результатов и типов ошибок. Если сообщество действительно соберёт такие reasoning-ready данные, медицина может получить не очередной узкий алгоритм, а платформу для более универсальных роботических ассистентов.

Что это значит

Для ИИ-рынка это важный сдвиг: в медицине начинают открыто собирать не просто модели распознавания, а базовый слой для Physical AI, где данные, policy-модели и симуляторы выпускаются пакетом. Если подход взлетит, у стартапов, лабораторий и производителей роботов появится общий стартовый набор для ускорения исследований, снижения стоимости тестов и более быстрого перехода от прототипов к клинически полезным системам.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…