Nvidia apresentou o primeiro dataset aberto e modelos fundacionais de AI para robôs médicos
A Nvidia e seus parceiros disponibilizaram o Open-H-Embodiment, o primeiro grande dataset aberto para robótica médica. Ele reúne 778 horas de dados de cirurgia,

Nvidia вместе с исследовательским сообществом представила Open-H-Embodiment — первый крупный открытый датасет для медицинской робототехники, а также две базовые модели для хирургических сценариев. Пакет опубликован на Hugging Face и должен сдвинуть медицинский ИИ от анализа изображений к системам, которые умеют действовать в физическом мире.
Что открыли
Главная идея релиза простая: для медицины уже мало моделей, которые только распознают снимки, сегментируют ткани или классифицируют патологии. В операционной, на УЗИ или при колоноскопии машине нужно работать с инструментом, понимать контакт с тканями, учитывать кинематику робота и замыкать цикл управления по обратной связи. Именно под это и собрали Open-H-Embodiment — общий фундамент для обучения и оценки Physical AI в медицинской робототехнике.
778 часов обучающих данных под лицензией CC-BY-4.0 35 организаций-участников из университетов, клиник и индустрии сценарии из хирургии, ультразвука и автономной колоноскопии данные из симуляции, тренажёрных упражнений и реальных процедур * поддержка коммерческих и исследовательских роботических платформ Для рынка важен не только объём, но и формат. Датасет объединяет зрение, усилия, кинематику и разные типы роботических тел в одном открытом наборе, чтобы команды могли сравнивать подходы на общей базе, а не на закрытых локальных коллекциях.
В проекте участвуют Nvidia, Johns Hopkins, Technical University of Munich, Stanford и десятки других команд, так что речь идёт не о разовой публикации, а о попытке задать отраслевой стандарт.
Как работают модели
Вместе с датасетом Nvidia выложила GR00T-H — Vision-Language-Action модель для хирургической робототехники, обученную примерно на 600 часах данных Open-H-Embodiment. Это, по сути, policy-модель, которая получает визуальный и текстовый контекст и переводит его в действия робота. Авторы отдельно подчёркивают, что для разных роботов ввели общий нормализованный action space, специальные проекции под конкретную кинематику и обучение на относительных движениях инструмента.
Прототип уже показал полное выполнение шва в бенчмарке SutureBot, то есть речь идёт не о коротком жесте, а о длинной последовательности точных действий. Вторая часть стека — Cosmos-H-Surgical-Simulator, world foundation model для action-conditioned симуляции хирургии. Её дообучили на Open-H-Embodiment, чтобы модель генерировала правдоподобное видео операции прямо из кинематических действий робота, включая сложные эффекты вроде деформации мягких тканей, бликов, крови и дыма.
Практический выигрыш заметный: 600 прогонов в таком симуляторе занимают около 40 минут против примерно двух дней на реальных стендовых тестах. Для дообучения использовали 64 GPU A100 и около 10 тысяч GPU-часов, так что это уже серьёзная инфраструктурная заготовка, а не лабораторный демо-ролик.
Что дальше
Самое интересное в этой истории — попытка перевести медицинскую робототехнику из режима «модель видит» в режим «модель действует и обобщает». Открытый датасет плюс две фундаментальные модели дают исследователям общий стек для sim-to-real экспериментов, синтетической генерации данных и переноса навыков между разными роботами. Это особенно важно для хирургии, где собрать большие качественные датасеты дорого, а ошибка в управлении стоит намного дороже, чем в обычной компьютерной визии.
«Хирургической робототехнике нужен свой ChatGPT-момент».
Именно так авторы описывают цель второй версии Open-H-Embodiment. Следующий этап — не просто лучшее управление инструментом, а автономия с элементами рассуждения: системы должны уметь объяснять шаги, планировать длинные процедуры, адаптироваться к сбоям и учиться на размеченных траекториях с указанием намерений, результатов и типов ошибок. Если сообщество действительно соберёт такие reasoning-ready данные, медицина может получить не очередной узкий алгоритм, а платформу для более универсальных роботических ассистентов.
Что это значит
Для ИИ-рынка это важный сдвиг: в медицине начинают открыто собирать не просто модели распознавания, а базовый слой для Physical AI, где данные, policy-модели и симуляторы выпускаются пакетом. Если подход взлетит, у стартапов, лабораторий и производителей роботов появится общий стартовый набор для ускорения исследований, снижения стоимости тестов и более быстрого перехода от прототипов к клинически полезным системам.