Nvidia a présenté le premier dataset ouvert et des modèles fondamentaux d’AI pour les robots médicaux
Nvidia et ses partenaires ont publié Open-H-Embodiment, le premier grand dataset ouvert pour la robotique médicale. Il contient 778 heures de données sur la…
Traité par IA depuis Hugging Face Blog ; édité par Hamidun News
Nvidia a présenté son premier dataset ouvert et ses modèles d'IA fondamentaux pour la robotique chirurgicale
Nvidia, en collaboration avec la communauté de recherche, a présenté Open-H-Embodiment — le premier grand dataset ouvert pour la robotique médicale, ainsi que deux modèles fondamentaux pour les scénarios chirurgicaux. Le paquet a été publié sur Hugging Face et vise à déplacer l'IA médicale de l'analyse d'images vers des systèmes capables d'agir dans le monde physique.
Ce qui a été ouvert
L'idée principale du lancement est simple : pour la médecine, les modèles qui se contentent de reconnaître des images, de segmenter des tissus ou de classifier des pathologies ne suffisent plus. En salle d'opération, pendant une échographie ou lors d'une colonoscopie, une machine doit fonctionner avec des instruments, comprendre le contact tissulaire, tenir compte de la cinématique du robot et fermer la boucle de contrôle avec rétroaction. C'est exactement pour cela qu'Open-H-Embodiment a été constitué — une base commune pour former et évaluer Physical AI en robotique médicale.
- 778 heures de données d'entraînement sous licence CC-BY-4.0
- 35 organisations participantes provenant d'universités, de cliniques et de l'industrie
- scénarios de chirurgie, d'échographie et de colonoscopie autonome
- données issues de simulations, d'exercices de formation et de procédures réelles
- support pour les plateformes robotiques commerciales et de recherche
Pour le marché, le volume compte, mais le format aussi. Le dataset combine la vision, la force, la cinématique et différents types de corps robotiques en une seule collection ouverte, permettant aux équipes de comparer les approches sur une base commune plutôt que sur des collections locales fermées. Le projet inclut Nvidia, Johns Hopkins, Technical University of Munich, Stanford et des dizaines d'autres équipes, il ne s'agit donc pas d'une publication ponctuelle mais d'une tentative d'établir une norme industrielle.
Comment fonctionnent les modèles
Parallèlement au dataset, Nvidia a lancé GR00T-H — un modèle Vision-Language-Action pour la robotique chirurgicale, entraîné sur environ 600 heures de données d'Open-H-Embodiment. Il s'agit essentiellement d'un modèle de politique qui reçoit un contexte visuel et textuel et le traduit en actions du robot. Les auteurs soulignent qu'ils ont introduit un espace d'action normalisé commun pour différents robots, des projections spécialisées pour des cinématiques spécifiques et un entraînement sur les mouvements relatifs des instruments. Le prototype a déjà démontré l'exécution complète d'une suture dans le benchmark SutureBot, ce qui signifie que nous parlons non pas d'un geste court mais d'une longue séquence d'actions précises.
La deuxième partie de la pile est Cosmos-H-Surgical-Simulator, un modèle de fondation du monde pour la simulation chirurgicale conditionnée par les actions. Il a été affiné sur Open-H-Embodiment pour que le modèle génère une vidéo chirurgicale réaliste directement à partir des actions cinématiques du robot, y compris des effets complexes tels que la déformation des tissus mous, les reflets, le sang et la fumée. L'avantage pratique est notable : 600 exécutions dans un tel simulateur prennent environ 40 minutes contre environ deux jours sur des tests réels sur banc. Ils ont utilisé 64 GPU A100 et environ 10 000 heures-GPU pour l'affinage, il s'agit donc déjà d'une configuration d'infrastructure sérieuse, non d'une démo de laboratoire.
Ce qui vient ensuite
La partie la plus intéressante de cette histoire est la tentative de déplacer la robotique médicale du mode « le modèle voit » au mode « le modèle agit et généralise ». Un dataset ouvert plus deux modèles fondamentaux donnent aux chercheurs une pile commune pour les expériences sim-to-real, la génération de données synthétiques et le transfert de compétences entre différents robots. C'est particulièrement important pour la chirurgie, où collecter de grands datasets de qualité est coûteux et une erreur de contrôle coûte beaucoup plus qu'en vision par ordinateur ordinaire.
« La robotique chirurgicale a besoin de son propre moment ChatGPT ».
C'est ainsi que les auteurs décrivent l'objectif de la deuxième version d'Open-H-Embodiment. L'étape suivante n'est pas seulement un meilleur contrôle des instruments, mais l'autonomie avec des éléments de raisonnement : les systèmes doivent pouvoir expliquer les étapes, planifier les procédures longues, s'adapter aux pannes et apprendre à partir de trajectoires annotées avec indication des intentions, des résultats et des types d'erreurs. Si la communauté rassemble vraiment de telles données prêtes pour le raisonnement, la médecine pourrait obtenir non pas un autre algorithme étroit, mais une plateforme pour des assistants robotiques plus universels.
Ce que cela signifie
Pour le marché de l'IA, c'est un changement important : en médecine, on commence à collecter ouvertement non seulement des modèles de reconnaissance, mais une couche fondamentale pour Physical AI, où les données, les modèles de politique et les simulateurs sont lancés en tant que paquet. Si l'approche décolle, les startups, les laboratoires et les fabricants de robots auront un kit de démarrage commun pour accélérer la recherche, réduire les coûts de test et réaliser des transitions plus rapides des prototypes vers des systèmes cliniquement utiles.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.