Comment les modèles de langage aident à former des robots de construction sans annotation manuelle des données
La startup Bedrock Robotics, dans le cadre du programme AWS Physical AI Fellowship, a développé une approche d'annotation automatique des données pour…
Traité par IA depuis AWS Machine Learning Blog ; édité par Hamidun News
L'industrie de la construction reste l'un des secteurs les moins automatisés au monde. Les excavatrices, les bouteurs et les grues sont toujours pilotés par des humains, et la productivité du travail dans la construction a pratiquement stagné au cours des dernières décennies—contrairement à la fabrication industrielle, où la robotisation est depuis longtemps devenue la norme. L'une des principales raisons de cet écart est la pénurie catastrophique de données de qualité pour former les systèmes autonomes. Et c'est précisément ce problème que la startup Bedrock Robotics s'est proposé de résoudre, en unissant ses efforts avec Amazon Web Services.
L'entreprise a rejoint le programme AWS Physical AI Fellowship et a obtenu l'accès aux ressources du AWS Generative AI Innovation Center—une division d'Amazon qui aide les partenaires à intégrer l'IA générative dans les produits réels. La tâche que Bedrock Robotics s'est fixée semble trompeusement simple : enseigner aux équipements de construction à fonctionner de manière autonome. Mais derrière cette formulation se cache un problème fondamental d'évolutivité des données.
Pour qu'une pelle mécanique autonome puisse creuser en toute sécurité une tranchée ou déplacer de la terre, ses modèles de réseaux de neurones doivent être formés sur d'énormes volumes de données annotées. Chaque image d'une vidéo d'un chantier de construction doit être annotée—en marquant la position de l'équipement, des personnes, des obstacles, en déterminant le type d'opération en cours, en enregistrant le contexte environnemental. Traditionnellement, cela est fait par des équipes d'annotateurs, et le processus est coûteux, lent et ne s'adapte pas bien. Pour l'industrie de la construction, où chaque site est unique et où les conditions changent d'heure en heure, ce problème est particulièrement aigu.
La solution de Bedrock Robotics s'appuie sur les modèles vision-langage—une classe de systèmes multimodaux capables de « voir » simultanément une image et « comprendre » des descriptions textuelles. Ces modèles analysent des vidéos de travaux de construction, en extraient automatiquement les détails opérationnels et génèrent des ensembles de données d'entraînement annotés sans intervention humaine. Essentiellement, au lieu d'embaucher des centaines d'annotateurs, la startup délègue l'annotation à un autre réseau de neurones—et le fait à des échelles inaccessibles au travail manuel.
Techniquement, l'approche fonctionne comme suit. Un flux vidéo d'un chantier de construction est alimenté dans un modèle vision-langage déployé sur l'infrastructure d'Amazon Bedrock. Le modèle analyse ce qui se passe image par image, reconnaît les types d'équipement et les opérations en cours, détermine les relations spatiales entre les objets et génère des annotations structurées. Ces annotations sont ensuite utilisées comme données d'entraînement pour les modèles spécialisés qui contrôlent directement l'équipement autonome. Cela forme une sorte de chaîne : un grand modèle universel prépare les données pour les petits modèles spécialisés.
Il est important de comprendre le contexte dans lequel cette solution a émergé. L'IA physique—les robots, les véhicules autonomes, les manipulateurs industriels—vit un moment similaire à celui que les modèles de langage ont connu il y a quelques années. Les algorithmes sont déjà suffisamment puissants, les ressources informatiques sont disponibles, mais les données restent la principale limitation. Contrairement aux données textuelles, qui peuvent être recueillies sur Internet, ou même aux images, dont il y a des milliards en ligne, les données sur les opérations physiques sont une ressource rare et coûteuse. Chaque heure de vidéo d'un chantier de construction doit non seulement être enregistrée, mais significativement annotée en tenant compte des spécificités du domaine.
L'approche de Bedrock Robotics transforme potentiellement l'économie de toute l'industrie de l'équipement autonome. Si l'annotation des données cesse d'être un goulot d'étranglement, les entreprises peuvent itérer beaucoup plus rapidement leurs modèles, les former sur des scénarios plus divers et lancer les produits sur le marché plus rapidement. Cela s'applique non seulement à la construction—une logique similaire est applicable à l'exploitation minière, l'agriculture, la logistique d'entrepôt et tout autre domaine où les systèmes physiques doivent agir de manière autonome dans des environnements non structurés.
Il y a, cependant, des questions à se poser. La qualité de l'annotation automatique est inévitablement inférieure à l'annotation manuelle d'experts, et les erreurs dans les données d'entraînement peuvent se propager en cascade vers les modèles de contrôle finaux. Pour les systèmes travaillant aux côtés des personnes sur les chantiers de construction, le coût de l'erreur se mesure non pas en pixels mais en vies humaines. Dans quelle mesure l'annotation automatique est-elle fiable dans les scénarios critiques pour la sécurité—c'est une question qui n'a pas encore de réponse publique.
Néanmoins, la direction est tracée. Utiliser l'IA générative pour préparer les données qui forment une autre IA n'est pas seulement un tour d'ingénierie, mais un modèle qui prend forme dans toute l'industrie. Amazon fait clairement un pari stratégique sur l'IA physique comme prochain grand marché après les modèles de langage, et le programme Physical AI Fellowship en fait partie. L'équipement de construction qui pense par lui-même reste une affaire du futur. Mais les données pour cet avenir commencent déjà à être préparées par les machines.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.