AWS Machine Learning Blog→ оригинал

Как языковые модели помогают обучать строительных роботов без ручной разметки данных

Стартап Bedrock Robotics в рамках программы AWS Physical AI Fellowship разработал подход к автоматической разметке данных для обучения автономной строительной т

Как языковые модели помогают обучать строительных роботов без ручной разметки данных
Источник: AWS Machine Learning Blog. Коллаж: Hamidun News.

Строительная отрасль остаётся одной из наименее автоматизированных в мире. Экскаваторы, бульдозеры и краны по-прежнему управляются людьми, а производительность труда в строительстве за последние десятилетия практически не росла — в отличие от промышленного производства, где роботизация давно стала нормой. Одна из главных причин этого разрыва — катастрофическая нехватка качественных данных для обучения автономных систем. И именно эту проблему взялся решать стартап Bedrock Robotics, объединив усилия с Amazon Web Services.

Компания вошла в программу AWS Physical AI Fellowship и получила доступ к ресурсам AWS Generative AI Innovation Center — подразделения Amazon, которое помогает партнёрам внедрять генеративный ИИ в реальные продукты. Задача, которую поставил перед собой Bedrock Robotics, звучит обманчиво просто: научить строительную технику работать автономно. Но за этой формулировкой скрывается фундаментальная проблема масштабирования данных.

Чтобы автономный экскаватор мог безопасно копать траншею или перемещать грунт, его нейросетевые модели должны быть обучены на огромных объёмах размеченных данных. Каждый кадр видеозаписи со стройплощадки необходимо аннотировать — отметить положение техники, людей, препятствий, определить тип выполняемой операции, зафиксировать контекст окружающей среды. Традиционно этим занимаются команды разметчиков, и процесс стоит дорого, идёт медленно и плохо масштабируется. Для строительной индустрии, где каждая площадка уникальна, а условия меняются ежечасно, эта проблема особенно остра.

Решение Bedrock Robotics опирается на vision-language модели — класс мультимодальных систем, способных одновременно «видеть» изображение и «понимать» текстовые описания. Эти модели анализируют видеозаписи строительных работ, автоматически извлекают из них операционные детали и генерируют размеченные обучающие датасеты без участия человека. По сути, вместо того чтобы нанимать сотни аннотаторов, стартап поручает разметку другой нейросети — и делает это в масштабах, недоступных для ручного труда.

Технически подход выглядит следующим образом. Видеопоток со стройплощадки подаётся в vision-language модель, развёрнутую на инфраструктуре Amazon Bedrock. Модель покадрово анализирует происходящее, распознаёт типы техники и выполняемые операции, определяет пространственные отношения между объектами и формирует структурированные аннотации. Эти аннотации затем используются как обучающие данные для специализированных моделей, которые непосредственно управляют автономной техникой. Получается своеобразный конвейер: большая универсальная модель готовит данные для маленьких специализированных моделей.

Важно понимать контекст, в котором появилось это решение. Физический ИИ — роботы, автономные транспортные средства, промышленные манипуляторы — переживает момент, похожий на тот, что языковые модели прошли несколько лет назад. Алгоритмы уже достаточно мощные, вычислительные ресурсы доступны, но именно данные остаются главным ограничителем. В отличие от текстовых данных, которые можно собирать из интернета, или даже изображений, которых в сети миллиарды, данные о физических операциях — редкий и дорогой ресурс. Каждый час видео со стройплощадки нужно не просто записать, а осмысленно разметить с учётом специфики домена.

Подход Bedrock Robotics потенциально меняет экономику всей отрасли автономной техники. Если разметка данных перестаёт быть узким горлышком, компании могут значительно быстрее итерировать свои модели, обучать их на более разнообразных сценариях и быстрее выводить продукты на рынок. Это касается не только строительства — аналогичная логика применима к горнодобыче, сельскому хозяйству, складской логистике и любой другой области, где физические системы должны действовать автономно в неструктурированной среде.

Есть, впрочем, и вопросы. Качество автоматической разметки неизбежно уступает экспертной ручной аннотации, и ошибки в обучающих данных могут каскадно распространяться на конечные модели управления. Для систем, работающих рядом с людьми на стройплощадках, цена ошибки измеряется не в пикселях, а в человеческих жизнях. Насколько надёжна автоматическая разметка в критически важных сценариях — вопрос, на который пока нет публичного ответа.

Тем не менее направление задано. Использование генеративного ИИ для подготовки данных, обучающих другой ИИ, — это не просто инженерный трюк, а формирующийся паттерн всей индустрии. Amazon, очевидно, делает стратегическую ставку на физический ИИ как следующий крупный рынок после языковых моделей, и программа Physical AI Fellowship — часть этой ставки. Строительная техника, которая думает сама, пока остаётся делом будущего. Но данные для этого будущего уже начали готовить машины.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…