MIT News→ оригинал

ИИ научился находить персонализированные объекты на изображениях

Разработан метод обучения, позволяющий vision-language моделям лучше идентифицировать конкретные объекты в новых сценах. После обучения, модель точнее находит з

ИИ научился находить персонализированные объекты на изображениях
Источник: MIT News. Коллаж: Hamidun News.

Представьте, что вы пытаетесь найти любимую игрушку вашего ребенка в заваленной комнате. Для человека это относительно простая задача, но для искусственного интеллекта – настоящий вызов. Новая разработка в области машинного обучения приближает нас к решению этой проблемы. Исследователи представили метод, позволяющий генеративным AI моделям гораздо эффективнее находить персонализированные объекты на изображениях.

Проблема идентификации уникальных объектов в новых сценах – одна из ключевых в компьютерном зрении. Существующие модели, как правило, хорошо справляются с распознаванием общих категорий объектов (например, «собака» или «автомобиль»), но испытывают трудности, когда речь идет о конкретном, уникальном экземпляре (например, «именно эта собака» или «именно этот автомобиль»). Это связано с тем, что модели обучаются на огромных массивах данных, содержащих множество примеров общих категорий, но гораздо меньше – уникальных объектов.

Новый метод обучения решает эту проблему путем использования персонализированных данных. Вместо того, чтобы обучать модель на общих категориях, исследователи используют изображения конкретного объекта с разных ракурсов и в разных условиях освещения. Это позволяет модели «узнать» объект и научиться идентифицировать его даже в незнакомой обстановке. После обучения, vision-language модель способна с большей точностью определять местоположение уникального предмета на новом изображении.

Этот прорыв имеет огромные перспективы для различных областей. В робототехнике это позволит роботам более эффективно взаимодействовать с окружающим миром и выполнять сложные задачи, требующие идентификации конкретных объектов. Например, робот сможет найти нужный инструмент на верстаке или доставить определенный предмет конкретному человеку. В сфере электронной коммерции это позволит улучшить поиск товаров по изображениям и предлагать пользователям более релевантные результаты. Представьте, что вы можете сфотографировать понравившуюся вам вещь, и система автоматически найдет ее в интернет-магазинах.

Разработка также важна для развития систем помощи людям с ограниченными возможностями. Например, технология может помочь слабовидящим людям ориентироваться в пространстве и находить нужные им предметы. Кроме того, она может быть использована в системах безопасности для идентификации конкретных людей или объектов в режиме реального времени.

В заключение, новый метод обучения генеративных AI моделей для идентификации персонализированных объектов – это важный шаг вперед в развитии компьютерного зрения. Он открывает новые возможности для различных областей, от робототехники до электронной коммерции и систем помощи людям. В будущем мы, вероятно, увидим все больше и больше приложений этой технологии, делающих нашу жизнь проще и удобнее.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…