Meta AI Blog→ оригинал

Meta представила SAM 3.1: отслеживание 16 объектов в видео в реальном времени

Meta выпустила SAM 3.1 — обновление модели для видеоанализа. Главное: multiplexing позволяет отслеживать до 16 объектов в одном вычислительном проходе вместо об

Meta представила SAM 3.1: отслеживание 16 объектов в видео в реальном времени
Источник: Meta AI Blog. Коллаж: Hamidun News.
◐ Слушать статью

Meta представила SAM 3.1 — обновление своей модели Segment Anything Model 3 для анализа видео. Главное улучшение скрывается в новой архитектуре: система теперь отслеживает до 16 объектов в одном вычислительном проходе и работает в два раза быстрее, достигая 32 кадров в секунду на видеокарте H100 GPU.

Как работает multiplexing

Раньше подход был простой, но неэффективный: SAM 3 обрабатывал каждый объект в видео отдельно. Для отслеживания 16 объектов требовалось 16 вычислительных проходов. Это было медленно, требовало огромного объёма видеопамяти GPU и создавало узкие места в обработке.

SAM 3.1 решил эту проблему через multiplexing — один проход обрабатывает все объекты сразу. Модель видит не только отдельный объект, но всю сцену целиком.

Это позволяет ей использовать глобальное понимание (global reasoning) для более точного отслеживания, особенно когда объекты перекрываются или движутся в сложных условиях. Результат заметен на практике: на видеокарте H100 система достигает 32 fps вместо прежних 16 fps. Но ещё важнее — это означает, что высокопроизводительный видеоанализ теперь требует меньше ресурсов.

SAM 3.1 работает на менее мощном оборудовании, что делает AI-зрение доступнее для стартапов, агентств и небольших компаний, которые раньше не могли позволить себе собственные GPU-фермы.

Универсальная система для разных задач SAM 3 — не узкоспециализированный инструмент.

Это универсальная платформа, которая работает одинаково хорошо как на статических изображениях, так и на видео, и принимает самые разные типы входных данных. Система понимает текстовые запросы: вместо того, чтобы просить «найди зонт» (модель найдёт любой зонт), вы можете дать точный визуальный концепт — «найди полосатый красный зонт» — и SAM 3 найдёт именно этот объект. Кроме текста модель работает с визуальными подсказками: маски, ограничивающие боксы, точки на объекте, а также с exemplar-промптами (образцами объектов). Это решило давнюю проблему с предыдущими моделями компьютерного зрения. Старые системы работали только с фиксированным набором категорий: person, car, dog, bicycle. SAM 3 может выделить и отследить любой визуальный концепт, который вы опишете или покажете, не требуя переобучения на новых данных.

Где SAM 3.1 уже применяется

Meta уже интегрирует SAM 3 в коммерческие продукты: Instagram Edits — новые динамические визуальные эффекты, которые работают только с выделенными объектами Vibes в Meta AI — расширены возможности для создания и редактирования контента с помощью AI Facebook Marketplace — функция «View in Room» позволяет покупателям виртуально визуализировать мебель и декор в своём интерьере перед покупкой Segment Anything Playground — открытая платформа для всех, где можно загрузить видео или фото и увидеть segmentation в реальном времени Playground требует только браузер — никакого кода, никакой настройки GPU. Это демократизирует доступ к state-of-the-art компьютерному зрению.

Что это значит

Видеоанализ на базе AI переходит из узкоспециализированных лабораторий и мега-корпораций в массовые приложения. SAM 3.1 — это не просто ускорение и удешевление, это переломный момент. AI-зрение теперь доступно разработчикам и компаниям среднего размера, которым раньше было не по карману содержать собственные GPU-кластеры или нанимать специалистов по computer vision. Следите за появлением новых приложений: в безопасности (интеллектуальное видеонаблюдение), в e-commerce (примерка и визуализация), в логистике и производстве (контроль качества), в медиа (автоматическое редактирование и эффекты). SAM 3.1 станет основой для волны новых сервисов в ближайшие месяцы. *Meta признана экстремистской организацией и запрещена в РФ.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Что вы думаете?
Загружаем комментарии…