Jiqizhixin (机器之心)→ оригинал

SenseNova-MARS: SenseTime Opens Its Code to Teach AI to See and Think Simultaneously

SenseTime выпустила в опенсорс SenseNova-MARS — систему, которая должна изменить наше представление о мультимодальном поиске. Пока западные гиганты закрывают св

SenseNova-MARS: SenseTime Opens Its Code to Teach AI to See and Think Simultaneously
Источник: Jiqizhixin (机器之心). Коллаж: Hamidun News.

Пока OpenAI и Google соревнуются в том, кто сильнее ограничит доступ к своим топовым разработкам, китайский технологический гигант SenseTime решил пойти другим путем. Компания открыла исходный код своей системы SenseNova-MARS, заявляя о преодолении «потолка» в области мультимодального поиска и логического вывода. Это не просто очередной поисковик по картинкам, а серьезная попытка научить нейросети понимать мир так же целостно, как это делает человек.

Чтобы понять масштаб события, нужно вспомнить контекст. SenseTime давно развивает свою линейку моделей SenseNova, но именно MARS (Multimodal Analysis and Retrieval System) становится мостом между простым распознаванием объектов и сложным анализом. Раньше ИИ мог сказать: «На этом видео человек переходит дорогу».

Теперь MARS способен объяснить, почему это действие может быть опасным в конкретной ситуации, опираясь на правила движения и скорость машин. Это и есть то самое мультимодальное рассуждение, за которым сейчас охотятся все лаборатории мира. Что именно изменилось?

SenseTime внедрила архитектуру, которая позволяет модели не просто сопоставлять текстовые запросы с визуальными признаками, но и выстраивать логические цепочки. Это решает главную проблему современных мультимодальных систем — их поверхностность. MARS работает с видео и изображениями на уровне смыслов, а не только пикселей.

Если вы ищете конкретный момент в огромном архиве записей, система найдет его не по ключевому слову, а по описанию ситуации, требующей понимания контекста. Почему это важно именно сейчас? Китайский рынок ИИ находится под колоссальным давлением санкций и внутренней конкуренции с Alibaba и Baidu.

В таких условиях опенсорс становится мощным оружием. Отдавая MARS сообществу, SenseTime фактически нанимает тысячи разработчиков по всему миру для бесплатного тестирования и улучшения своей технологии. Это классический ход: если не можешь победить в закрытой гонке мощностей, возглавь открытое движение.

Для индустрии это сигнал о том, что эпоха простых чат-ботов окончательно уходит. Будущее за системами, которые «видят» и «понимают» одновременно. Если раньше для создания продвинутого видеопоиска требовались миллионы долларов на разработку проприетарных алгоритмов, то теперь планка входа резко упала.

MARS дает инструменты для создания систем безопасности нового поколения, умных архивов и продвинутых систем мониторинга, которые не просто смотрят, а анализируют происходящее в реальном времени. Интересно, как на это ответят западные компании. Мы видим, что закрытость моделей GPT-4o или Gemini 1.

5 Pro начинает раздражать разработчиков, которым нужна гибкость и возможность дообучения под конкретные задачи. SenseTime дает им эту возможность. Конечно, остается вопрос качества на фоне нехватки самых мощных чипов в Китае, но архитектурные решения MARS выглядят крайне убедительно.

Главное: SenseTime делает ставку на массовость и открытость. Сможет ли MARS стать стандартом для мультимодальных систем, или это лишь попытка сохранить лицо в условиях технологической изоляции? Ответ мы увидим в ближайшие месяцы, когда появятся первые форки и сторонние решения на базе этой модели.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…