36Kr (36氪)→ оригинал

Ant Group представила Ming-flash-omni 2.0: открытый мультимодальный прорыв

Ant Group представила Ming-flash-omni 2.0 — мощную мультимодальную модель с открытым исходным кодом. Новинка лидирует в понимании визуальных данных и генерации

Ant Group представила Ming-flash-omni 2.0: открытый мультимодальный прорыв
Источник: 36Kr (36氪). Коллаж: Hamidun News.

Ant Group открыла исходный код самой амбициозной мультимодальной модели из своего портфеля — Ming-flash-omni 2.0. Компания заявляет, что её детище не просто соперничает с флагманом Google Gemini 2.5 Pro, но и превосходит его в ряде критических тестов. Главное же отличие лежит совсем в другой плоскости: Ming-flash-omni 2.0 первой в индустрии научилась генерировать аудио синхронно — речь, фоновые шумы и музыку одновременно в единой дорожке. Это не просто техническое достижение, а переход на новый уровень работы с мультимедиа.

Появление открытой мультимодальной модели от китайской финтех-гиганта, похоже, становится частью более широкой стратегии. Пока западные лидеры рынка — OpenAI, Google, Anthropic — держат свои самые мощные системы закрытыми, компании вроде Ant Group начинают понимать, что открытость может стать конкурентным преимуществом. Ming-flash-omni 2.0, выпущенная с открытым исходным кодом, получает мгновенный доступ к сообществу разработчиков, которые смогут адаптировать модель под локальные нужды, оптимизировать для своих устройств и создавать специализированные приложения. Это особенно значимо для рынков Азии, где локализация и культурная адаптация критичны.

Относительно технических характеристик, модель демонстрирует впечатляющие результаты. В тестах на визуально-языковое понимание и генерацию изображений с редактированием Ming-flash-omni 2.0 показывает результаты, которые конкурируют с Gemini 2.5 Pro, а в отдельных бенчмарках даже превосходят её. Но визуальное и текстовое — это уже привычная территория для современных больших моделей. Истинное новшество скрывается в аудио-функциональности. До сих пор при синтезе речи разработчики либо генерировали голос отдельно, либо добавляли фоновые звуки и музыку в качестве отдельных слоёв в постпродакшене. Ming-flash-omni 2.0 меняет игру: она может одновременно создавать все три компонента, понимая контекст и обеспечивая их естественное взаимодействие в одном временном потоке.

Это открывает двери для совершенно новых сценариев использования. Для медиапроизводства — это означает ускорение создания озвучки для видеоконтента, документалистики, подкастов. Система может генерировать не просто речь актёра, но и обогащать звуковой пейзаж атмосферными деталями. Для разработки ИИ-приложений возможность унифицированной аудиогенерации позволяет строить более сложные интерактивные системы — от умных ассистентов, которые звучат как реальные люди в реальном мире, до гейм-сценариев с полнофункциональным звуковым дизайном, создаваемым на лету.

Выпуск Ming-flash-omni 2.0 с открытым исходным кодом символизирует сдвиг в геополитике ИИ. Если раньше инновации в мультимодальности доминировали западные гиганты, теперь китайские компании демонстрируют, что они могут не просто идти в ногу, но и выходить вперёд в отдельных направлениях. Открытый доступ усилит этот эффект, позволив разработчикам по всему миру экспериментировать и совершенствовать модель. Вопрос только в том, сможет ли западная индустрия быстро адаптироваться к новой реальности, где лучшие инструменты часто лежат в открытом доступе и доступны всем, а не только тем, кто может позволить себе облачные вычисления Tier-1 компаний.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…