MarkTechPost→ оригинал

Alibaba lance Qwen3.5-Omni — un modèle multimodal natif pour le texte, l'audio et la vidéo

Alibaba a présenté Qwen3.5-Omni — un nouveau modèle omnimodal qui traite le texte, les images, l'audio et la vidéo sans assembler des modules séparés. La série

Alibaba lance Qwen3.5-Omni — un modèle multimodal natif pour le texte, l'audio et la vidéo
Источник: MarkTechPost. Коллаж: Hamidun News.

Alibaba показала Qwen3.5-Omni — нативную омнимодальную модель, которая понимает текст, изображения, аудио и видео в одной архитектуре и умеет отвечать голосом в реальном времени.

Как устроена модель

Главная идея Qwen3.5-Omni в том, что это не набор отдельных моделей, соединённых поверх текстового ядра, а единая система, изначально рассчитанная на несколько типов данных. Такой подход Alibaba противопоставляет старому формату мультимодальности, где к LLM просто «пришивали» зрение или звук через внешние энкодеры.

Для разработчиков разница важна: нативная архитектура обычно лучше держит контекст между каналами, точнее связывает речь с изображением и проще масштабируется под реальные сценарии вроде звонков, видеоаналитики и голосовых ассистентов. В техническом отчёте Qwen3.5-Omni описана как модель омнимодального семейства с архитектурой Hybrid Attention Mixture-of-Experts для двух контуров — Thinker и Talker.

Первый отвечает за понимание и рассуждение, второй — за потоковый голосовой ответ. Qwen пишет, что модель обучали на гетерогенных парах текст-изображение и на более чем 100 миллионах часов аудиовизуальных данных. Заявленный контекст — 256 тысяч токенов, а значит одна сессия может включать очень длинные разговоры, записи встреч, лекции, скриншоты и видеоклипы без разбиения на десятки мелких запросов.

Серия выходит в нескольких вариантах: Plus, Flash и Light. Это намекает на знакомую логику продуктовой линейки — максимум качества для сложных задач, быстрый режим для интерактивных сценариев и более лёгкая версия для экономии вычислений. Отдельно Alibaba подчёркивает работу в реальном времени: Qwen3.

5-Omni умеет стримить ответ текстом и естественной речью, а за более стабильную и плавную генерацию голоса отвечает механизм ARIA, который динамически выравнивает текстовые и речевые единицы.

Главные возможности релиза

По данным технического отчёта, Qwen3.5-Omni-Plus показывает лучшие результаты на 215 задачах и бенчмарках, связанных с аудио и аудиовизуальным пониманием, рассуждением и интеракцией. В Qwen отдельно выделяют, что модель обходит Gemini 3.1 Pro в ключевых аудиозадачах и находится на сопоставимом уровне в комплексном аудиовизуальном понимании. Для Alibaba это важный сигнал рынку: конкуренция в сегменте сильных мультимодальных моделей больше не сводится к OpenAI и Google, а китайские лаборатории претендуют на лидерство именно в самых сложных режимах — голосе, видео и живом диалоге.

  • Контекстное окно 256k Более 10 часов аудио в одной сессии Более 400 секунд 720p-видео при 1 FPS Варианты Plus, Flash и Light Структурированные подписи со сценами и таймингами Ещё одна сильная часть релиза — работа с описанием аудио и видео. В отчёте говорится о структурированных подписях уровня сценария: модель умеет строить подробные описания с точной временной синхронизацией и автоматическим делением на сцены. Это полезно не только для медиаархивов, но и для поиска по видеобазам, аналитики звонков, обучения, сценариев доступности и контроля качества контента. По сути, Alibaba двигает Qwen3.5-Omni в сторону универсального слоя понимания для любого медиаформата, а не просто «чат-бота, который ещё и слышит». Отдельно исследователи отмечают появление новой способности, которую называют Audio-Visual Vibe Coding. Речь о прямом кодинге по аудиовизуальным инструкциям: модель может интерпретировать не только текстовый запрос, но и голосовое пояснение вместе с визуальным контекстом. Пока это скорее исследовательский сигнал, чем готовый массовый продукт, но направление показательное. Если такие режимы закрепятся, разработчик сможет не переписывать баг-репорт в текст руками, а просто показать интерфейс, проговорить проблему и получить рабочую заготовку решения.

Что это значит

Qwen3.5-Omni показывает, что следующий этап гонки ИИ идёт не вокруг ещё одного текстового чат-бота, а вокруг моделей, которые одинаково уверенно работают со звуком, изображением, видео и речью в одном потоке. Для бизнеса это открывает путь к более цельным продуктам: голосовым агентам, анализу встреч, поиску по медиа и интерфейсам, которые понимают не только текст, но и всё, что пользователь показывает и произносит.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…