Alibaba выпустила переводчик с задержкой 2.8 секунды на 60 языках
Alibaba представила Qwen3.5-LiveTranslate-Flash — модель для синхронного перевода видео и аудио одновременно. Работает с 60 языками входа и 29 языками выхода пр

Alibaba выпустила Qwen3.5-LiveTranslate-Flash — модель для синхронного перевода речи и видео в реальном времени. Она переводит на 60 языков входа и выдаёт результат на 29 языках при задержке всего 2.8 секунды.
Что умеет новый переводчик
Главное отличие от обычных переводчиков — Qwen3.5-LiveTranslate-Flash обрабатывает видео и аудио одновременно, синхронизируя результаты. Модель видит говорящего на экране, слышит его слова и преобразует их в речь на целевом языке, сохраняя натуральное звучание и все эмоции. Это не просто перевод текста с речи на речь. Модель анализирует видеопоток для синхронизации движений губ переводящего персонажа или аватара — такое часто используется для дублирования фильмов и стриминговых сервисов типа Netflix. Сейчас модель доступна только как API через Alibaba Cloud Model Studio. Разработчики подключаются через WebSocket протокол, что позволяет работать с потоком данных в реальном времени без задержек. Для коммерческого использования требуется соответствующая лицензия у Alibaba.
Технология с клонированием голоса
Главная инновация Qwen3.5 — динамическое клонирование голоса во время перевода. Модель услышит акцент, темп речи, интонацию и даже тембр оригинального говорящего и воспроизведёт эти характеристики в переводе.
Результат звучит как переводчик с идеальным произношением и чувством языка, а не как холодный робот. Всё это работает благодаря многомодальной архитектуре, где нейросеть обрабатывает одновременно: Звуковой сигнал (тон, интонация, паузы, эмоции, энергия говорящего) Видеопоток (движения губ, мимика, выражение лица, жесты и язык тела) Текст на экране или в слайдах (для лучшего понимания контекста и технических слов) Настраиваемые ключевые слова (научные термины, названия брендов, имена собственные и аббревиатуры) Такой подход гарантирует, что перевод останется точным и естественным, даже если исходный говорящий говорит очень быстро, использует местный сленг, шутит или применяет сложные специализированные выражения.
Как это будет использоваться
На международных бенчмарках FLEURS и CoVoST2 Qwen3.5-LiveTranslate-Flash обошла крупные коммерческие решения от конкурентов. Скорость ответа в 2.8 секунды делает её пригодной для синхронного использования: онлайн-трансляции, глобальные конференции, деловые видеозвонки, корпоративные презентации. Первые варианты уже тестируют компании для разговорных интерфейсов, умных голосовых помощников и синхронного дублирования контента. Видеоблогеры смогут экспортировать видео с автоматическим переводом и синхронизацией по губам — реально, как в кино. Стриминговые платформы смогут выложить контент на 29 языках за несколько минут без постобработки. Особенно интересно это для образования и науки. Преподаватель может читать лекцию на русском, а студенты в Японии услышат это на японском с правильным произношением и интонацией говорящего.
Что это значит для индустрии
Синхронный перевод переходит из специальных синхрокабинок в облачное программное обеспечение. Раньше компаниям нужны были синхронисты в наушниках, кабины перевода и специальная аппаратура для международных трансляций. Теперь всё это может делать API за минуты. Это мощный инструмент для глобализации контента. Блогер из России может общаться с аудиторией на китайском, английском и испанском, без акцента и без нанимания людей-переводчиков. Корпоративные конференции смогут проводиться полностью с синхронным переводом в реальном времени без перерывов. И качество результата уже конкурирует с профессиональными переводчиками на зарплате. Alibaba позиционирует эту модель как инструмент для бизнеса, но её потенциал намного шире — от доступности контента для инвалидов до культурного обмена между народами.