MarkTechPost→ оригинал

Google a présenté Gemini 3.1 Flash TTS — modèle de parole avec contrôle, dialogues et 70+ langues

Google a lancé Gemini 3.1 Flash TTS — un nouveau modèle TTS en aperçu mettant l'accent sur la naturalité et le contrôle. Il supporte 70+ langues, génère nativem

Google a présenté Gemini 3.1 Flash TTS — modèle de parole avec contrôle, dialogues et 70+ langues
Источник: MarkTechPost. Коллаж: Hamidun News.

Google вывела в превью Gemini 3.1 Flash TTS — новую модель синтеза речи, которая делает ставку не просто на озвучку текста, а на управляемую постановку голоса. Главное отличие релиза в том, что разработчик может задавать интонацию, темп, акцент и даже смену эмоции прямо в текстовом промпте, а не подбирать результат вслепую через набор фиксированных параметров.

Для рынка голосового ИИ это заметный сдвиг: text-to-speech все меньше выглядит как черный ящик и все больше — как инструмент режиссуры. Релиз уже раскатывается в режиме preview для разработчиков через Gemini API и Google AI Studio, для корпоративных клиентов — через Vertex AI, а для пользователей Workspace — через Google Vids. По данным Google, Gemini 3.

1 Flash TTS набрала 1211 баллов Elo в рейтинге Artificial Analysis TTS, который строится на слепых пользовательских сравнениях качества речи. В компании называют модель самой естественной и выразительной в своей линейке TTS. Отдельно Google подчеркивает сочетание высокого качества и относительно низкой стоимости, то есть модель нацелена не только на демо-сценарии, но и на массовые продуктовые кейсы.

Ключевая функция обновления — audio tags, то есть встроенные текстовые команды, которые позволяют управлять тем, как именно произносится фраза. Разработчик может описать сцену, задать персонажу голосовой профиль, добавить режиссерские указания по тону и темпу, а затем уточнить отдельные реплики или даже части одной реплики через inline-теги в квадратных скобках. Проще говоря, одна и та же фраза может звучать спокойно, раздраженно, шепотом или с ускорением без переключения на другой пайплайн.

В Google AI Studio для этого добавили конфигурируемые элементы управления, а готовые настройки можно экспортировать в код Gemini API, чтобы сохранить одинаковое звучание между проектами и платформами. Второй важный акцент — глобальный масштаб. Gemini 3.

1 Flash TTS поддерживает более 70 языков и делает ставку не только на формальный перевод текста в аудио, но и на локальные особенности речи: акценты, диалектные нюансы и темп подачи. Для продуктовых команд это особенно важно в сценариях локализации, дубляжа, голосовых ассистентов, подкастов, обучающих роликов и аудиокниг. Еще одно заметное отличие — нативный multi-speaker режим.

Модель умеет генерировать диалог сразу между двумя спикерами в одном запросе, не разрывая разговор на отдельные вызовы API. Это должно давать более естественный ритм и согласованность реплик, чем классическая схема, где каждый голос синтезируется отдельно, а потом склеивается на стороне приложения. Google также встроила в весь сгенерированный аудиопоток водяные знаки SynthID.

Они не должны быть заметны для слушателя, но позволяют надежно определять, что запись создана ИИ. На фоне роста качества синтетической речи это уже не дополнительная опция, а базовый элемент безопасности: чем убедительнее голос, тем важнее возможность машинно проверить его происхождение. При этом модель пока находится именно в preview, и ограничения у нее есть.

В документации Google указывает, что TTS здесь не поддерживает streaming, длинные ответы через несколько минут могут терять стабильность и качество, а в редких случаях сервис вместо аудио возвращает текстовые токены, из-за чего запрос может завершиться ошибкой 500. Отдельный нюанс касается промптов: если инструкция расплывчата, модель может отклонить запрос или буквально озвучить служебные режиссерские заметки. Вывод здесь простой: Google пытается превратить синтез речи из узкого API-инструмента в часть полноценной мультимодальной платформы Gemini.

Gemini 3.1 Flash TTS интересна не только тем, что звучит лучше предыдущих версий, но и тем, что дает разработчику более понятный и управляемый интерфейс для работы с голосом. Если компания быстро доведет стабильность длинных генераций и сохранит баланс цены и качества, у нее есть хорошие шансы закрепиться не только в инфраструктурном слое, но и в креативных голосовых продуктах, где до сих пор доминировали специализированные TTS-сервисы.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…