Модели

Синтез речи (TTS)

Синтез речи (TTS, Text-to-Speech) — технология автоматического преобразования написанного текста в звучащую речь с помощью нейронных сетей, воспроизводящих естественные интонацию, ритм и тембр голоса.

Text-to-Speech (TTS) — область автоматической обработки речи, задача которой — генерировать звуковой сигнал по заданному тексту с естественными просодией, ритмом и тембром. Современные системы умеют имитировать конкретный голос, управлять эмоциональной окраской и работать в режиме реального времени.

До 2016 года в TTS доминировали конкатенативный синтез и модели на основе скрытых марковских цепей. Нейронные архитектуры — WaveNet (Google DeepMind, 2016), Tacotron 2, FastSpeech, VITS — перевели синтез на принципиально новый уровень качества. Современные zero-shot TTS-системы клонируют голос по записи длиной всего 3–10 секунд. Среди лидеров рынка: ElevenLabs, OpenAI TTS, Google Cloud TTS, Microsoft Azure Neural TTS; в open-source — Kokoro, Parler-TTS, Coqui TTS.

TTS применяется в голосовых ассистентах, аудиокнигах, системах доступности для людей с нарушениями зрения, при автоматической озвучке обучающих курсов и в роботизированных call-центрах. Технология клонирования голоса одновременно создаёт риски мошенничества и производства дипфейков.

К 2026 году качество синтеза ведущих коммерческих систем трудноотличимо от живой записи. Многоязычные модели покрывают десятки языков, включая русский. Регуляторы обсуждают обязательную маркировку синтетической речи. Открытые модели позволяют разворачивать высококачественный TTS локально, без зависимости от облачных сервисов.

Пример

Издательство автоматически создаёт аудиоверсию каждой новой книги с помощью ElevenLabs, настроив голос диктора на основе имеющихся записей, — производственный цикл сокращается с нескольких недель до нескольких часов.

Связанные термины

Распознавание речи (ASR)Мультимодальная модель

← Глоссарий