Модели

Распознавание речи (ASR)

Распознавание речи (ASR, Automatic Speech Recognition) — технология автоматического перевода акустической речи в текст с помощью нейронных сетей, работающих как в реальном времени, так и в пакетном режиме.

Automatic Speech Recognition (ASR) — задача преобразования акустического сигнала в текстовую транскрипцию. Современные системы справляются с различными акцентами, фоновым шумом, спонтанной речью и множеством языков, что делает их практически применимыми в широком спектре задач.

Ранние системы строились на скрытых марковских моделях (HMM) в сочетании с акустическими и языковыми моделями. Современный стандарт — сквозные нейронные модели на архитектуре Transformer. OpenAI Whisper (2022) — открытая мультиязычная модель, обученная на сотнях тысяч часов размеченного аудио; на её базе работают тысячи приложений. Среди альтернатив — Google USM (Universal Speech Model), Meta SeamlessM4T, Conformer-архитектуры от Apple и других. Системы реального времени обеспечивают задержку менее 300 мс.

ASR лежит в основе голосовых ассистентов (Siri, Google Assistant, Яндекс Алиса), инструментов субтитрирования, автоматического протоколирования встреч, систем медицинской документации и решений для доступности. В корпоративном сегменте автоматическая расшифровка переговоров экономит значительное количество человеко-часов.

К 2026 году Whisper large-v3 и его производные (faster-whisper, WhisperX) установились как де-факто стандарт в открытом ASR. Облачные сервисы — Google Speech-to-Text, Azure Speech, AWS Transcribe, Deepgram — предлагают специализированные модели для медицины, юридической сферы и финансов. Основные нерешённые проблемы — точность при сильных акцентах, разделение спикеров (diarization) и качество для языков с малым объёмом обучающих данных.

Пример

Сервис автоматической расшифровки совещаний на базе Whisper обрабатывает двухчасовую запись переговоров за несколько минут, разделяет реплики по спикерам и формирует структурированный протокол с пунктами для исполнения.

Связанные термины

← Глоссарий