OpenAI запустила GPT-Realtime-2 и ещё две голосовые модели через API
OpenAI расширила API тремя голосовыми моделями: обновленной GPT-Realtime-2 и двумя новыми. Они позволяют приложениям распознавать речь, синтезировать её, перево

OpenAI объявила о расширении голосовых возможностей в своём API — теперь разработчики получают доступ к обновленной модели GPT-Realtime-2 и двум новым голосовым моделям для распознавания, синтеза и перевода речи.
Три новые голосовые модели в API В API добавлены три модели:
обновленная GPT-Realtime-2 (улучшенная версия существующей) и две совершенно новые модели. Они предназначены для разных задач — распознавание речи пользователя, синтез ответа голосом и перевод разговоров между языками в реальном времени. Это означает, что разработчики теперь могут встраивать голосовое взаимодействие напрямую в свои приложения без использования внешних сервисов распознавания и синтеза речи. До этого приходилось интегрировать нескольких провайдеров — один для распознавания, другой для синтеза, третий для перевода. Теперь всё в одном месте.
Что умеют новые модели *
Распознавание речи (speech-to-text) с поддержкой многих языков Синтез речи (text-to-speech) с естественным звучанием и интонацией Перевод разговоров в реальном времени с сохранением контекста Низкая задержка для интерактивных приложений (streaming) Глубокая интеграция с GPT-4 для понимания смысла Модели обучены на больших объёмах аудиоданных и показывают хороший результат как на английском, так и на других языках. GPT-Realtime-2 обновилась — улучшена обработка естественной речи, понимание контекста и быстрота ответа. Разработчики получат инструменты для создания приложений, которые слышат пользователя, понимают, что он говорит, и отвечают голосом. Это важно для голосовых ассистентов, колл-центров, обучающих приложений и интерактивных сервисов.
Как это работает на практике Представьте приложение для обучения языкам.
Ученик говорит на иностранном языке. API слышит это (speech-to-text), отправляет текст в GPT-4 для проверки и исправления, а потом озвучивает результат естественным голосом (text-to-speech). Всё это происходит в реальном времени. Или приложение-переводчик: туристка говорит по-русски, API переводит в реальном времени и озвучивает на английском. Никаких задержек, как в Google Translate.
Доступность и конкуренция Пока модели доступны только через API для разработчиков.
В ChatGPT или других потребительских приложениях OpenAI они не появятся (по крайней мере, в ближайшее время). Это позволяет OpenAI выпустить новые возможности в руки специалистов, отточить их на реальных приложениях и потом, если понадобится, интегрировать в потребительские продукты. Цены на API будут выше, чем на текстовые модели, но ниже, чем у конкурентов (например, у Google Cloud Speech-to-Text). OpenAI конкурирует с Google, Amazon Polly, Microsoft Azure Speech Services и другими облачными платформами. Голосовые API — конкурентное поле, где каждый миллисекунда задержки и каждый процент точности имеют значение.
Голосовой интерфейс перестаёт быть экзотикой — это становится
стандартом для современных приложений.
Что это значит Голосовой интерфейс становится доступнее.
Теперь любой разработчик может добавить в своё приложение голосовое общение с AI без дорогостоящей интеграции сторонних сервисов. Это ускорит появление голосовых AI-приложений на рынке и сделает взаимодействие с сервисами более естественным.