3DNews AI→ оригинал

OpenAI запустила GPT-Realtime-2 и ещё две голосовые модели через API

OpenAI расширила API тремя голосовыми моделями: обновленной GPT-Realtime-2 и двумя новыми. Они позволяют приложениям распознавать речь, синтезировать её, перево

OpenAI запустила GPT-Realtime-2 и ещё две голосовые модели через API
Источник: 3DNews AI. Коллаж: Hamidun News.
◐ Слушать статью

OpenAI объявила о расширении голосовых возможностей в своём API — теперь разработчики получают доступ к обновленной модели GPT-Realtime-2 и двум новым голосовым моделям для распознавания, синтеза и перевода речи.

Три новые голосовые модели в API В API добавлены три модели:

обновленная GPT-Realtime-2 (улучшенная версия существующей) и две совершенно новые модели. Они предназначены для разных задач — распознавание речи пользователя, синтез ответа голосом и перевод разговоров между языками в реальном времени. Это означает, что разработчики теперь могут встраивать голосовое взаимодействие напрямую в свои приложения без использования внешних сервисов распознавания и синтеза речи. До этого приходилось интегрировать нескольких провайдеров — один для распознавания, другой для синтеза, третий для перевода. Теперь всё в одном месте.

Что умеют новые модели *

Распознавание речи (speech-to-text) с поддержкой многих языков Синтез речи (text-to-speech) с естественным звучанием и интонацией Перевод разговоров в реальном времени с сохранением контекста Низкая задержка для интерактивных приложений (streaming) Глубокая интеграция с GPT-4 для понимания смысла Модели обучены на больших объёмах аудиоданных и показывают хороший результат как на английском, так и на других языках. GPT-Realtime-2 обновилась — улучшена обработка естественной речи, понимание контекста и быстрота ответа. Разработчики получат инструменты для создания приложений, которые слышат пользователя, понимают, что он говорит, и отвечают голосом. Это важно для голосовых ассистентов, колл-центров, обучающих приложений и интерактивных сервисов.

Как это работает на практике Представьте приложение для обучения языкам.

Ученик говорит на иностранном языке. API слышит это (speech-to-text), отправляет текст в GPT-4 для проверки и исправления, а потом озвучивает результат естественным голосом (text-to-speech). Всё это происходит в реальном времени. Или приложение-переводчик: туристка говорит по-русски, API переводит в реальном времени и озвучивает на английском. Никаких задержек, как в Google Translate.

Доступность и конкуренция Пока модели доступны только через API для разработчиков.

В ChatGPT или других потребительских приложениях OpenAI они не появятся (по крайней мере, в ближайшее время). Это позволяет OpenAI выпустить новые возможности в руки специалистов, отточить их на реальных приложениях и потом, если понадобится, интегрировать в потребительские продукты. Цены на API будут выше, чем на текстовые модели, но ниже, чем у конкурентов (например, у Google Cloud Speech-to-Text). OpenAI конкурирует с Google, Amazon Polly, Microsoft Azure Speech Services и другими облачными платформами. Голосовые API — конкурентное поле, где каждый миллисекунда задержки и каждый процент точности имеют значение.

Голосовой интерфейс перестаёт быть экзотикой — это становится

стандартом для современных приложений.

Что это значит Голосовой интерфейс становится доступнее.

Теперь любой разработчик может добавить в своё приложение голосовое общение с AI без дорогостоящей интеграции сторонних сервисов. Это ускорит появление голосовых AI-приложений на рынке и сделает взаимодействие с сервисами более естественным.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Что вы думаете?
Загружаем комментарии…