OpenAI добавила в API GPT-Realtime-2, Translate и Whisper для голосовых приложений

Q: Источник материала?

Оригинальная публикация на OpenAI Blog. Hamidun News обрабатывает и адаптирует материалы с помощью AI.

Q: Когда опубликовано?

2026-05-16. Время чтения: 3 мин.

OpenAI анонсировала сразу три realtime-модели для голоса в API. GPT-Realtime-2 работает с рассуждением уровня GPT-5, умеет вызывать инструменты и держит контекс

ЖХ

Редакция Hamidun News

AI‑мониторинг · OpenAI Blog

2026-05-16· 3 мин

OpenAI добавила в API GPT-Realtime-2, Translate и Whisper для голосовых приложений — Источник: OpenAI Blog. Коллаж: Hamidun News.

◐ Слушать статью

7 мая 2026 года OpenAI представила в API сразу три голосовые модели реального времени: GPT-Realtime-2 для диалога и действий, GPT-Realtime-Translate для живого перевода и GPT-Realtime-Whisper для потоковой транскрибации. Компания явно двигает голосовые интерфейсы из режима «ответил на реплику» в режим, где ассистент умеет слушать, рассуждать, пользоваться инструментами и не выпадать из разговора.

Три модели сразу

Главная идея релиза простая: голос в приложениях должен работать не как красивая надстройка, а как полноценный интерфейс. OpenAI пишет, что разработчики всё чаще строят три типа сценариев: voice-to-action, когда пользователь формулирует задачу голосом и система сама выполняет действия; systems-to-voice, когда софт сам подсказывает человеку, что происходит; и voice-to-voice, когда ИИ помогает вести разговор между людьми на разных языках. Под такой набор сценариев и собрали новую линейку моделей.

GPT-Realtime-2 — голосовая модель с рассуждением уровня GPT-5, поддержкой вызова инструментов и более длинным контекстом.
GPT-Realtime-Translate — перевод речи в реальном времени из более чем 70 входных языков в 13 выходных почти без пауз.
GPT-Realtime-Whisper — потоковая транскрибация, которая пишет текст по мере речи, а не после завершения фразы.
Цены тоже объявлены сразу: GPT-Realtime-2 стоит $32 за 1 млн входных аудиотокенов и $64 за 1 млн выходных, Translate — $0.034 в минуту, Whisper — $0.017 в минуту. Все три модели уже доступны через Realtime API, а протестировать их можно в Playground. Это важный момент: OpenAI не показывает далёкую концепцию, а выпускает готовый набор инструментов для команд, которые делают поддержку, голосовых агентов, перевод в реальном времени, заметки со встреч и другие продукты с живой речью. Для рынка это сигнал, что инструменты готовы не только к демо, но и к пилотам.

Что улучшили в диалоге Самый заметный апдейт — GPT-Realtime-2.

Модель умеет вставлять короткие служебные фразы вроде «сейчас проверю», чтобы пользователь понимал, что система занята задачей. Она может параллельно вызывать несколько инструментов, вслух обозначать свои действия, лучше восстанавливаться после ошибок и прерываний и держать заметно более длинные сценарии: окно контекста выросло с 32K до 128K. Для продакшена это куда важнее «приятного голоса», потому что именно на длинных цепочках обычно ломаются реальные ассистенты.

Отдельно OpenAI подчёркивает управляемость модели. Разработчик может выбирать уровень рассуждения от minimal до xhigh, балансируя задержку и качество ответа. Также улучшили понимание терминов, имён собственных и профильной лексики — например, медицинской.

На внутренних оценках GPT-Realtime-2 в режиме high показала результат на 15.2% выше GPT-Realtime-1.5 в Big Bench Audio, а в режиме xhigh — на 13.

8% лучше в Audio MultiChallenge по следованию инструкциям в разговоре.

«После настройки промптов мы увидели рост успешности звонков с 69% до 95%», — так

Zillow описывает ранние тесты GPT-Realtime-2.

Перевод и транскрибация

Вторая модель, GPT-Realtime-Translate, нацелена на живой многоязычный диалог. Она переводит речь в процессе разговора, сохраняя темп спикера и смысл даже там, где люди говорят с акцентом, перескакивают между темами или используют отраслевую лексику. OpenAI отдельно приводит кейсы поддержки, трансграничных продаж, образования, мероприятий, медиа и платформ для авторов.

Deutsche Telekom тестирует модель в многоязычной клиентской поддержке, а Vimeo показывает сценарий, где обучающее видео переводится по ходу воспроизведения. Третья модель, GPT-Realtime-Whisper, решает более приземлённую, но очень востребованную задачу: быстро превращать речь в текст. OpenAI позиционирует её как основу для субтитров, заметок со встреч, транскрибации занятий и эфиров, а также для голосовых агентов, которым нужно непрерывно понимать, что говорит человек.

Параллельно компания напоминает про защитные механизмы: в Realtime API работают активные классификаторы, часть сессий может быть остановлена при нарушении правил, а разработчики обязаны ясно сообщать пользователю, когда он разговаривает с ИИ.

Что это значит

OpenAI пытается занять не только рынок чат-моделей, но и базовый слой для голосовых продуктов. Если качество и задержка действительно соответствуют заявленным метрикам, компания получает сильную позицию в колл-центрах, сервисах для путешествий, образовательных платформах и корпоративных ассистентах, где важны не эффектные демо, а стабильный разговор, перевод без пауз и текст, который появляется в тот же момент, когда человек говорит.

ЖХ

Hamidun News

AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Telegram-канал RSS hamidun.com