OpenAI представила GPT-Realtime-2 с рассуждениями в живом диалоге
OpenAI запустила три новые голосовые модели: GPT-Realtime-2 с уровнем рассуждений пятого класса, модель перевода поддерживающую 70+ языков и streaming Whisper д

OpenAI выпустила три новые голосовые модели для своего API, расширяя возможности разработчиков интегрировать рассуждения пятого уровня (GPT-5-класса) непосредственно в audio-приложения и голосовые интерфейсы. Ход OpenAI — очередной шаг в борьбе за доминирование на рынке AI.
GPT-Realtime-2: рассуждение в реальном времени GPT-Realtime-2 впервые
приносит способность к сложным логическим выводам в живой голосовой диалог. В отличие от простых voice assistant'ов, новая модель понимает nuance контекста разговора и может разбираться в многошаговых задачах без потери смысла. Это важно для приложений, где нужны консультации, планирование, аналитика или техподдержка — когда простые шаблонные ответы просто не подойдут. Модель обрабатывает речь в реальном времени, позволяя пользователю говорить свободно, не дожидаясь паузы для обработки. Ответы приходят с естественной скоростью, что создаёт впечатление диалога с реальным собеседником.
Многоязычный перевод и транскрипция
OpenAI выпустила отдельную модель перевода, которая поддерживает более 70 входных языков. Это позволяет разработчикам строить глобальные приложения без необходимости мультиплицирования моделей под каждый язык — одна модель охватывает большую часть мирового населения. Кроме того, анонсирована streaming-версия Whisper для транскрипции.
Она обрабатывает аудио в реальном времени и выдаёт текст по мере поступления звука. Это критично для приложений вроде видеозвонков, live-переводчиков и речевых ассистентов, где latency имеет прямое значение для UX. Три ключевых компонента: GPT-Realtime-2 для речевых рассуждений и динамичного диалога Модель перевода, поддерживающая 70+ входных языков * Streaming Whisper для низколатентной транскрипции аудио ## Ценовая стратегия: захват рынка OpenAI установила агрессивные цены на новые модели, делая их доступными для небольших команд разработчиков и стартапов.
Компания явно нацелена на быстрый захват доли рынка голосовых AI-приложений. Такой подход контрастирует с позиционированием текстовых моделей, где OpenAI держит премиум-ценовую позицию. Вложение в доступность голосовых моделей говорит о том, что OpenAI видит голос как следующий фронтир взаимодействия с AI.
Кто первым захватит разработчиков в этом пространстве, будет иметь сильное конкурентное преимущество.
Что это значит
Голосовые AI-интерфейсы переходят из экспериментальной фазы в практическую часть stack'а разработчика. Более доступные цены снижают барьер входа — теперь стартап может встроить речевую ИИ в своё приложение без больших инвестиций. Это ускорит появление новых голосовых приложений на рынке.