TNW→ оригинал

OpenAI представила GPT-Realtime-2 с рассуждениями в живом диалоге

OpenAI запустила три новые голосовые модели: GPT-Realtime-2 с уровнем рассуждений пятого класса, модель перевода поддерживающую 70+ языков и streaming Whisper д

OpenAI представила GPT-Realtime-2 с рассуждениями в живом диалоге
Источник: TNW. Коллаж: Hamidun News.
◐ Слушать статью

OpenAI выпустила три новые голосовые модели для своего API, расширяя возможности разработчиков интегрировать рассуждения пятого уровня (GPT-5-класса) непосредственно в audio-приложения и голосовые интерфейсы. Ход OpenAI — очередной шаг в борьбе за доминирование на рынке AI.

GPT-Realtime-2: рассуждение в реальном времени GPT-Realtime-2 впервые

приносит способность к сложным логическим выводам в живой голосовой диалог. В отличие от простых voice assistant'ов, новая модель понимает nuance контекста разговора и может разбираться в многошаговых задачах без потери смысла. Это важно для приложений, где нужны консультации, планирование, аналитика или техподдержка — когда простые шаблонные ответы просто не подойдут. Модель обрабатывает речь в реальном времени, позволяя пользователю говорить свободно, не дожидаясь паузы для обработки. Ответы приходят с естественной скоростью, что создаёт впечатление диалога с реальным собеседником.

Многоязычный перевод и транскрипция

OpenAI выпустила отдельную модель перевода, которая поддерживает более 70 входных языков. Это позволяет разработчикам строить глобальные приложения без необходимости мультиплицирования моделей под каждый язык — одна модель охватывает большую часть мирового населения. Кроме того, анонсирована streaming-версия Whisper для транскрипции.

Она обрабатывает аудио в реальном времени и выдаёт текст по мере поступления звука. Это критично для приложений вроде видеозвонков, live-переводчиков и речевых ассистентов, где latency имеет прямое значение для UX. Три ключевых компонента: GPT-Realtime-2 для речевых рассуждений и динамичного диалога Модель перевода, поддерживающая 70+ входных языков * Streaming Whisper для низколатентной транскрипции аудио ## Ценовая стратегия: захват рынка OpenAI установила агрессивные цены на новые модели, делая их доступными для небольших команд разработчиков и стартапов.

Компания явно нацелена на быстрый захват доли рынка голосовых AI-приложений. Такой подход контрастирует с позиционированием текстовых моделей, где OpenAI держит премиум-ценовую позицию. Вложение в доступность голосовых моделей говорит о том, что OpenAI видит голос как следующий фронтир взаимодействия с AI.

Кто первым захватит разработчиков в этом пространстве, будет иметь сильное конкурентное преимущество.

Что это значит

Голосовые AI-интерфейсы переходят из экспериментальной фазы в практическую часть stack'а разработчика. Более доступные цены снижают барьер входа — теперь стартап может встроить речевую ИИ в своё приложение без больших инвестиций. Это ускорит появление новых голосовых приложений на рынке.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Что вы думаете?
Загружаем комментарии…