36Kr (36氪)→ оригинал

GPT-5.2: OpenAI научила модель бегать на 40% быстрее (без «стероидов»)

OpenAI Developers сообщили о значительном апдейте: GPT-5.2 и Codex теперь выдают токены на 40% быстрее. Инженеры не трогали структуру или веса, сосредоточившись

GPT-5.2: OpenAI научила модель бегать на 40% быстрее (без «стероидов»)
Источник: 36Kr (36氪). Коллаж: Hamidun News.

Вы когда-нибудь задумывались, почему ваш любимый чат-бот иногда «зависает» на несколько секунд, прежде чем выдать ответ, который он явно уже знает? В мире больших языковых моделей время — это не просто деньги, это пользовательский опыт и, в конечном итоге, выживание продукта на рынке. Сегодня команда OpenAI Developers подбросила дров в костер гонки скоростей, заявив о серьезном ускорении своих актуальных моделей.

Речь идет о GPT-5.2 и специализированной модели Codex (Codex), которые внезапно стали работать на 40% быстрее. Самое интригующее в этой новости — техническая сторона вопроса.

Инженеры OpenAI подчеркнули, что это ускорение достигнуто без изменения структуры модели и без пересчета весов. Для тех, кто не погружен в детали: обычно, чтобы сделать модель быстрее, ее приходится либо «обрезать» (дистилляция), либо переобучать с нуля с меньшим количеством параметров. Здесь же мы видим чистую магию оптимизации инференса.

Похоже, команда Сэма Альтмана нашла способ эффективнее использовать имеющееся железо, не жертвуя при этом «мозгами» нейросети. Почему это важно именно сейчас? Мы находимся в точке, когда качество ответов топовых моделей — будь то GPT, Claude или Gemini — вышло на определенное плато.

Разница в логике становится все менее заметной для рядового пользователя. Теперь битва переходит в плоскость эффективности. Если ваша модель выдает такой же качественный код, как у конкурента, но делает это почти в полтора раза быстрее, разработчики выберут вас.

Для Codex это вообще вопрос жизни и смерти: когда вы пишете код в IDE, задержка даже в полсекунды начинает раздражать и сбивать поток мыслей. Этот рывок на 40% также бьет по позициям аппаратных стартапов вроде Groq, которые строят свой маркетинг исключительно на безумной скорости генерации токенов. Если OpenAI сможет и дальше оптимизировать софт такими темпами, потребность в специализированных «ускорителях» может оказаться не такой острой, как предсказывали аналитики.

Это сигнал всему рынку: прежде чем закупать еще десять тысяч H100, попробуйте переписать свои CUDA-ядра и оптимизировать батчинг. Для конечного бизнеса это обновление означает прямую экономию. Быстрее инференс — меньше затрат серверного времени на один запрос.

Пока неясно, отразится ли это на стоимости токенов в API, но исторически OpenAI всегда старалась конвертировать техническую эффективность в снижение цен для захвата доли рынка. Скорее всего, в ближайшие недели мы увидим обновление прайс-листа, которое заставит Anthropic и Google снова чесать затылки. В конечном счете, мы видим, что эпоха «грубой силы», когда прогресс достигался только за счет увеличения масштаба вычислений, постепенно дополняется эпохой изящного инженерного мастерства.

OpenAI явно дает понять, что они не просто арендуют огромные кластеры у Microsoft, но и умеют выжимать из них максимум. Это хороший знак для всей индустрии: потенциал текущих архитектур еще далеко не исчерпан. Главное: OpenAI смещает фокус с «ума» на «скорость», и 40% — это только начало.

Готовы ли конкуренты к такой оптимизации без потери качества?

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…