OpenAI Blog→ оригинал

OpenAI обновила ChatGPT, чтобы точнее распознавать риск в чувствительных диалогах

OpenAI обновила защитные механизмы ChatGPT для чувствительных разговоров. Теперь модель лучше замечает, когда риск проявляется не в одном сообщении, а постепенн

OpenAI обновила ChatGPT, чтобы точнее распознавать риск в чувствительных диалогах
Источник: OpenAI Blog. Коллаж: Hamidun News.
◐ Слушать статью

OpenAI описала обновления безопасности ChatGPT, которые помогают модели лучше понимать контекст в чувствительных разговорах. Система стала точнее замечать, когда риск проявляется не сразу, а накапливается по мере беседы или даже в нескольких отдельных чатах.

Почему важен контекст В обычном сообщении пользователь может спросить

что-то нейтральное или двусмысленное, и без предыдущих реплик такой запрос выглядит безобидно. Но если до этого в диалоге были признаки дистресса, разговор о самоповреждении или намёки на причинение вреда другим, смысл резко меняется. Именно на таких случаях OpenAI и сосредоточила обновление: модель обучили лучше связывать сигналы из нескольких сообщений и усиливать осторожность не во всех подряд беседах, а только там, где действительно появляются тревожные признаки.

Компания пишет, что речь идёт о редких, но критически важных сценариях — прежде всего о суициде, самоповреждении и угрозе другим людям. В таких ситуациях ChatGPT должен не просто отвечать формально, а уметь вовремя отказаться от опасных деталей, снизить накал разговора и мягко перенаправить пользователя к более безопасной помощи. Цель обновления — не сделать модель излишне тревожной, а научить её различать обычные разговоры и действительно рискованные эпизоды.

Что изменили

Ключевое нововведение — safety summaries, короткие фактические заметки о важном контексте безопасности. Они создаются отдельной моделью, обученной для задач safety reasoning, и используются только в редких случаях, когда есть серьёзный сигнал риска. По описанию OpenAI, такие заметки не являются общей персонализацией и не превращаются в долгосрочную память о пользователе: их хранят ограниченное время и применяют лишь тогда, когда прошлый контекст действительно нужен для более безопасного ответа.

  • Сопоставляют сигналы из текущих и прошлых сообщений Помогают учитывать риск между отдельными чатами Подсказывают модели, когда нужно деэскалировать разговор Усиливают отказ на опасные детали запроса Перенаправляют пользователя к более безопасным альтернативам Отдельно OpenAI подчёркивает, что систему разрабатывали не только внутри команды безопасности. В работу были вовлечены психиатры и психологи из Global Physicians Network, включая специалистов по судебной психологии, предотвращению суицида и самоповреждению. Они помогали определить, в какие моменты нужно создавать safety summaries, сколько предыдущего контекста действительно полезно и как долго модель должна учитывать его при ответе. Это важная деталь: компания опиралась не только на общие эвристики, но и на практику специалистов, которые работают с такими кризисными случаями.

Что показали тесты OpenAI приводит несколько внутренних метрик.

В длинных сценариях внутри одного разговора доля безопасных ответов выросла на 50% в кейсах, связанных с суицидом и самоповреждением, и на 16% в кейсах с причинением вреда другим. Отдельно компания тестировала работу между несколькими разговорами и на нескольких моделях. Для GPT-5.

5 Instant, которая сейчас является стандартной моделью в ChatGPT, безопасные ответы улучшились на 52% в сценариях причинения вреда другим и на 39% в сценариях суицида и самоповреждения. Это показывает, что система стала лучше замечать накопление риска во времени, а не только реагировать на явные красные флаги. Компания также оценила качество самих safety summaries.

По более чем 4 000 внутренним оценкам они получили средний балл 4,93 из 5 по релевантности для безопасности и 4,34 из 5 по фактической точности. При этом OpenAI отдельно проверила, не портит ли добавление такого контекста обычные беседы. По внутренним тестам ответы в повседневных чатах остались в целом сопоставимыми, а заметного пользовательского предпочтения между вариантами с safety summaries и без них не обнаружили.

То есть ставка сделана на более точную осторожность без ощутимого падения качества в нормальных сценариях.

Что это значит

OpenAI движется к более устойчивому учёту предыдущего контекста не ради персонализации, а ради безопасности в редких критических ситуациях. Если подход действительно масштабируется без лишних ложных срабатываний, ChatGPT сможет аккуратнее вести сложные разговоры, где риск становится понятен только по цепочке сообщений. Для индустрии это важный сигнал: безопасность всё чаще зависит не от одного запроса, а от умения модели видеть развитие ситуации во времени.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Что вы думаете?
Загружаем комментарии…