OpenAI обновила ChatGPT, чтобы точнее распознавать риск в чувствительных диалогах

Q: Источник материала?

Оригинальная публикация на OpenAI Blog. Hamidun News обрабатывает и адаптирует материалы с помощью AI.

Q: Когда опубликовано?

2026-05-16. Время чтения: 3 мин.

OpenAI обновила защитные механизмы ChatGPT для чувствительных разговоров. Теперь модель лучше замечает, когда риск проявляется не в одном сообщении, а постепенн

ЖХ

Редакция Hamidun News

AI‑мониторинг · OpenAI Blog

2026-05-16· 3 мин

OpenAI обновила ChatGPT, чтобы точнее распознавать риск в чувствительных диалогах — Источник: OpenAI Blog. Коллаж: Hamidun News.

◐ Слушать статью

OpenAI описала обновления безопасности ChatGPT, которые помогают модели лучше понимать контекст в чувствительных разговорах. Система стала точнее замечать, когда риск проявляется не сразу, а накапливается по мере беседы или даже в нескольких отдельных чатах.

Почему важен контекст В обычном сообщении пользователь может спросить

что-то нейтральное или двусмысленное, и без предыдущих реплик такой запрос выглядит безобидно. Но если до этого в диалоге были признаки дистресса, разговор о самоповреждении или намёки на причинение вреда другим, смысл резко меняется. Именно на таких случаях OpenAI и сосредоточила обновление: модель обучили лучше связывать сигналы из нескольких сообщений и усиливать осторожность не во всех подряд беседах, а только там, где действительно появляются тревожные признаки.

Компания пишет, что речь идёт о редких, но критически важных сценариях — прежде всего о суициде, самоповреждении и угрозе другим людям. В таких ситуациях ChatGPT должен не просто отвечать формально, а уметь вовремя отказаться от опасных деталей, снизить накал разговора и мягко перенаправить пользователя к более безопасной помощи. Цель обновления — не сделать модель излишне тревожной, а научить её различать обычные разговоры и действительно рискованные эпизоды.

Что изменили

Ключевое нововведение — safety summaries, короткие фактические заметки о важном контексте безопасности. Они создаются отдельной моделью, обученной для задач safety reasoning, и используются только в редких случаях, когда есть серьёзный сигнал риска. По описанию OpenAI, такие заметки не являются общей персонализацией и не превращаются в долгосрочную память о пользователе: их хранят ограниченное время и применяют лишь тогда, когда прошлый контекст действительно нужен для более безопасного ответа.

Сопоставляют сигналы из текущих и прошлых сообщений Помогают учитывать риск между отдельными чатами Подсказывают модели, когда нужно деэскалировать разговор Усиливают отказ на опасные детали запроса Перенаправляют пользователя к более безопасным альтернативам Отдельно OpenAI подчёркивает, что систему разрабатывали не только внутри команды безопасности. В работу были вовлечены психиатры и психологи из Global Physicians Network, включая специалистов по судебной психологии, предотвращению суицида и самоповреждению. Они помогали определить, в какие моменты нужно создавать safety summaries, сколько предыдущего контекста действительно полезно и как долго модель должна учитывать его при ответе. Это важная деталь: компания опиралась не только на общие эвристики, но и на практику специалистов, которые работают с такими кризисными случаями.

Что показали тесты OpenAI приводит несколько внутренних метрик.

В длинных сценариях внутри одного разговора доля безопасных ответов выросла на 50% в кейсах, связанных с суицидом и самоповреждением, и на 16% в кейсах с причинением вреда другим. Отдельно компания тестировала работу между несколькими разговорами и на нескольких моделях. Для GPT-5.

5 Instant, которая сейчас является стандартной моделью в ChatGPT, безопасные ответы улучшились на 52% в сценариях причинения вреда другим и на 39% в сценариях суицида и самоповреждения. Это показывает, что система стала лучше замечать накопление риска во времени, а не только реагировать на явные красные флаги. Компания также оценила качество самих safety summaries.

По более чем 4 000 внутренним оценкам они получили средний балл 4,93 из 5 по релевантности для безопасности и 4,34 из 5 по фактической точности. При этом OpenAI отдельно проверила, не портит ли добавление такого контекста обычные беседы. По внутренним тестам ответы в повседневных чатах остались в целом сопоставимыми, а заметного пользовательского предпочтения между вариантами с safety summaries и без них не обнаружили.

То есть ставка сделана на более точную осторожность без ощутимого падения качества в нормальных сценариях.

Что это значит

OpenAI движется к более устойчивому учёту предыдущего контекста не ради персонализации, а ради безопасности в редких критических ситуациях. Если подход действительно масштабируется без лишних ложных срабатываний, ChatGPT сможет аккуратнее вести сложные разговоры, где риск становится понятен только по цепочке сообщений. Для индустрии это важный сигнал: безопасность всё чаще зависит не от одного запроса, а от умения модели видеть развитие ситуации во времени.

ЖХ

Hamidun News

AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Telegram-канал RSS hamidun.com