OpenAI Blog→ оригинал

شرحت OpenAI كيفية اكتشاف ChatGPT للتهديدات وحظر سيناريوهات العنف الخطيرة

فصلت OpenAI كيفية حماية المجتمع في ChatGPT. تجمع الشركة بين القيود على مستوى النموذج والكاشفات الآلية للإساءة والمراجعة اليدوية للمحادثات المميزة. إذا اكتشفت ال

شرحت OpenAI كيفية اكتشاف ChatGPT للتهديدات وحظر سيناريوهات العنف الخطيرة
Источник: OpenAI Blog. Коллаж: Hamidun News.

OpenAI раскрыла, как строит систему защиты сообщества в ChatGPT: от ограничений на уровне модели до выявления опасных паттернов и передачи срочных случаев в правоохранительные органы. Компания пытается сохранить полезность сервиса, но не допускать его использования для угроз, насилия и других форм реального вреда.

Границы для модели В основе подхода

OpenAI лежит Model Spec — набор принципов, по которым модель должна быть одновременно полезной и безопасной. ChatGPT обучают различать нейтральные и потенциально опасные запросы о насилии: можно обсуждать исторические события, новости, профилактику, психологию или общие факты, но нельзя получать пошаговые инструкции, тактику и планирование, которые помогают причинить вред. Проблема в том, что граница не всегда очевидна.

Один и тот же вопрос может быть исследовательским, а может быть частью подготовки к атаке, поэтому OpenAI постоянно донастраивает поведение модели и проверяет его вместе с внешними экспертами. Компания отдельно подчёркивает, что риск не всегда виден в одном сообщении. Иногда тревожный сигнал складывается только из длинной цепочки реплик, повторяющихся попыток обойти ограничения или общего контекста диалога.

Поэтому безопасность строится не только вокруг запрета на отдельные слова, но и вокруг способности модели замечать более тонкие признаки эскалации. Похожий подход применяется и к разговорам о самоповреждении: цель системы — не поддерживать опасное действие, а снизить напряжение и направить человека к реальной помощи.

Как ищут риски

Одних отказов модели недостаточно, поэтому OpenAI использует отдельный слой мониторинга и применения правил поверх самого ChatGPT. Компания опирается на свои правила использования и прямо запрещает применять сервис для подготовки насилия, запугивания, терроризма, разработки оружия, незаконной деятельности, разрушения имущества и обхода защитных механизмов. Если система видит, что пользователь пытается превратить чат-бота в инструмент реального вреда, ответом может быть не только отказ в диалоге, но и полноценное ограничение доступа к сервису.

классификаторы и модели рассуждения для поиска подозрительных сигналов сверка хешей, блок-листы и другие системы автоматического мониторинга анализ не только текста, но и поведения аккаунта со временем ручная проверка помеченных диалогов обученными специалистами * блокировка аккаунта и попыток создать новые профили после бана OpenAI пишет, что автоматические системы работают в масштабе, но финальное решение по сложным кейсам принимается в контексте. Ревьюеры смотрят не только на конкретную фразу, но и на соседние сообщения, историю поведения и вероятность того, что перед ними реальное нарушение, а не ложное срабатывание. Для пользователя это означает простую вещь: обходить ограничения через серию на вид безобидных запросов становится сложнее, потому что система оценивает не только отдельный ответ, но и паттерн в целом.

Эскалация сложных случаев

Большинство мер OpenAI применяет напрямую: предупреждение, бан, запрет на связанные аккаунты. Но для части случаев предусмотрена отдельная эскалация. Если признаки указывают на серьёзный риск вреда в офлайне, кейс уходит на углублённую проверку с использованием формализованных критериев.

В этом контуре участвуют не только внутренние команды, но и специалисты по психическому здоровью и поведенческим рискам. OpenAI отдельно отмечает, что человек может не назвать цель, способ и время прямо, но совокупность намёков всё равно может говорить о вероятной неминуемой угрозе. Если компания приходит к выводу, что риск насилия реален и близок по времени, она уведомляет правоохранительные органы.

Параллельно OpenAI развивает и более мягкие механизмы поддержки. Для подростков уже есть функции родительского контроля: родители могут связать свой аккаунт с аккаунтом ребёнка и настроить безопасный режим, не получая доступа к самим перепискам. В редких острых случаях родители могут получить уведомление, достаточное для помощи.

Следующим шагом станет функция доверенного контакта, которая позволит взрослому пользователю заранее указать человека, которому можно отправить сигнал, если системе покажется, что ему нужна поддержка.

Что это значит

OpenAI делает ставку на многоуровневую безопасность: сначала модель ограничивает опасные ответы, затем отдельные системы ловят подозрительные паттерны, а самые тяжёлые ситуации разбирают люди с возможностью внешней эскалации. Для пользователей и компаний это сигнал, что ChatGPT всё глубже превращается не просто в чат-интерфейс, а в инфраструктуру с правилами, мониторингом и процедурами реагирования, похожими на те, что давно работают в больших социальных и коммуникационных платформах.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…