OpenAI Blog→ оригинал

OpenAI объяснила, какие данные ChatGPT использует для обучения и как защищает приватность

OpenAI подробно описала, как ChatGPT использует данные для обучения и какие у пользователей есть рычаги приватности. Компания говорит, что применяет Privacy Fil

OpenAI объяснила, какие данные ChatGPT использует для обучения и как защищает приватность
Источник: OpenAI Blog. Коллаж: Hamidun News.
◐ Слушать статью

6 мая OpenAI опубликовала подробное объяснение того, как ChatGPT получает знания о мире и при этом старается не втягивать в обучение лишние персональные данные. Компания одновременно описала источники данных, внутренние фильтры и настройки, которыми пользователь может сам ограничить использование своих диалогов.

Откуда берутся данные В посте OpenAI разделяет источники данных на несколько категорий.

Для обучения моделей, которые лежат в основе ChatGPT, компания использует публично доступную информацию из интернета, данные из партнёрств, а также материалы, которые были предоставлены или сгенерированы пользователями, подрядчиками и исследователями. Идея в том, чтобы модель усваивала общие закономерности, факты и связи между темами, а не запоминала отдельные личные истории. По версии OpenAI, именно широкий набор источников помогает делать ответы более полезными, стабильными и безопасными.

Отдельно компания уточняет важную деталь: если речь идёт о контенте из открытого интернета, то для обучения берутся только материалы, которые находятся в свободном и открытом доступе. В качестве примеров OpenAI приводит публичные посты, блоги и обсуждения на открытых форумах. Это не отменяет вопросов о границах допустимого использования открытых данных, но показывает, что компания пытается формализовать правило: не всё, что есть в сети, автоматически считается подходящим для обучения, если доступ к этому контенту ограничен.

Как убирают личное

Перед тем как данные попадают в обучение, OpenAI пропускает их через набор защитных механизмов, которые должны сократить объём персональной информации в датасетах. Главный из них — Privacy Filter, инструмент для поиска и маскировки личных сведений в тексте. По заявлению компании, этот фильтр применяется на нескольких этапах процесса, в том числе к публичным датасетам и к пользовательским разговорам, если у человека включена настройка Improve the model for everyone.

OpenAI также пишет, что сделала Privacy Filter бесплатным для других разработчиков, чтобы этот подход можно было использовать и за пределами ChatGPT. Отдельный слой защиты связан уже не с обучением, а с самими ответами ChatGPT. Сервис должен отклонять запросы на выдачу частной или чувствительной информации о конкретных людях, хотя OpenAI прямо признаёт, что ошибки всё ещё возможны.

Если в ответе всё же появилась личная информация и человек считает её неточной или неуместной, он может отправить запрос через портал приватности. При этом компания подчёркивает, что приватность и реакция на серьёзные риски, например достоверные угрозы насилия, должны работать одновременно, а не мешать друг другу.

«Защита приватности — центральная часть того, как мы строим

ChatGPT».

Какие есть настройки

Самая практическая часть материала — список пользовательских переключателей, которые позволяют самому решить, сколько данных отдавать системе. OpenAI делает акцент на том, что контроль над диалогами не спрятан глубоко в документации, а вынесен прямо в интерфейс ChatGPT. То есть речь не только о принципах компании, но и о вполне прикладных действиях: можно отключить участие новых чатов в обучении, убрать память или перейти в отдельный временный режим для более чувствительных запросов.

  • В Settings -> Data Controls можно отключить опцию Improve the model for everyone. После этого новые чаты останутся в истории, но не будут использоваться для обучения моделей.
  • Режим Temporary Chat запускает одноразовый диалог: он не сохраняется в истории, не создаёт память и не идёт на улучшение моделей.
  • Временные чаты хранятся 30 дней для задач безопасности, а затем удаляются.
  • Функцию Memory можно просматривать, редактировать, очищать или полностью выключать, если не хочется, чтобы ChatGPT запоминал прошлые детали.
  • Пользователь также может экспортировать свои данные, удалить аккаунт и отправить запрос через портал приватности. Есть и прямое предупреждение: в ChatGPT не стоит отправлять чувствительные сведения, которыми пользователь не готов делиться даже в контексте проверки или обработки системой. Это важная оговорка, потому что многие воспринимают чат-интерфейс как приватный блокнот или безопасного собеседника по умолчанию. OpenAI, наоборот, пытается донести более трезвую модель использования: у пользователя есть инструменты контроля, но ответственность за то, что именно он вводит в сервис, никуда не исчезает.

Что это значит

OpenAI фактически пытается перевести разговор о приватности из уровня общих обещаний в набор конкретных правил и переключателей. Для пользователей это полезно: стало понятнее, какие данные могут участвовать в обучении, как отключить этот сценарий и чем обычный чат отличается от Temporary Chat. Для рынка это сигнал, что доверие к AI-продуктам всё сильнее зависит не только от качества модели, но и от прозрачности работы с личной информацией.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Что вы думаете?
Загружаем комментарии…