OpenAI объяснила, какие данные ChatGPT использует для обучения и как защищает приватность
OpenAI подробно описала, как ChatGPT использует данные для обучения и какие у пользователей есть рычаги приватности. Компания говорит, что применяет Privacy Fil

6 мая OpenAI опубликовала подробное объяснение того, как ChatGPT получает знания о мире и при этом старается не втягивать в обучение лишние персональные данные. Компания одновременно описала источники данных, внутренние фильтры и настройки, которыми пользователь может сам ограничить использование своих диалогов.
Откуда берутся данные В посте OpenAI разделяет источники данных на несколько категорий.
Для обучения моделей, которые лежат в основе ChatGPT, компания использует публично доступную информацию из интернета, данные из партнёрств, а также материалы, которые были предоставлены или сгенерированы пользователями, подрядчиками и исследователями. Идея в том, чтобы модель усваивала общие закономерности, факты и связи между темами, а не запоминала отдельные личные истории. По версии OpenAI, именно широкий набор источников помогает делать ответы более полезными, стабильными и безопасными.
Отдельно компания уточняет важную деталь: если речь идёт о контенте из открытого интернета, то для обучения берутся только материалы, которые находятся в свободном и открытом доступе. В качестве примеров OpenAI приводит публичные посты, блоги и обсуждения на открытых форумах. Это не отменяет вопросов о границах допустимого использования открытых данных, но показывает, что компания пытается формализовать правило: не всё, что есть в сети, автоматически считается подходящим для обучения, если доступ к этому контенту ограничен.
Как убирают личное
Перед тем как данные попадают в обучение, OpenAI пропускает их через набор защитных механизмов, которые должны сократить объём персональной информации в датасетах. Главный из них — Privacy Filter, инструмент для поиска и маскировки личных сведений в тексте. По заявлению компании, этот фильтр применяется на нескольких этапах процесса, в том числе к публичным датасетам и к пользовательским разговорам, если у человека включена настройка Improve the model for everyone.
OpenAI также пишет, что сделала Privacy Filter бесплатным для других разработчиков, чтобы этот подход можно было использовать и за пределами ChatGPT. Отдельный слой защиты связан уже не с обучением, а с самими ответами ChatGPT. Сервис должен отклонять запросы на выдачу частной или чувствительной информации о конкретных людях, хотя OpenAI прямо признаёт, что ошибки всё ещё возможны.
Если в ответе всё же появилась личная информация и человек считает её неточной или неуместной, он может отправить запрос через портал приватности. При этом компания подчёркивает, что приватность и реакция на серьёзные риски, например достоверные угрозы насилия, должны работать одновременно, а не мешать друг другу.
«Защита приватности — центральная часть того, как мы строим
ChatGPT».
Какие есть настройки
Самая практическая часть материала — список пользовательских переключателей, которые позволяют самому решить, сколько данных отдавать системе. OpenAI делает акцент на том, что контроль над диалогами не спрятан глубоко в документации, а вынесен прямо в интерфейс ChatGPT. То есть речь не только о принципах компании, но и о вполне прикладных действиях: можно отключить участие новых чатов в обучении, убрать память или перейти в отдельный временный режим для более чувствительных запросов.
- В Settings -> Data Controls можно отключить опцию Improve the model for everyone. После этого новые чаты останутся в истории, но не будут использоваться для обучения моделей.
- Режим Temporary Chat запускает одноразовый диалог: он не сохраняется в истории, не создаёт память и не идёт на улучшение моделей.
- Временные чаты хранятся 30 дней для задач безопасности, а затем удаляются.
- Функцию Memory можно просматривать, редактировать, очищать или полностью выключать, если не хочется, чтобы ChatGPT запоминал прошлые детали.
- Пользователь также может экспортировать свои данные, удалить аккаунт и отправить запрос через портал приватности. Есть и прямое предупреждение: в ChatGPT не стоит отправлять чувствительные сведения, которыми пользователь не готов делиться даже в контексте проверки или обработки системой. Это важная оговорка, потому что многие воспринимают чат-интерфейс как приватный блокнот или безопасного собеседника по умолчанию. OpenAI, наоборот, пытается донести более трезвую модель использования: у пользователя есть инструменты контроля, но ответственность за то, что именно он вводит в сервис, никуда не исчезает.
Что это значит
OpenAI фактически пытается перевести разговор о приватности из уровня общих обещаний в набор конкретных правил и переключателей. Для пользователей это полезно: стало понятнее, какие данные могут участвовать в обучении, как отключить этот сценарий и чем обычный чат отличается от Temporary Chat. Для рынка это сигнал, что доверие к AI-продуктам всё сильнее зависит не только от качества модели, но и от прозрачности работы с личной информацией.