OpenAI explicou quais dados o ChatGPT usa para treinamento e como protege a privacidade
OpenAI detalhou como o ChatGPT usa dados para treinamento e quais controles de privacidade os usuários têm. A empresa diz que aplica o Privacy Filter para masca

Em 6 de maio, a OpenAI publicou uma explicação detalhada sobre como o ChatGPT adquire conhecimento sobre o mundo enquanto tenta não envolver dados pessoais desnecessários no treinamento. A empresa descreveu simultaneamente as fontes de dados, filtros internos e configurações que os usuários podem usar para limitar o uso de suas conversas.
De Onde Vêm os Dados
Em um post, a OpenAI divide as fontes de dados em várias categorias. Para treinar os modelos que fundamentam o ChatGPT, a empresa usa informações publicamente disponíveis na internet, dados de parcerias, bem como materiais fornecidos ou gerados por usuários, contratados e pesquisadores. A ideia é que o modelo aprenda padrões gerais, fatos e conexões entre tópicos, em vez de memorizar histórias pessoais individuais.
De acordo com a OpenAI, é precisamente este amplo conjunto de fontes que ajuda a tornar as respostas mais úteis, estáveis e seguras. A empresa esclarece separadamente um detalhe importante: se se trata de conteúdo da internet aberta, então apenas materiais em acesso livre e aberto são usados para treinamento. A OpenAI cita postagens públicas, blogs e discussões em fóruns abertos como exemplos.
Isso não elimina questões sobre os limites do uso aceitável de dados abertos, mas mostra que a empresa está tentando formalizar uma regra: nem tudo na internet é automaticamente considerado apropriado para treinamento se o acesso a esse conteúdo é limitado.
Como Eles Removem Informações Pessoais
Antes dos dados entrarem no treinamento, a OpenAI os executa através de um conjunto de mecanismos de proteção projetados para reduzir o volume de informações pessoais nos conjuntos de dados. O principal é o Privacy Filter, uma ferramenta para buscar e mascarar informações pessoais em texto. De acordo com a empresa, este filtro é aplicado em vários estágios do processo, incluindo em conjuntos de dados públicos e em conversas de usuários se a pessoa tiver ativado a configuração Improve the model for everyone.
A OpenAI também afirma que disponibilizou o Privacy Filter gratuitamente para outros desenvolvedores para que essa abordagem pudesse ser usada além do ChatGPT. Uma camada separada de proteção está relacionada não ao treinamento, mas às respostas do ChatGPT em si. O serviço deve rejeitar solicitações para fornecer informações privadas ou sensíveis sobre pessoas específicas, embora a OpenAI reconheça diretamente que erros ainda são possíveis.
Se informações pessoais ainda aparecerem em uma resposta e a pessoa considerar inexata ou inadequada, ela pode enviar uma solicitação através do portal de privacidade. Ao mesmo tempo, a empresa enfatiza que a proteção da privacidade e a resposta a riscos sérios, como ameaças críveis de violência, devem funcionar simultaneamente, não interferir um com o outro.
"A proteção da privacidade é uma parte central de como construímos o
ChatGPT."
Quais São as Configurações Disponíveis
A parte mais prática do material é uma lista de alternadores do usuário que permitem decidir quanto dados fornecer ao sistema. A OpenAI enfatiza que o controle sobre as conversas não está escondido profundamente na documentação, mas colocado diretamente na interface do ChatGPT. Ou seja, não se trata apenas dos princípios da empresa, mas de ações bastante práticas: você pode desabilitar a participação de novos chats no treinamento, remover memória ou mudar para um modo temporário separado para solicitações mais sensíveis.
- Em Settings -> Data Controls você pode desabilitar a opção Improve the model for everyone. Depois disso, os novos chats permanecerão no histórico, mas não serão usados para treinar modelos.
- O modo Temporary Chat inicia uma conversa única: não é salvo no histórico, não cria memória e não melhora os modelos.
- Chats temporários são armazenados por 30 dias para fins de segurança e depois deletados.
- A função Memory pode ser visualizada, editada, limpa ou completamente desabilitada se você não quer que o ChatGPT se lembre de detalhes passados.
- Os usuários também podem exportar seus dados, deletar sua conta e enviar uma solicitação através do portal de privacidade.
Há também um aviso direto: não envie informações sensíveis ao ChatGPT que você não está pronto para compartilhar mesmo no contexto de revisão ou processamento do sistema. Esta é uma ressalva importante, porque muitas pessoas percebem a interface de chat como um bloco de notas privado ou interlocutor seguro por padrão. A OpenAI, ao contrário, tenta transmitir um modelo de uso mais sóbrio: o usuário tem ferramentas de controle, mas a responsabilidade pelo que exatamente ele insere no serviço não desaparece.
O Que Isso Significa
A OpenAI está essencialmente tentando mover a conversa sobre privacidade do nível de promessas gerais para um conjunto de regras e alternadores concretos. Para os usuários, isso é útil: ficou mais claro quais dados podem participar do treinamento, como desabilitar esse cenário e como um chat regular difere do Temporary Chat. Para o mercado, este é um sinal de que a confiança em produtos de IA depende cada vez mais não apenas da qualidade do modelo, mas também da transparência no tratamento de informações pessoais.