OpenAI explicó qué datos usa ChatGPT para el entrenamiento y cómo protege la privacidad
OpenAI detalló cómo ChatGPT usa datos para el entrenamiento y qué controles de privacidad tienen los usuarios. La empresa afirma que aplica Privacy Filter para

El 6 de mayo, OpenAI publicó una explicación detallada sobre cómo ChatGPT adquiere conocimiento sobre el mundo mientras intenta no involucrar datos personales innecesarios en el entrenamiento. La empresa simultáneamente describió fuentes de datos, filtros internos y configuraciones que los usuarios pueden usar para limitar el uso de sus conversaciones.
De Dónde Vienen los Datos
En un post, OpenAI divide las fuentes de datos en varias categorías. Para entrenar los modelos que subyacen en ChatGPT, la empresa utiliza información disponible públicamente en internet, datos de asociaciones, así como materiales proporcionados o generados por usuarios, contratistas e investigadores. La idea es que el modelo aprenda patrones generales, hechos y conexiones entre temas, en lugar de memorizar historias personales individuales.
Según OpenAI, es precisamente este amplio conjunto de fuentes lo que ayuda a que las respuestas sean más útiles, estables y seguras. La empresa aclara por separado un detalle importante: si se trata de contenido de internet abierto, entonces solo se utilizan materiales que están en acceso libre y abierto para el entrenamiento. OpenAI proporciona publicaciones públicas, blogs y discusiones en foros abiertos como ejemplos.
Esto no elimina preguntas sobre los límites del uso aceptable de datos abiertos, pero muestra que la empresa intenta formalizar una regla: no todo lo que hay en internet se considera automáticamente apropiado para entrenamiento si el acceso a ese contenido es limitado.
Cómo Eliminan la Información Personal
Antes de que los datos entren en entrenamiento, OpenAI los ejecuta a través de un conjunto de mecanismos de protección diseñados para reducir el volumen de información personal en los conjuntos de datos. El principal es el Privacy Filter, una herramienta para buscar y enmascarar información personal en texto. Según la empresa, este filtro se aplica en varias etapas del proceso, incluyendo conjuntos de datos públicos y conversaciones de usuarios si la persona ha habilitado la configuración Improve the model for everyone.
OpenAI también afirma que hizo Privacy Filter gratuito para otros desarrolladores para que este enfoque pudiera usarse más allá de ChatGPT. Una capa separada de protección está relacionada no con el entrenamiento, sino con las respuestas del mismo ChatGPT. El servicio debe rechazar solicitudes para proporcionar información privada o sensible sobre personas específicas, aunque OpenAI reconoce directamente que los errores aún son posibles.
Si la información personal aún aparece en una respuesta y la persona la considera inexacta o inapropiada, puede enviar una solicitud a través del portal de privacidad. Al mismo tiempo, la empresa enfatiza que la protección de la privacidad y la respuesta a riesgos serios, como amenazas creíbles de violencia, deben funcionar simultáneamente, no interferirse mutuamente.
"La protección de la privacidad es una parte central de cómo construimos
ChatGPT."
Qué Configuraciones Están Disponibles
La parte más práctica del material es una lista de controles de usuario que permiten decidir cuántos datos proporcionar al sistema. OpenAI enfatiza que el control sobre las conversaciones no está oculto profundamente en la documentación, sino colocado directamente en la interfaz de ChatGPT. Es decir, no se trata solo de los principios de la empresa, sino de acciones bastante prácticas: puede deshabilitar la participación de nuevos chats en el entrenamiento, eliminar la memoria o cambiar a un modo temporal separado para solicitudes más sensibles.
- En Settings -> Data Controls puede deshabilitar la opción Improve the model for everyone. Después de eso, los nuevos chats permanecerán en el historial, pero no se utilizarán para entrenar modelos.
- El modo Temporary Chat inicia una conversación única: no se guarda en el historial, no crea memoria y no mejora los modelos.
- Los chats temporales se almacenan durante 30 días para fines de seguridad y luego se eliminan.
- La función Memory se puede ver, editar, limpiar o deshabilitar completamente si no desea que ChatGPT recuerde detalles anteriores.
- Los usuarios también pueden exportar sus datos, eliminar su cuenta y enviar una solicitud a través del portal de privacidad.
También hay una advertencia directa: no envíe información sensible a ChatGPT que no esté listo para compartir incluso en el contexto de revisión o procesamiento del sistema. Esta es una aclaración importante, porque muchas personas perciben la interfaz de chat como un bloc de notas privado o interlocutor seguro por defecto. OpenAI, por el contrario, intenta transmitir un modelo de uso más sobrio: el usuario tiene herramientas de control, pero la responsabilidad por lo que exactamente ingresa en el servicio no desaparece.
Lo Que Esto Significa
OpenAI está esencialmente intentando trasladar la conversación sobre privacidad del nivel de promesas generales a un conjunto de reglas y controles concretos. Para los usuarios, esto es útil: quedó más claro qué datos pueden participar en el entrenamiento, cómo deshabilitar este escenario y cómo un chat regular difiere de Temporary Chat. Para el mercado, esta es una señal de que la confianza en los productos de IA depende cada vez más no solo de la calidad del modelo, sino también de la transparencia en el manejo de la información personal.