OpenAI Blog→ оригинал

OpenAI a expliqué quelles données ChatGPT utilise pour l'entraînement et comment elle protège la confidentialité

OpenAI a détaillé comment ChatGPT utilise les données pour l'entraînement et quels contrôles de confidentialité sont à la disposition des utilisateurs. L'entrep

OpenAI a expliqué quelles données ChatGPT utilise pour l'entraînement et comment elle protège la confidentialité
Source : OpenAI Blog. Коллаж: Hamidun News.
◐ Слушать статью

Le 6 mai, OpenAI a publié une explication détaillée sur la façon dont ChatGPT acquiert des connaissances sur le monde tout en essayant de ne pas impliquer de données personnelles inutiles dans l'entraînement. L'entreprise a simultanément décrit les sources de données, les filtres internes et les paramètres que les utilisateurs peuvent utiliser pour limiter l'utilisation de leurs conversations.

D'Où Proviennent les Données

Dans un article, OpenAI divise les sources de données en plusieurs catégories. Pour entraîner les modèles qui sous-tendent ChatGPT, l'entreprise utilise des informations disponibles publiquement sur Internet, des données provenant de partenariats, ainsi que des matériaux fournis ou générés par des utilisateurs, des entrepreneurs et des chercheurs. L'idée est que le modèle apprenne des modèles généraux, des faits et des connexions entre les thèmes, plutôt que de mémoriser des histoires personnelles individuelles.

Selon OpenAI, c'est précisément cet ensemble large de sources qui aide à rendre les réponses plus utiles, stables et sûres. L'entreprise clarifie séparément un détail important : s'il s'agit de contenu provenant d'Internet ouvert, seuls les matériaux en accès libre et ouvert sont utilisés pour l'entraînement. OpenAI cite les publications publiques, les blogs et les discussions sur les forums ouverts comme exemples.

Cela n'élimine pas les questions sur les limites de l'utilisation acceptable des données ouvertes, mais montre que l'entreprise essaie de formaliser une règle : tout ce qui se trouve sur Internet n'est pas automatiquement considéré comme approprié pour l'entraînement si l'accès à ce contenu est limité.

Comment Ils Suppriment les Informations Personnelles

Avant que les données ne soient utilisées dans l'entraînement, OpenAI les exécute à travers un ensemble de mécanismes de protection conçus pour réduire le volume d'informations personnelles dans les ensembles de données. Le principal est le Privacy Filter, un outil pour rechercher et masquer les informations personnelles dans le texte. Selon l'entreprise, ce filtre est appliqué à plusieurs étapes du processus, y compris aux ensembles de données publiques et aux conversations des utilisateurs si la personne a activé le paramètre Improve the model for everyone.

OpenAI affirme également qu'elle a rendu le Privacy Filter gratuit pour les autres développeurs afin que cette approche puisse être utilisée au-delà de ChatGPT. Une couche de protection distincte est liée non pas à l'entraînement, mais aux réponses de ChatGPT lui-même. Le service doit rejeter les demandes de fourniture d'informations privées ou sensibles sur des personnes spécifiques, bien qu'OpenAI reconnaisse directement que les erreurs restent possibles.

Si des informations personnelles apparaissent toujours dans une réponse et que la personne les considère inexactes ou inappropriées, elle peut soumettre une demande via le portail de confidentialité. En même temps, l'entreprise souligne que la protection de la vie privée et la réaction aux risques sérieux, comme les menaces crédibles de violence, doivent fonctionner simultanément, ne pas s'interférer mutuellement.

«

La protection de la vie privée est une partie centrale de la manière dont nous construisons ChatGPT. »

Quels Paramètres Sont Disponibles

La partie la plus pratique du matériel est une liste de commutateurs utilisateur qui permettent de décider combien de données fournir au système. OpenAI souligne que le contrôle des conversations n'est pas caché profondément dans la documentation, mais placé directement dans l'interface de ChatGPT. C'est-à-dire qu'il ne s'agit pas seulement des principes de l'entreprise, mais d'actions tout à fait pratiques : vous pouvez désactiver la participation des nouveaux chats à l'entraînement, supprimer la mémoire ou passer à un mode temporaire séparé pour les demandes plus sensibles.

  • Dans Settings -> Data Controls vous pouvez désactiver l'option Improve the model for everyone. Après cela, les nouveaux chats resteront dans l'historique, mais ne seront pas utilisés pour entraîner les modèles.
  • Le mode Temporary Chat lance une conversation unique : elle n'est pas enregistrée dans l'historique, ne crée pas de mémoire et n'améliore pas les modèles.
  • Les chats temporaires sont stockés pendant 30 jours à des fins de sécurité, puis supprimés.
  • La fonction Memory peut être consultée, modifiée, effacée ou complètement désactivée si vous ne voulez pas que ChatGPT se souvienne des détails passés.
  • Les utilisateurs peuvent également exporter leurs données, supprimer leur compte et soumettre une demande via le portail de confidentialité.

Il y a aussi un avertissement direct : n'envoyez pas d'informations sensibles à ChatGPT que vous ne seriez pas prêt à partager, même dans le contexte de l'examen ou du traitement par le système. C'est une caveat importante, car beaucoup perçoivent l'interface de chat comme un carnet privé ou un interlocuteur sûr par défaut. OpenAI, au contraire, essaie de transmettre un modèle d'utilisation plus sobre : l'utilisateur a des outils de contrôle, mais la responsabilité de ce qu'il introduit exactement dans le service ne disparaît pas.

Ce Que Cela Signifie

OpenAI essaie essentiellement de déplacer la conversation sur la confidentialité du niveau des promesses générales à un ensemble de règles et de commutateurs concrets. Pour les utilisateurs, c'est utile : il est devenu plus clair quelles données peuvent participer à l'entraînement, comment désactiver ce scénario et comment un chat régulier diffère du Temporary Chat. Pour le marché, c'est un signal que la confiance dans les produits d'IA dépend de plus en plus non seulement de la qualité du modèle, mais aussi de la transparence du traitement des informations personnelles.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Qu'en pensez-vous ?
Chargement des commentaires…