OpenAI Blog→ оригинал

OpenAI a mis à jour ChatGPT pour mieux détecter le risque dans les conversations sensibles

OpenAI a mis à jour les mécanismes de protection de ChatGPT pour les conversations sensibles. Le modèle repère désormais mieux les cas où le risque n’apparaît p

OpenAI a mis à jour ChatGPT pour mieux détecter le risque dans les conversations sensibles
Source : OpenAI Blog. Коллаж: Hamidun News.
◐ Слушать статью

OpenAI a décrit les mises à jour de sécurité de ChatGPT qui aident le modèle à mieux comprendre le contexte dans les conversations sensibles. Le système est devenu plus précis pour détecter quand le risque ne se manifeste pas immédiatement, mais s'accumule au fur et à mesure que le dialogue progresse ou même sur plusieurs chats distincts.

Pourquoi le Contexte Est Important

Dans un message ordinaire, un utilisateur peut poser une question neutre ou ambiguë, et sans échanges précédents, une telle demande semble inoffensive. Mais s'il y avait des signes antérieurs de détresse, une discussion sur l'automutilation ou des indices de causer du tort à autrui, le sens change radicalement. OpenAI a axé la mise à jour précisément sur ces cas : le modèle a été entraîné à mieux connecter les signaux provenant de plusieurs messages et à intensifier la prudence non pas dans toutes les conversations de manière indiscriminée, mais uniquement là où des signes véritablement alarmants apparaissent.

L'entreprise affirme qu'il s'agit de scénarios rares mais critiquement importants—principalement le suicide, l'automutilation et les menaces envers autrui. Dans de telles situations, ChatGPT ne doit pas simplement répondre formellement, mais être capable de refuser opportunément les détails dangereux, de réduire l'intensité de la conversation et de réorienter doucement l'utilisateur vers une aide plus sûre. L'objectif de la mise à jour n'est pas de rendre le modèle excessivement anxieux, mais de lui apprendre à distinguer les conversations ordinaires des épisodes véritablement risqués.

Ce Qui A Changé

L'innovation clé est les résumés de sécurité—des notes factuelles brèves sur le contexte de sécurité important. Elles sont créées par un modèle séparé entraîné pour les tâches de raisonnement en matière de sécurité et utilisées uniquement dans les cas rares où il y a un signal de risque grave. Selon la description d'OpenAI, ces notes ne sont pas une personnalisation générale et ne deviennent pas une mémoire à long terme sur l'utilisateur : elles sont stockées pendant une période limitée et appliquées uniquement lorsque le contexte passé est vraiment nécessaire pour une réponse plus sûre.

  • Appareillent les signaux des messages actuels et passés
  • Aident à tenir compte du risque entre les chats distincts
  • Indiquent au modèle quand la désescalade de conversation est nécessaire
  • Renforcent le refus des détails dangereux de la demande
  • Réorientent l'utilisateur vers des alternatives plus sûres

OpenAI souligne séparément que le système a été développé non seulement au sein de l'équipe de sécurité. Le travail a impliqué des psychiatres et des psychologues du Global Physicians Network, notamment des spécialistes en psychologie judiciaire, en prévention du suicide et en prévention de l'automutilation. Ils ont aidé à déterminer à quels moments les résumés de sécurité doivent être créés, quelle quantité de contexte antérieur est vraiment utile et combien de temps le modèle doit le considérer lors de la réponse. C'est un détail important : l'entreprise s'est appuyée non seulement sur des heuristiques générales, mais sur la pratique de spécialistes qui travaillent avec de tels cas de crise.

Ce Que Les Tests Ont Montré

OpenAI fournit plusieurs métriques internes. Dans les longs scénarios au sein d'une seule conversation, la proportion de réponses sûres a augmenté de 50% dans les cas liés au suicide et à l'automutilation, et de 16% dans les cas de tort à autrui. L'entreprise a testé séparément les performances sur plusieurs conversations et sur plusieurs modèles.

Pour GPT-4o, qui est maintenant le modèle standard dans ChatGPT, les réponses sûres se sont améliorées de 52% dans les scénarios de tort à autrui et de 39% dans les scénarios de suicide et d'automutilation. Cela montre que le système est devenu meilleur pour remarquer l'accumulation de risque au fil du temps plutôt que de simplement réagir aux drapeaux rouges évidents. L'entreprise a également évalué la qualité des résumés de sécurité eux-mêmes.

Sur la base de plus de 4 000 évaluations internes, ils ont reçu une note moyenne de 4,93 sur 5 pour la pertinence en matière de sécurité et 4,34 sur 5 pour l'exactitude factuelle. En même temps, OpenAI a vérifié séparément si l'ajout de tel contexte nuit aux conversations ordinaires. Selon les tests internes, les réponses dans les chats quotidiens sont restées généralement comparables, et aucune préférence d'utilisateur notable entre les variantes avec résumés de sécurité et sans eux n'a été détectée.

En d'autres termes, le pari est sur une prudence plus précise sans baisse perceptible de la qualité dans les scénarios normaux.

Ce Que Cela Signifie

OpenAI se dirige vers une comptabilisation plus robuste du contexte antérieur non pas pour la personnalisation, mais pour la sécurité dans les situations critiques rares. Si l'approche s'adapte vraiment sans excès de faux positifs, ChatGPT sera capable de gérer les conversations complexes avec plus de soin, où le risque devient clair uniquement à travers une chaîne de messages. Pour l'industrie, c'est un signal important : la sécurité dépend de plus en plus non pas d'une seule demande, mais de la capacité du modèle à voir comment les situations évoluent au fil du temps.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Qu'en pensez-vous ?
Chargement des commentaires…