OpenAI Blog→ оригинал

OpenAI actualizó ChatGPT para detectar con más precisión el riesgo en conversaciones sensibles

OpenAI actualizó los mecanismos de protección de ChatGPT para conversaciones sensibles. Ahora, el modelo detecta mejor cuándo el riesgo no aparece en un solo me

OpenAI actualizó ChatGPT para detectar con más precisión el riesgo en conversaciones sensibles
Fuente: OpenAI Blog. Коллаж: Hamidun News.
◐ Слушать статью

OpenAI describió actualizaciones de seguridad para ChatGPT que ayudan al modelo a entender mejor el contexto en conversaciones sensibles. El sistema se ha vuelto más preciso para notar cuándo el riesgo no se manifiesta inmediatamente, sino que se acumula conforme avanza el diálogo o incluso a través de chats separados.

Por Qué el Contexto Es Importante

En un mensaje ordinario, un usuario puede hacer una pregunta neutral o ambigua, y sin intercambios anteriores, tal solicitud parece inofensiva. Pero si hubo señales previas de angustia, conversación sobre autolesión o indicios de causar daño a otros, el significado cambia dramáticamente. OpenAI enfocó la actualización precisamente en tales casos: el modelo fue entrenado para conectar mejor señales de múltiples mensajes e intensificar la cautela no en todas las conversaciones indiscriminadamente, sino solo donde verdaderamente aparecen signos alarmantes.

La empresa afirma que se trata de escenarios raros pero críticamente importantes—principalmente suicidio, autolesión y amenazas a otros. En tales situaciones, ChatGPT no debe simplemente responder formalmente, sino ser capaz de rechazar oportunamente detalles peligrosos, reducir la intensidad de la conversación y redirigir suavemente al usuario hacia ayuda más segura. El objetivo de la actualización no es hacer el modelo excesivamente ansioso, sino enseñarle a distinguir conversaciones ordinarias de episodios genuinamente riesgosos.

Qué Cambió

La innovación clave son resúmenes de seguridad—notas factuales breves sobre contexto de seguridad importante. Se crean por un modelo separado entrenado para tareas de razonamiento de seguridad y se usan solo en casos raros cuando hay una señal de riesgo grave. Según la descripción de OpenAI, estas notas no son personalización general y no se convierten en memoria a largo plazo sobre el usuario: se almacenan por tiempo limitado y se aplican solo cuando el contexto anterior es realmente necesario para una respuesta más segura.

  • Cotejan señales de mensajes actuales y anteriores
  • Ayudan a considerar riesgo entre chats separados
  • Sugieren al modelo cuándo se necesita desescalada de conversación
  • Fortalecen el rechazo de detalles peligrosos del solicitud
  • Redirigen al usuario hacia alternativas más seguras

OpenAI subraya por separado que el sistema se desarrolló no solo dentro del equipo de seguridad. El trabajo involucró a psiquiatras y psicólogos de la Global Physicians Network, incluyendo especialistas en psicología forense, prevención de suicidio y prevención de autolesión. Ayudaron a determinar en qué momentos se deben crear resúmenes de seguridad, cuánto contexto anterior es realmente útil y cuánto tiempo el modelo debe considerarlo al responder. Este es un detalle importante: la empresa se basó no solo en heurísticas generales, sino en la práctica de especialistas que trabajan con tales casos de crisis.

Lo Que Mostraron Las Pruebas

OpenAI proporciona varias métricas internas. En escenarios largos dentro de una conversación única, la proporción de respuestas seguras aumentó en un 50% en casos relacionados con suicidio y autolesión, y en un 16% en casos de daño a otros. La empresa probó por separado el rendimiento entre múltiples conversaciones y en varios modelos.

Para GPT-4o, que es ahora el modelo estándar en ChatGPT, las respuestas seguras mejoraron en un 52% en escenarios de daño a otros y en un 39% en escenarios de suicidio y autolesión. Esto demuestra que el sistema se ha vuelto mejor para notar la acumulación de riesgo en el tiempo en lugar de solo reaccionar a banderas rojas obvias. La empresa también evaluó la calidad de los resúmenes de seguridad en sí.

Basándose en más de 4.000 evaluaciones internas, recibieron una puntuación promedio de 4,93 de 5 por relevancia de seguridad y 4,34 de 5 por precisión factual. Al mismo tiempo, OpenAI verificó por separado si agregar tal contexto daña las conversaciones ordinarias.

Según las pruebas internas, las respuestas en chats cotidianos se mantuvieron generalmente comparables, y no se detectó preferencia de usuario notable entre variantes con resúmenes de seguridad y sin ellos. En otras palabras, la apuesta es por cautela más precisa sin caída perceptible en la calidad en escenarios normales.

Lo Que Significa

OpenAI se mueve hacia una contabilización más robusta del contexto anterior no para personalización, sino para seguridad en situaciones críticas raras. Si el enfoque realmente escala sin exceso de falsos positivos, ChatGPT podrá manejar conversaciones complejas con más cuidado, donde el riesgo se hace evidente solo a través de una cadena de mensajes. Para la industria, esto es una señal importante: la seguridad cada vez más depende no de una solicitud única, sino de la capacidad del modelo para ver cómo evolucionan las situaciones en el tiempo.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
¿Qué te parece?
Cargando comentarios…