OpenAI Blog→ оригинал

A OpenAI atualizou o ChatGPT para detectar com mais precisão o risco em conversas sensíveis

A OpenAI atualizou os mecanismos de proteção do ChatGPT para conversas sensíveis. Agora, o modelo percebe melhor quando o risco não aparece em uma única mensage

A OpenAI atualizou o ChatGPT para detectar com mais precisão o risco em conversas sensíveis
Fonte: OpenAI Blog. Коллаж: Hamidun News.
◐ Слушать статью

OpenAI descreveu atualizações de segurança do ChatGPT que ajudam o modelo a entender melhor o contexto em conversas sensíveis. O sistema tornou-se mais preciso em notar quando o risco não se manifesta imediatamente, mas se acumula à medida que o diálogo progride ou até em chats separados.

Por Que o Contexto Importa

Em uma mensagem comum, um usuário pode fazer uma pergunta neutra ou ambígua, e sem trocas anteriores, tal solicitação parece inofensiva. Mas se houve sinais anteriores de angústia, conversa sobre automutilação ou indícios de causa de dano a outros, o significado muda dramaticamente. OpenAI focou a atualização precisamente nesses casos: o modelo foi treinado para conectar melhor sinais de múltiplas mensagens e intensificar a cautela não em todas as conversas indiscriminadamente, mas apenas onde sinais verdadeiramente alarmantes aparecem.

A empresa afirma que se trata de cenários raros mas criticamente importantes—principalmente suicídio, automutilação e ameaças a outros. Nessas situações, ChatGPT não deve simplesmente responder formalmente, mas ser capaz de recusar oportunamente detalhes perigosos, reduzir a intensidade da conversa e redirecionar suavemente o usuário para ajuda mais segura. O objetivo da atualização não é tornar o modelo excessivamente ansioso, mas ensiná-lo a distinguir conversas ordinárias de episódios genuinamente arriscados.

O Que Mudou

A inovação-chave são resumos de segurança—notas factuais breves sobre contexto de segurança importante. Eles são criados por um modelo separado treinado para tarefas de raciocínio de segurança e usados apenas em casos raros quando há um sinal de risco sério. De acordo com a descrição da OpenAI, essas notas não são personalização geral e não se tornam memória de longo prazo sobre o usuário: são armazenadas por tempo limitado e aplicadas apenas quando o contexto passado é realmente necessário para uma resposta mais segura.

  • Correspondem sinais de mensagens atuais e passadas
  • Ajudam a considerar risco entre chats separados
  • Indicam ao modelo quando desescalação de conversa é necessária
  • Fortalecem a recusa de detalhes perigosos do pedido
  • Redirecionam o usuário para alternativas mais seguras

OpenAI enfatiza separadamente que o sistema foi desenvolvido não apenas dentro da equipe de segurança. O trabalho envolveu psiquiatras e psicólogos da Global Physicians Network, incluindo especialistas em psicologia forense, prevenção de suicídio e prevenção de automutilação. Eles ajudaram a determinar em quais momentos resumos de segurança devem ser criados, quanto contexto anterior é realmente útil e por quanto tempo o modelo deve considerá-lo ao responder. Este é um detalhe importante: a empresa se apoiou não apenas em heurísticas gerais, mas na prática de especialistas que trabalham com esses casos de crise.

O Que Os Testes Mostraram

OpenAI fornece várias métricas internas. Em cenários longos dentro de uma conversa única, a proporção de respostas seguras aumentou em 50% em casos relacionados a suicídio e automutilação, e em 16% em casos de dano a outros. A empresa testou separadamente o desempenho em múltiplas conversas e em vários modelos.

Para GPT-4o, que agora é o modelo padrão no ChatGPT, respostas seguras melhoraram em 52% em cenários de dano a outros e 39% em cenários de suicídio e automutilação. Isso mostra que o sistema se tornou melhor em notar acúmulo de risco ao longo do tempo em vez de apenas reagir a sinais de alerta óbvios. A empresa também avaliou a qualidade dos resumos de segurança em si.

Com base em mais de 4.000 avaliações internas, receberam uma pontuação média de 4,93 em 5 por relevância de segurança e 4,34 em 5 por precisão factual. Ao mesmo tempo, OpenAI verificou separadamente se adicionar tal contexto prejudica conversas ordinárias.

De acordo com testes internos, respostas em chats cotidianos permaneceram geralmente comparáveis, e nenhuma preferência de usuário notável entre variantes com resumos de segurança e sem eles foi detectada. Em outras palavras, a aposta é na cautela mais precisa sem queda perceptível na qualidade em cenários normais.

O Que Significa

OpenAI está se movendo em direção a uma contabilização mais robusta do contexto anterior não para personalização, mas para segurança em situações críticas raras. Se a abordagem realmente escalar sem excesso de falsos positivos, ChatGPT será capaz de lidar com conversas complexas com mais cuidado, onde o risco fica claro apenas através de uma cadeia de mensagens. Para a indústria, este é um sinal importante: a segurança cada vez mais depende não de um único pedido, mas da capacidade do modelo de ver como situações se desenvolvem ao longo do tempo.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
O que você acha?
Carregando comentários…