Aprendizado subliminar: redes neurais lembram do esquecido?
Em artigos anteriores, abordamos o tema do aprendizado subliminar em redes neurais, levantando mais questões do que fornecendo respostas. É hora de…
Processado por IA de Habr AI; editado por Hamidun News
Em artigos anteriores, abordamos o tema do aprendizado subliminar em redes neurais, levantando mais questões do que fornecendo respostas. É hora de aprofundar-se neste fenômeno, apoiando-se em novos experimentos e análise de código. Uma das questões-chave na área de Alinhamento de IA e segurança de grandes modelos de linguagem (LLMs) é a seguinte: o ajuste fino (fine-tuning) ou o treinamento com aprendizado por reforço com feedback humano (RLHF) é uma forma confiável de remover informações indesejadas ou perigosas inicialmente incorporadas no modelo?
Experimentos mostram que o conhecido efeito de conectividade de modos torna praticamente impossível a eliminação completa de informações obtidas durante a etapa de pré-treinamento com ajuste fino padrão. A essência é que a "impressão" estrutural (imprinting) é preservada na topologia dos pesos da rede neural e pode ser lida através de um tipo de canal "subliminar". Mesmo com descongelamento completo de parâmetros (ou seja, a capacidade de alterar todos os parâmetros da rede) e a aplicação de regularização L2 agressiva, direcionada ao "esquecimento" ativo de conhecimento antigo, a topologia do espaço latente formada durante o pré-treinamento é preservada e continua a ter um impacto substancial na resolução da nova tarefa.
A precisão da reprodução de conhecimento antigo, aparentemente apagado, pode chegar a 88-99%.
Este efeito de conectividade de modos pode ser explicado da seguinte forma: a paisagem de perda de uma rede neural (ou seja, a função que ela tenta minimizar durante o treinamento) tem uma estrutura complexa com muitos mínimos locais. Cada um desses mínimos corresponde a um "modo" específico ou forma de resolver uma tarefa. A conectividade de modos significa que esses mínimos são conectados por "caminhos" com perda relativamente baixa, permitindo que o modelo alterne entre diferentes modos de operação, preservando ao mesmo tempo a estrutura geral do conhecimento.
As implicações dessa descoberta para a segurança e confiabilidade dos LLMs são enormes. Se informações indesejadas não puderem ser completamente removidas, existe o risco de sua "manifestação" no momento mais inoportunado, por exemplo, durante a geração de texto, interação com o usuário ou tomada de decisão. Isso é especialmente perigoso no contexto de modelos usados em áreas críticas, como saúde, finanças ou justiça.
Além disso, os resultados da pesquisa questionam a eficácia dos métodos existentes de Alinhamento de IA direcionados ao controle e gerenciamento do comportamento do LLM. Se o modelo retém conhecimento oculto que não está sujeito a controle direto, é necessário desenvolver novos métodos mais avançados que levem em conta este efeito de aprendizado subliminar.
Uma possível direção é o desenvolvimento de arquiteturas de redes neurais que sejam mais resistentes à retenção de informações indesejadas. Outra é o desenvolvimento de métodos de ajuste fino mais eficientes que permitam não apenas adaptar o modelo a uma nova tarefa, mas também "esquecer" ativamente conhecimento antigo sem destruir sua estrutura geral.
Em conclusão, a pesquisa sobre aprendizado subliminar em redes neurais enfatiza que o ajuste fino e RLHF não são uma panaceia para informações indesejadas. A impressão estrutural na topologia de pesos é preservada e pode ser ativada. Isso exige o desenvolvimento de novas abordagens para o Alinhamento de IA que levem em conta este efeito e sejam direcionadas à criação de LLMs mais seguros e confiáveis.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.