Habr AI→ original

Aprendizado subliminar: redes neurais lembram do esquecido?

Em artigos anteriores, abordamos o tema do aprendizado subliminar em redes neurais, levantando mais questões do que fornecendo respostas. É hora de…

Processado por IA de Habr AI; editado por Hamidun News
Aprendizado subliminar: redes neurais lembram do esquecido?
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

Em artigos anteriores, abordamos o tema do aprendizado subliminar em redes neurais, levantando mais questões do que fornecendo respostas. É hora de aprofundar-se neste fenômeno, apoiando-se em novos experimentos e análise de código. Uma das questões-chave na área de Alinhamento de IA e segurança de grandes modelos de linguagem (LLMs) é a seguinte: o ajuste fino (fine-tuning) ou o treinamento com aprendizado por reforço com feedback humano (RLHF) é uma forma confiável de remover informações indesejadas ou perigosas inicialmente incorporadas no modelo?

Experimentos mostram que o conhecido efeito de conectividade de modos torna praticamente impossível a eliminação completa de informações obtidas durante a etapa de pré-treinamento com ajuste fino padrão. A essência é que a "impressão" estrutural (imprinting) é preservada na topologia dos pesos da rede neural e pode ser lida através de um tipo de canal "subliminar". Mesmo com descongelamento completo de parâmetros (ou seja, a capacidade de alterar todos os parâmetros da rede) e a aplicação de regularização L2 agressiva, direcionada ao "esquecimento" ativo de conhecimento antigo, a topologia do espaço latente formada durante o pré-treinamento é preservada e continua a ter um impacto substancial na resolução da nova tarefa.

A precisão da reprodução de conhecimento antigo, aparentemente apagado, pode chegar a 88-99%.

Este efeito de conectividade de modos pode ser explicado da seguinte forma: a paisagem de perda de uma rede neural (ou seja, a função que ela tenta minimizar durante o treinamento) tem uma estrutura complexa com muitos mínimos locais. Cada um desses mínimos corresponde a um "modo" específico ou forma de resolver uma tarefa. A conectividade de modos significa que esses mínimos são conectados por "caminhos" com perda relativamente baixa, permitindo que o modelo alterne entre diferentes modos de operação, preservando ao mesmo tempo a estrutura geral do conhecimento.

As implicações dessa descoberta para a segurança e confiabilidade dos LLMs são enormes. Se informações indesejadas não puderem ser completamente removidas, existe o risco de sua "manifestação" no momento mais inoportunado, por exemplo, durante a geração de texto, interação com o usuário ou tomada de decisão. Isso é especialmente perigoso no contexto de modelos usados em áreas críticas, como saúde, finanças ou justiça.

Além disso, os resultados da pesquisa questionam a eficácia dos métodos existentes de Alinhamento de IA direcionados ao controle e gerenciamento do comportamento do LLM. Se o modelo retém conhecimento oculto que não está sujeito a controle direto, é necessário desenvolver novos métodos mais avançados que levem em conta este efeito de aprendizado subliminar.

Uma possível direção é o desenvolvimento de arquiteturas de redes neurais que sejam mais resistentes à retenção de informações indesejadas. Outra é o desenvolvimento de métodos de ajuste fino mais eficientes que permitam não apenas adaptar o modelo a uma nova tarefa, mas também "esquecer" ativamente conhecimento antigo sem destruir sua estrutura geral.

Em conclusão, a pesquisa sobre aprendizado subliminar em redes neurais enfatiza que o ajuste fino e RLHF não são uma panaceia para informações indesejadas. A impressão estrutural na topologia de pesos é preservada e pode ser ativada. Isso exige o desenvolvimento de novas abordagens para o Alinhamento de IA que levem em conta este efeito e sejam direcionadas à criação de LLMs mais seguros e confiáveis.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…