Habr AI→ original

Experimento com LLM mostrou como a “personalidade” do modelo surge no espaço latente

Foi publicada uma análise de um experimento com uma LLM modular, em que o significado e o estilo da resposta são separados em diferentes representações…

Processado por IA de Habr AI; editado por Hamidun News
Experimento com LLM mostrou como a “personalidade” do modelo surge no espaço latente
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

Em um novo relatório sobre um experimento com arquitetura LLM modular, o autor demonstra que um único vetor latente pode armazenar não apenas estilo, mas também características estáveis de como a informação é apresentada. Esta camada é considerada uma base para o que pode ser chamado de "embedding de personalidade" do modelo.

O Problema da Média

Em um modelo autorregressivo clássico, a próxima etapa de geração é uma distribuição de probabilidade sobre o vocabulário. Isso permite que o mesmo enunciado tenha muitas continuações aceitáveis, e a temperatura apenas muda como a seleção funciona dentro de uma distribuição já aprendida. No esquema modular descrito pelo autor, a situação é diferente: o núcleo deve produzir um único próximo vetor latente, que é então decodificado de volta para texto.

Por isso, várias variantes possíveis de resposta devem ser compactadas em uma única representação. Na prática, isso leva à média. O modelo começa a escolher não uma variante clara e específica, mas uma continuação "média", onde entonação, caráter e forma de explicação são suavizados.

É aqui que surge a ideia de separar o conteúdo da apresentação. Se a semântica determina o que o modelo diz, então um latente de estilo separado deve determinar exatamente como é dito: secamente ou vividamente, confiante ou cautelosamente, passo a passo ou em fluxo livre.

Como o Experimento Foi Estruturado

Para testar a hipótese, o autor treinou um modelo em textos de usuários reais para que extraísse um vetor compacto descrevendo não o significado, mas padrões de fala estáveis. Este vetor pode então ser alimentado no modelo principal através de cross-attention. Durante o treinamento, o estilo vem da resposta alvo, e durante a inferência pode ser definido separadamente.

Essencialmente, em vez de um único botão de temperatura, surge um conjunto de mecanismos de controle de comportamento mais precisos. O pesquisador enfatiza especificamente que a tarefa não era sobre reconhecer um autor específico. O objetivo era diferente: obter um espaço de recursos suave onde textos de pessoas com padrões de fala similares fiquem próximos, mesmo que escrevam sobre tópicos diferentes.

  • formalidade versus conversacionalidade
  • confiança versus cautela
  • estrutura versus espontaneidade
  • apresentação "engenharia" versus mais humanística
  • tom neutro versus emocionalmente matizado

O Que as Métricas Mostraram

Segundo o autor, em um benchmark sintético, o modelo já distingue com segurança contrastes de estilo individuais. Formalidade versus conversacionalidade é determinada com balanced accuracy 0.93, confiança versus incerteza — 0.

94, apresentação empática versus fria — 0.93, e exposição livre versus passo-a-passo — 0.92.

Em um modo misto onde há muitos fatores simultaneamente, os resultados são expectavelmente mais baixos, mas ainda significativos: maneira lexical e viés semântico são mantidos em 0.85 e 0.84, características relacionadas à idade — 0.

72, empatia — 0.73, estrutura — 0.70.

Particularmente interessante é que o espaço de recursos não desaba ao combinar vários deslocamentos de estilo. A correspondência média entre composição predita e real de tais deslocamentos, segundo o autor, atingiu cos = 0.97.

Isso significa que o modelo pode simultaneamente se mover, por exemplo, em direção a uma resposta mais formal, mais confiante e mais técnica. No entanto, o trabalho ainda não está completo: o latente ainda tem viés notável no comprimento do texto, e sinais sociais como idade, gênero ou profissão parecem mais um perfil probabilístico do que reconhecimento confiável.

"Estilo realmente vive no latente."

O Que Isso Significa

Para equipes de produto, isso parece uma transição de ajuste bruto de temperatura para controle mais preciso sobre a maneira de resposta: formal, gentil, focado em engenharia, explicativo. Se a abordagem escalar, os LLMs poderão não apenas gerar texto, mas manter de forma estável um caráter de comunicação dado sem copiar conteúdo de autor específico. E é exatamente isso que torna a ideia de "embedding de personalidade" não uma metáfora, mas uma hipótese de engenharia totalmente funcional.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…