Experimento com LLM mostrou como a “personalidade” do modelo surge no espaço latente
Foi publicada uma análise de um experimento com uma LLM modular, em que o significado e o estilo da resposta são separados em diferentes representações…
Processado por IA de Habr AI; editado por Hamidun News
Em um novo relatório sobre um experimento com arquitetura LLM modular, o autor demonstra que um único vetor latente pode armazenar não apenas estilo, mas também características estáveis de como a informação é apresentada. Esta camada é considerada uma base para o que pode ser chamado de "embedding de personalidade" do modelo.
O Problema da Média
Em um modelo autorregressivo clássico, a próxima etapa de geração é uma distribuição de probabilidade sobre o vocabulário. Isso permite que o mesmo enunciado tenha muitas continuações aceitáveis, e a temperatura apenas muda como a seleção funciona dentro de uma distribuição já aprendida. No esquema modular descrito pelo autor, a situação é diferente: o núcleo deve produzir um único próximo vetor latente, que é então decodificado de volta para texto.
Por isso, várias variantes possíveis de resposta devem ser compactadas em uma única representação. Na prática, isso leva à média. O modelo começa a escolher não uma variante clara e específica, mas uma continuação "média", onde entonação, caráter e forma de explicação são suavizados.
É aqui que surge a ideia de separar o conteúdo da apresentação. Se a semântica determina o que o modelo diz, então um latente de estilo separado deve determinar exatamente como é dito: secamente ou vividamente, confiante ou cautelosamente, passo a passo ou em fluxo livre.
Como o Experimento Foi Estruturado
Para testar a hipótese, o autor treinou um modelo em textos de usuários reais para que extraísse um vetor compacto descrevendo não o significado, mas padrões de fala estáveis. Este vetor pode então ser alimentado no modelo principal através de cross-attention. Durante o treinamento, o estilo vem da resposta alvo, e durante a inferência pode ser definido separadamente.
Essencialmente, em vez de um único botão de temperatura, surge um conjunto de mecanismos de controle de comportamento mais precisos. O pesquisador enfatiza especificamente que a tarefa não era sobre reconhecer um autor específico. O objetivo era diferente: obter um espaço de recursos suave onde textos de pessoas com padrões de fala similares fiquem próximos, mesmo que escrevam sobre tópicos diferentes.
- formalidade versus conversacionalidade
- confiança versus cautela
- estrutura versus espontaneidade
- apresentação "engenharia" versus mais humanística
- tom neutro versus emocionalmente matizado
O Que as Métricas Mostraram
Segundo o autor, em um benchmark sintético, o modelo já distingue com segurança contrastes de estilo individuais. Formalidade versus conversacionalidade é determinada com balanced accuracy 0.93, confiança versus incerteza — 0.
94, apresentação empática versus fria — 0.93, e exposição livre versus passo-a-passo — 0.92.
Em um modo misto onde há muitos fatores simultaneamente, os resultados são expectavelmente mais baixos, mas ainda significativos: maneira lexical e viés semântico são mantidos em 0.85 e 0.84, características relacionadas à idade — 0.
72, empatia — 0.73, estrutura — 0.70.
Particularmente interessante é que o espaço de recursos não desaba ao combinar vários deslocamentos de estilo. A correspondência média entre composição predita e real de tais deslocamentos, segundo o autor, atingiu cos = 0.97.
Isso significa que o modelo pode simultaneamente se mover, por exemplo, em direção a uma resposta mais formal, mais confiante e mais técnica. No entanto, o trabalho ainda não está completo: o latente ainda tem viés notável no comprimento do texto, e sinais sociais como idade, gênero ou profissão parecem mais um perfil probabilístico do que reconhecimento confiável.
"Estilo realmente vive no latente."
O Que Isso Significa
Para equipes de produto, isso parece uma transição de ajuste bruto de temperatura para controle mais preciso sobre a maneira de resposta: formal, gentil, focado em engenharia, explicativo. Se a abordagem escalar, os LLMs poderão não apenas gerar texto, mas manter de forma estável um caráter de comunicação dado sem copiar conteúdo de autor específico. E é exatamente isso que torna a ideia de "embedding de personalidade" não uma metáfora, mas uma hipótese de engenharia totalmente funcional.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.