Activation Steering: um tutorial para controlar um modelo de linguagem de dentro usando PyTorch e nnsight
Activation Steering permite controlar um modelo de linguagem sem retreinamento — intervindo diretamente nas ativações da rede neural. O tutorial do Habr…
Processado por IA de Habr AI; editado por Hamidun News
Um tutorial do Habr explica a técnica Activation Steering — um método para controlar um modelo de linguagem sem retreinamento. Três abordagens, código Python ao vivo, e uma demonstração: um deslocamento intencional do modelo em direção a respostas tóxicas — para mostrar como pode ser precisa uma intervenção.
O que é Activation Steering
Activation Steering permite controlar o comportamento de um modelo de linguagem sem alterar seus pesos ou executar fine-tuning. Durante a inferência, um pesquisador intercepta as ativações internas da rede neural na camada desejada e adiciona um vetor direcionado a elas. O resultado — o modelo começa a gerar texto com a propriedade especificada.
O método é baseado em uma das principais descobertas em mechanistic interpretability: o espaço de ativação de um LLM acaba sendo estruturado. Diferentes conceitos — raiva, polidez, confiança, tópico da conversa, pertencimento à linguagem — são codificados como direções relativamente lineares neste espaço multidimensional. Encontrar o vetor certo significa obter uma alavanca direta de controle sem alterar pesos.
Um vetor de steering é obtido pelo método contrastivo: exemplos com a propriedade desejada e sem ela são coletados, ambos os conjuntos são executados através do modelo, a diferença entre as ativações médias é calculada. O vetor resultante é adicionado às ativações da camada desejada com um coeficiente de escala.
Três Abordagens para Implementação
O tutorial examina três ferramentas com níveis crescentes de abstração:
- pytorch-hooks — `register_forward_hook` intercepta o tensor de ativação da camada selecionada, o vetor é adicionado, o tensor modificado é retornado ao gráfico de computação. Controle máximo, dependências mínimas.
- nnsight — uma biblioteca com sintaxe declarativa. O código de intervenção lê-se quase como pseudocódigo direto — conveniente para experimentos em notebooks Jupyter.
- pyvene — um framework de alto nível para causal interpretability. Suporta experimentos reproduzíveis e fácil comutação entre camadas de transformador.
A escolha da ferramenta depende da tarefa: pytorch-hooks é adequado quando controle total é necessário; nnsight — para código de pesquisa legível; pyvene — para análise causal estruturada.
Onde o Steering é Aplicado
A demonstração do tutorial — deslocar o modelo em direção a hate-speech. A escolha é intencionalmente desconfortável: ela demonstra claramente que a intervenção funciona. Ao mesmo tempo, as mesmas ferramentas são usadas para detectar e neutralizar comportamento indesejável — steering funciona em ambas as direções.
Direções práticas de aplicação:
- Pesquisa de alignment: estudar quais conceitos são codificados na rede neural e como são separáveis
- Safety red-teaming: verificar se comportamento indesejável pode ser ativado sem dados de treinamento
- Interpretability: determinar quais camadas de transformador são responsáveis por propriedades semânticas específicas
- Edição sem fine-tuning: remover ou amplificar um padrão através de intervenção direcionada
O que Isso Significa
Apenas alguns anos atrás, Activation Steering era uma ferramenta de laboratórios acadêmicos — foi usada por pesquisadores da Anthropic, DeepMind e EleutherAI em trabalhos de mechanistic interpretability. O surgimento de nnsight e pyvene reduziu a barreira de entrada ao nível de código pytorch ordinário. Um tutorial em língua russa no Habr é um caso raro em que um tópico tão especializado recebe uma explicação de qualidade sem barreira linguística. Para equipes que trabalham na segurança e alinhamento de modelos de linguagem, dominar steering torna-se uma habilidade prática, não um exercício acadêmico.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.