Habr AI→ original

Activation Steering: un tutorial para controlar un modelo de lenguaje desde dentro usando PyTorch y nnsight

Activation Steering permite controlar un modelo de lenguaje sin reentrenamiento — interviniendo directamente en las activaciones de la red neuronal. El…

Procesado por IA desde Habr AI; editado por Hamidun News
Activation Steering: un tutorial para controlar un modelo de lenguaje desde dentro usando PyTorch y nnsight
Fuente: Habr AI. Collage: Hamidun News.
◐ Escuchar artículo

Un tutorial de Habr explica la técnica Activation Steering — un método para controlar un modelo de lenguaje sin reentrenamiento. Tres enfoques, código Python en vivo, y una demostración: un cambio intencional del modelo hacia respuestas tóxicas — para mostrar cuán precisa puede ser una intervención.

Qué es Activation Steering

Activation Steering permite controlar el comportamiento de un modelo de lenguaje sin cambiar sus pesos ni ejecutar fine-tuning. Durante la inferencia, un investigador intercepta las activaciones internas de la red neuronal en la capa deseada y suma un vector dirigido a ellas. El resultado — el modelo comienza a generar texto con la propiedad especificada.

El método se basa en uno de los descubrimientos clave en mechanistic interpretability: el espacio de activación de un LLM resulta estar estructurado. Diferentes conceptos — ira, cortesía, confianza, tema de conversación, pertenencia al idioma — se codifican como direcciones relativamente lineales en este espacio multidimensional. Encontrar el vector correcto significa obtener una palanca directa de control sin cambiar pesos.

Un vector de steering se obtiene mediante el método contrastivo: se toman ejemplos con la propiedad deseada y sin ella, se ejecutan ambos conjuntos a través del modelo, se calcula la diferencia entre las activaciones medias. El vector resultante se suma a las activaciones de la capa deseada con un coeficiente de escala.

Tres Enfoques para la Implementación

El tutorial examina tres herramientas con niveles crecientes de abstracción:

  • pytorch-hooks — `register_forward_hook` intercepta el tensor de activación de la capa seleccionada, se suma el vector, el tensor modificado se devuelve al gráfico de computación. Control máximo, dependencias mínimas.
  • nnsight — una biblioteca con sintaxis declarativa. El código de intervención se lee casi como pseudocódigo directo — conveniente para experimentos en notebooks Jupyter.
  • pyvene — un framework de alto nivel para causal interpretability. Admite experimentos reproducibles y cambio fácil entre capas de transformador.

La elección de herramienta depende de la tarea: pytorch-hooks es apropiado cuando se necesita control total; nnsight — para código de investigación legible; pyvene — para análisis causal estructurado.

Dónde se Aplica Steering

La demostración del tutorial — cambiar el modelo hacia hate-speech. La elección es intencionalmente incómoda: demuestra claramente que la intervención funciona. Al mismo tiempo, las mismas herramientas se utilizan para detectar y neutralizar comportamiento indeseable — steering funciona en ambas direcciones.

Direcciones prácticas de aplicación:

  • Investigación de alignment: estudiar qué conceptos se codifican en la red neuronal y cuán separables son
  • Safety red-teaming: verificar si el comportamiento indeseable puede activarse sin datos de entrenamiento
  • Interpretability: determinar qué capas de transformador son responsables de propiedades semánticas específicas
  • Edición sin fine-tuning: eliminar o amplificar un patrón mediante intervención dirigida

Qué Significa Esto

Hace apenas algunos años, Activation Steering era una herramienta de laboratorios académicos — la utilizaron investigadores de Anthropic, DeepMind y EleutherAI en trabajos de mechanistic interpretability. La aparición de nnsight y pyvene redujo la barrera de entrada al nivel del código pytorch ordinario. Un tutorial en idioma ruso en Habr es un caso raro en que un tema tan especializado recibe una explicación de calidad sin barrera del idioma. Para equipos que trabajan en la seguridad y alineación de modelos de lenguaje, dominar steering se convierte en una habilidad práctica, no un ejercicio académico.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…