Habr AI→ original

Aprendizaje subliminal: ¿las redes neuronales recuerdan lo olvidado?

En artículos anteriores, abordamos el tema del aprendizaje subliminal en redes neuronales, planteando más preguntas que proporcionando respuestas. Es hora de…

Procesado por IA desde Habr AI; editado por Hamidun News
Aprendizaje subliminal: ¿las redes neuronales recuerdan lo olvidado?
Fuente: Habr AI. Collage: Hamidun News.
◐ Escuchar artículo

En artículos anteriores, abordamos el tema del aprendizaje subliminal en redes neuronales, planteando más preguntas que proporcionando respuestas. Es hora de profundizar en este fenómeno, apoyándose en nuevos experimentos y análisis de código. Una de las preguntas clave en el campo de la Alineación de IA y la seguridad de grandes modelos de lenguaje (LLMs) es la siguiente: ¿es el ajuste fino (fine-tuning) o el entrenamiento con aprendizaje por refuerzo a partir de retroalimentación humana (RLHF) una forma confiable de eliminar información no deseada o peligrosa inicialmente incrustada en el modelo?

Los experimentos muestran que el conocido efecto de conectividad de modos hace prácticamente imposible el borrado completo de información obtenida durante la etapa de preentrenamiento con ajuste fino estándar. La esencia es que la "huella" estructural (imprinting) se conserva en la topología de los pesos de la red neuronal y puede leerse a través de una especie de canal "subliminal". Incluso con descongelamiento completo de parámetros (es decir, la capacidad de cambiar todos los parámetros de la red) y la aplicación de regularización L2 agresiva, dirigida al "olvido" activo del conocimiento antiguo, la topología del espacio latente formado durante el preentrenamiento se conserva y continúa teniendo un impacto sustancial en la resolución de la nueva tarea.

La precisión de reproducir conocimiento antiguo, aparentemente eliminado, puede alcanzar 88-99%.

Este efecto de conectividad de modos puede explicarse de la siguiente manera: el paisaje de pérdida de una red neuronal (es decir, la función que intenta minimizar durante el entrenamiento) tiene una estructura compleja con muchos mínimos locales. Cada uno de estos mínimos corresponde a un "modo" específico o forma de resolver una tarea. La conectividad de modos significa que estos mínimos están conectados por "caminos" con pérdida relativamente baja, permitiendo que el modelo cambie entre diferentes modos de operación mientras preserva la estructura general del conocimiento.

Las implicaciones de este descubrimiento para la seguridad y confiabilidad de los LLMs son enormes. Si la información no deseada no puede eliminarse completamente, existe el riesgo de su "manifestación" en el momento más inapropiado, por ejemplo, durante la generación de texto, interacción con el usuario o toma de decisiones. Esto es especialmente peligroso en el contexto de modelos utilizados en áreas críticas como la salud, las finanzas o la justicia.

Además, los resultados de la investigación cuestionan la efectividad de los métodos existentes de Alineación de IA dirigidos a controlar y gestionar el comportamiento del LLM. Si el modelo retiene conocimiento oculto que no está sujeto a control directo, es necesario desarrollar nuevos métodos más avanzados que tengan en cuenta este efecto de aprendizaje subliminal.

Una posible dirección es el desarrollo de arquitecturas de redes neuronales que sean más resistentes a la retención de información no deseada. Otra es el desarrollo de métodos de ajuste fino más eficientes que permitan no solo adaptar el modelo a una nueva tarea, sino también "olvidar" activamente el conocimiento antiguo sin destruir su estructura general.

En conclusión, la investigación sobre aprendizaje subliminal en redes neuronales enfatiza que el ajuste fino y RLHF no son una panacea para la información no deseada. La huella estructural en la topología de pesos se conserva y puede activarse. Esto requiere el desarrollo de nuevos enfoques para la Alineación de IA que tengan en cuenta este efecto y estén dirigidos a crear LLMs más seguros y confiables.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…