Aprendizado subliminar: redes neurais lembram do esquecido?
Исследование показывает, что полное удаление информации из нейросети при дообучении практически невозможно. Эффект связности мод и структурный импринтинг сохран

В предыдущих статьях мы затрагивали тему сублиминального обучения в нейронных сетях, поднимая больше вопросов, чем давая ответов. Пришло время углубиться в этот феномен, опираясь на новые эксперименты и анализ кода. Один из ключевых вопросов в области AI Alignment и безопасности больших языковых моделей (LLM) заключается в следующем: является ли дообучение (Fine-tuning) или обучение с подкреплением на основе обратной связи от человека (RLHF) надежным способом удаления нежелательной или опасной информации, изначально заложенной в модель?
Эксперименты показывают, что известный эффект связности мод (Mode Connectivity) делает полное стирание информации, полученной на этапе предварительного обучения, практически невозможным при стандартном дообучении. Суть в том, что структурный «отпечаток» (импринтинг) сохраняется в топологии весов нейронной сети и может быть считан через своего рода «сублиминальный» канал. Даже при полной разморозке весов (то есть, возможности изменения всех параметров сети) и применении агрессивной L2-регуляризации, направленной на активное «забывание» старых знаний, топология латентного пространства, сформированная на этапе предварительного обучения, сохраняется и продолжает оказывать существенное влияние на решение новой задачи. Точность воспроизведения старых знаний, казалось бы, удаленных, может достигать 88-99%.
Этот эффект связности мод можно объяснить следующим образом: ландшафт потерь нейронной сети (то есть, функция, которую она пытается минимизировать в процессе обучения) имеет сложную структуру с множеством локальных минимумов. Каждый из этих минимумов соответствует определенной «моде» или способу решения задачи. Связность мод означает, что эти минимумы соединены между собой «путями» с относительно низкой потерей, что позволяет модели переключаться между различными режимами работы, сохраняя при этом общую структуру знаний.
Импликации этого открытия для безопасности и надежности LLM огромны. Если нежелательная информация не может быть полностью удалена, то существует риск ее «проявления» в самый неподходящий момент, например, при генерации текста, взаимодействии с пользователем или принятии решений. Это особенно опасно в контексте моделей, используемых в критически важных областях, таких как здравоохранение, финансы или правосудие.
Более того, результаты исследования ставят под сомнение эффективность существующих методов AI Alignment, направленных на контроль и управление поведением LLM. Если модель сохраняет скрытые знания, которые не поддаются прямому контролю, то необходимо разрабатывать новые, более совершенные методы, учитывающие этот эффект сублиминального обучения.
Одним из возможных направлений является разработка архитектур нейронных сетей, которые более устойчивы к сохранению нежелательной информации. Другим – разработка более эффективных методов дообучения, которые позволяют не только адаптировать модель к новой задаче, но и активно «забывать» старые знания, не разрушая при этом ее общую структуру.
В заключение, исследование сублиминального обучения в нейронных сетях подчеркивает, что дообучение и RLHF не являются панацеей от нежелательной информации. Структурный импринтинг в топологии весов сохраняется и может быть активирован. Это требует разработки новых подходов к AI Alignment, учитывающих этот эффект и направленных на создание более безопасных и надежных LLM.