Aprendizado subliminar: redes neurais lembram do esquecido?

Q: Источник материала?

Оригинальная публикация на Habr AI. Hamidun News обрабатывает и адаптирует материалы с помощью AI.

Q: Когда опубликовано?

2026-01-22. Время чтения: 2 мин.

Исследование показывает, что полное удаление информации из нейросети при дообучении практически невозможно. Эффект связности мод и структурный импринтинг сохран

ЖХ

Редакция Hamidun News

AI‑мониторинг · Habr AI

2026-01-22· 2 мин

Aprendizado subliminar: redes neurais lembram do esquecido? — Источник: Habr AI. Коллаж: Hamidun News.

В предыдущих статьях мы затрагивали тему сублиминального обучения в нейронных сетях, поднимая больше вопросов, чем давая ответов. Пришло время углубиться в этот феномен, опираясь на новые эксперименты и анализ кода. Один из ключевых вопросов в области AI Alignment и безопасности больших языковых моделей (LLM) заключается в следующем: является ли дообучение (Fine-tuning) или обучение с подкреплением на основе обратной связи от человека (RLHF) надежным способом удаления нежелательной или опасной информации, изначально заложенной в модель?

Эксперименты показывают, что известный эффект связности мод (Mode Connectivity) делает полное стирание информации, полученной на этапе предварительного обучения, практически невозможным при стандартном дообучении. Суть в том, что структурный «отпечаток» (импринтинг) сохраняется в топологии весов нейронной сети и может быть считан через своего рода «сублиминальный» канал. Даже при полной разморозке весов (то есть, возможности изменения всех параметров сети) и применении агрессивной L2-регуляризации, направленной на активное «забывание» старых знаний, топология латентного пространства, сформированная на этапе предварительного обучения, сохраняется и продолжает оказывать существенное влияние на решение новой задачи. Точность воспроизведения старых знаний, казалось бы, удаленных, может достигать 88-99%.

Этот эффект связности мод можно объяснить следующим образом: ландшафт потерь нейронной сети (то есть, функция, которую она пытается минимизировать в процессе обучения) имеет сложную структуру с множеством локальных минимумов. Каждый из этих минимумов соответствует определенной «моде» или способу решения задачи. Связность мод означает, что эти минимумы соединены между собой «путями» с относительно низкой потерей, что позволяет модели переключаться между различными режимами работы, сохраняя при этом общую структуру знаний.

Импликации этого открытия для безопасности и надежности LLM огромны. Если нежелательная информация не может быть полностью удалена, то существует риск ее «проявления» в самый неподходящий момент, например, при генерации текста, взаимодействии с пользователем или принятии решений. Это особенно опасно в контексте моделей, используемых в критически важных областях, таких как здравоохранение, финансы или правосудие.

Более того, результаты исследования ставят под сомнение эффективность существующих методов AI Alignment, направленных на контроль и управление поведением LLM. Если модель сохраняет скрытые знания, которые не поддаются прямому контролю, то необходимо разрабатывать новые, более совершенные методы, учитывающие этот эффект сублиминального обучения.

Одним из возможных направлений является разработка архитектур нейронных сетей, которые более устойчивы к сохранению нежелательной информации. Другим – разработка более эффективных методов дообучения, которые позволяют не только адаптировать модель к новой задаче, но и активно «забывать» старые знания, не разрушая при этом ее общую структуру.

В заключение, исследование сублиминального обучения в нейронных сетях подчеркивает, что дообучение и RLHF не являются панацеей от нежелательной информации. Структурный импринтинг в топологии весов сохраняется и может быть активирован. Это требует разработки новых подходов к AI Alignment, учитывающих этот эффект и направленных на создание более безопасных и надежных LLM.

ЖХ

Hamidun News

AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Telegram-канал RSS hamidun.com