Apple ML Research→ оригинал

Apple ML Research предложила MemoryLLM — интерпретируемую «память» для трансформеров

Apple ML Research опубликовала статью о MemoryLLM — методе, который отделяет блоки прямого распространения (FFN) от механизма самовнимания в трансформерах…

AI-обработка оригинала Apple ML Research; редакция Hamidun News
Apple ML Research предложила MemoryLLM — интерпретируемую «память» для трансформеров
Источник: Apple ML Research. Коллаж: Hamidun News.
◐ Слушать статью

Исследовательское подразделение Apple ML Research опубликовало статью MemoryLLM, в которой предлагается новый метод анализа блоков прямого распространения (FFN) в трансформерных языковых моделях. Авторы рассматривают FFN как «контекстно-свободную нейронную память поиска» и исследуют, как именно входные токены обращаются к ячейкам этой памяти и насколько она важна для разных задач.

Почему FFN называют «памятью» модели Большие языковые модели построены на архитектуре трансформера.

Каждый слой включает два ключевых блока: механизм самовнимания (self-attention), который сравнивает токены между собой, и блок прямого распространения (feed-forward network, FFN), роль которого долго оставалась неясной. Авторы MemoryLLM предлагают рассматривать FFN как нейронную базу данных: параметры сети хранят знания, а входные токены «запрашивают» нужную информацию по принципу «ключ — значение». Отсюда и термин — «контекстно-свободная токен-ориентированная нейронная память поиска»: FFN обрабатывает каждый токен независимо от его окружения, не используя информацию о соседних словах. Похожая интерпретация FFN обсуждалась в академических работах раньше, но MemoryLLM переводит её в конкретный аналитический инструмент.

Что именно исследует

MemoryLLM Центральная идея — декаплинг: авторы отделяют FFN от self-attention, чтобы изучить оба компонента в изоляции. В стандартном трансформере они работают в связке, и разграничить их вклады непросто. В рамках предложенного подхода изучается: Как конкретные входные токены обращаются к конкретным «ячейкам» внутри параметров FFN Насколько важна FFN-память для разных downstream-задач — классификации, генерации, ответов на вопросы * Поддаётся ли поведение FFN интерпретируемому описанию, или это по-прежнему «чёрный ящик» Декаплинг позволяет задавать более точные вопросы: где именно в параметрах хранится конкретный факт, как модель обращается к грамматическим правилам или знаниям о мире и меняется ли «топография памяти» в зависимости от задачи.

Зачем это нужно практикам

Интерпретируемость — одна из центральных нерешённых проблем современного AI. Языковые модели демонстрируют впечатляющие результаты, но механика их решений непрозрачна. Это создаёт риски при внедрении в чувствительных областях: медицине, праве, финансах.

Если FFN поддаётся описанию как управляемая память, это открывает несколько практических направлений: Точечное редактирование знаний — удаление устаревших фактов или исправление ошибок без полного переобучения модели Более эффективный fine-tuning — зная, какие параметры отвечают за конкретные знания, можно дообучать только нужные части сети * Верификация поведения — проверка того, что модель опирается на корректные данные, а не на артефакты обучающей выборки ## Что это значит Apple ML Research наращивает присутствие в фундаментальных AI-исследованиях — и MemoryLLM вписывается в тренд на механистическую интерпретируемость (mechanistic interpretability), который активно развивают Anthropic, DeepMind и крупные академические группы. Если декаплинг FFN и self-attention окажется воспроизводимым и практически применимым, он может войти в стандартный набор инструментов анализа языковых моделей — и приблизить нас к AI, который не просто работает, но и объясняет почему.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Хотите не читать про ИИ, а внедрить его?

«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.

Что вы думаете?
Загружаем комментарии…