Este artigo ainda não foi traduzido para o português — exibindo o original em russo.
Apple ML Research→ original

Apple ML Research propôs o MemoryLLM — uma “memória” interpretável para transformadores

A Apple ML Research publicou um artigo sobre o MemoryLLM — um método que separa os blocos feed-forward (FFN) do mecanismo de self-attention em…

Processado por IA de Apple ML Research; editado por Hamidun News
Apple ML Research propôs o MemoryLLM — uma “memória” interpretável para transformadores
Fonte: Apple ML Research. Colagem: Hamidun News.
◐ Ouvir artigo

Исследовательское подразделение Apple ML Research опубликовало статью MemoryLLM, в которой предлагается новый метод анализа блоков прямого распространения (FFN) в трансформерных языковых моделях. Авторы рассматривают FFN как «контекстно-свободную нейронную память поиска» и исследуют, как именно входные токены обращаются к ячейкам этой памяти и насколько она важна для разных задач.

Почему FFN называют «памятью» модели Большие языковые модели построены на архитектуре трансформера.

Каждый слой включает два ключевых блока: механизм самовнимания (self-attention), который сравнивает токены между собой, и блок прямого распространения (feed-forward network, FFN), роль которого долго оставалась неясной. Авторы MemoryLLM предлагают рассматривать FFN как нейронную базу данных: параметры сети хранят знания, а входные токены «запрашивают» нужную информацию по принципу «ключ — значение». Отсюда и термин — «контекстно-свободная токен-ориентированная нейронная память поиска»: FFN обрабатывает каждый токен независимо от его окружения, не используя информацию о соседних словах. Похожая интерпретация FFN обсуждалась в академических работах раньше, но MemoryLLM переводит её в конкретный аналитический инструмент.

Что именно исследует

MemoryLLM Центральная идея — декаплинг: авторы отделяют FFN от self-attention, чтобы изучить оба компонента в изоляции. В стандартном трансформере они работают в связке, и разграничить их вклады непросто. В рамках предложенного подхода изучается: Как конкретные входные токены обращаются к конкретным «ячейкам» внутри параметров FFN Насколько важна FFN-память для разных downstream-задач — классификации, генерации, ответов на вопросы * Поддаётся ли поведение FFN интерпретируемому описанию, или это по-прежнему «чёрный ящик» Декаплинг позволяет задавать более точные вопросы: где именно в параметрах хранится конкретный факт, как модель обращается к грамматическим правилам или знаниям о мире и меняется ли «топография памяти» в зависимости от задачи.

Зачем это нужно практикам

Интерпретируемость — одна из центральных нерешённых проблем современного AI. Языковые модели демонстрируют впечатляющие результаты, но механика их решений непрозрачна. Это создаёт риски при внедрении в чувствительных областях: медицине, праве, финансах.

Если FFN поддаётся описанию как управляемая память, это открывает несколько практических направлений: Точечное редактирование знаний — удаление устаревших фактов или исправление ошибок без полного переобучения модели Более эффективный fine-tuning — зная, какие параметры отвечают за конкретные знания, можно дообучать только нужные части сети * Верификация поведения — проверка того, что модель опирается на корректные данные, а не на артефакты обучающей выборки ## Что это значит Apple ML Research наращивает присутствие в фундаментальных AI-исследованиях — и MemoryLLM вписывается в тренд на механистическую интерпретируемость (mechanistic interpretability), который активно развивают Anthropic, DeepMind и крупные академические группы. Если декаплинг FFN и self-attention окажется воспроизводимым и практически применимым, он может войти в стандартный набор инструментов анализа языковых моделей — и приблизить нас к AI, который не просто работает, но и объясняет почему.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…