MarkTechPost→ оригинал

Ученые создали MEMO — фреймворк для расширения памяти LLM без переобучения

Исследователи из MIT, NUS и A*STAR создали MEMO — фреймворк, позволяющий LLM расширять знания через отдельный модуль памяти. Параметры основной языковой модели

Ученые создали MEMO — фреймворк для расширения памяти LLM без переобучения
Источник: MarkTechPost. Коллаж: Hamidun News.
◐ Слушать статью

Исследователи из Национального университета Сингапура (NUS), MIT и A*STAR представили MEMO — модульный фреймворк, который позволяет языковым моделям быстро обучаться на новых знаниях без переобучения основной модели.

Проблема масштабирования знаний

Современные большие языковые модели обучаются на огромных наборах данных и хранят полученные знания в своих параметрах. Когда необходимо добавить новые знания — например, данные из корпоративной базы, медицинские справочники или актуальную информацию о последних событиях — традиционный подход требует полного переобучения модели. Это означает месяцы вычислений, миллионы долларов затрат и огромное потребление энергии. Кроме того, при переобучении основная модель может "разучиться" тому, что она уже знала — явление, известное как катастрофальное забывание.

Как работает MEMO MEMO предлагает элегантное решение: отдельный

обучаемый модуль, который называют "моделью памяти". Вместо того чтобы трогать параметры основной LLM, новые знания кодируются в этот выделенный модуль, который работает как дополнительный слой памяти, расширяющий возможности модели без её переделки. Архитектура MEMO состоит из нескольких модульных компонентов: Основная LLM (заморожена) — генерирует текст как обычно, без каких-либо изменений параметров Модель памяти — компактный обучаемый модуль, который запоминает новые факты и знания из корпуса Интеграционный модуль — соединяет память с основной моделью при генерации ответов пользователю Механизм поиска — находит релевантные факты из памяти в момент inference для контекстуализации * Учебный pipeline — обновляет только параметры модуля памяти, оставляя LLM нетронутой ## Практические преимущества Такой подход даёт компаниям и исследователям несколько ключевых преимуществ.

Во-первых, это радикальная экономия вычислительных ресурсов — переобучать нужно только компактный модуль памяти, а не многомиллиардную LLM с сотнями миллиардов параметров. Во-вторых, основная модель остаётся стабильной: её исходное поведение и ранее полученные знания не размываются при добавлении новых фактов. В-третьих, можно быстро обновлять знания за часы или дни, а не за месяцы кропотливых циклов переобучения.

Для корпоративного применения это означает возможность дешево и быстро адаптировать готовые LLM под свои задачи — добавлять специфичные для домена знания, обновлять информацию в реальном времени в ответ на новые события, создавать персонализированные вариации моделей для разных продуктов и клиентов.

Что это значит MEMO — ещё один важный шаг в сторону модульных архитектур для AI.

Вместо того чтобы считать большую языковую модель неделимым чёрным ящиком, который нужно полностью переучивать при каждом обновлении знаний, исследователи показывают, что память и исходные способности можно отделить друг от друга. Это открывает путь к более гибким, дешевым и экономичным способам развития и адаптации языковых моделей.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Что вы думаете?
Загружаем комментарии…