MarkTechPost→ оригинал

Sakana AI научилась мгновенно адаптировать языковые модели без дообучения

Японская компания Sakana AI представила два прорывных метода адаптации больших языковых моделей: Doc-to-LoRA и Text-to-LoRA. Оба подхода используют гиперсети, к

Sakana AI научилась мгновенно адаптировать языковые модели без дообучения
Источник: MarkTechPost. Коллаж: Hamidun News.

Одна из самых дорогих и неудобных процедур в работе с большими языковыми моделями — их адаптация под конкретные задачи. Хотите, чтобы модель разбиралась в вашей внутренней документации? Готовьтесь к долгому и ресурсоёмкому дообучению. Или загружайте тонны текста прямо в контекстное окно, жертвуя скоростью и деньгами на каждый запрос. Токийская лаборатория Sakana AI предложила третий путь, который может изменить саму экономику работы с LLM.

В двух свежих исследовательских работах компания представила методы Doc-to-LoRA и Text-to-LoRA — подходы, построенные на так называемых гиперсетях. Идея элегантна в своей простоте: вместо того чтобы каждый раз заново обучать модель или перегружать её контекстное окно, специальная нейросеть-генератор мгновенно создаёт компактный адаптер LoRA, который «впитывает» нужные знания и встраивается в базовую модель. Процесс занимает доли секунды и не требует ни единого шага градиентного спуска.

Чтобы понять масштаб проблемы, которую решает Sakana AI, стоит вспомнить текущее положение дел. Сегодня существуют два основных способа заставить языковую модель работать с новой информацией. Первый — In-Context Learning, когда нужные данные просто вставляются в промпт. Это гибко, но крайне неэффективно: каждый запрос обходится дороже, контекстное окно ограничено, а модель на самом деле не «запоминает» информацию — она лишь временно на неё ссылается. Второй путь — Supervised Fine-Tuning или Context Distillation, когда модель проходит полноценное дообучение на новых данных. Результат надёжнее, но процесс занимает часы или дни, требует GPU-кластеров и инженерной экспертизы. Для каждого нового набора данных приходится повторять всё заново.

Sakana AI предлагает элегантный обход этого компромисса через амортизацию затрат. Doc-to-LoRA работает с документами: вы подаёте на вход текст — техническую документацию, юридический контракт, медицинскую карту — и гиперсеть за один проход генерирует набор низкоранговых адаптеров, которые фактически «кодируют» содержание документа в весах модели. После этого модель отвечает на вопросы по документу так, будто прошла полноценное дообучение, но без единой итерации обучения. Text-to-LoRA идёт ещё дальше: адаптер генерируется не из документа, а из текстовой инструкции на естественном языке. Вы описываете словами, как должна вести себя модель — и гиперсеть превращает это описание в конкретные изменения весов. По сути, это zero-shot адаптация через естественный язык.

Технически оба метода опираются на архитектуру LoRA — Low-Rank Adaptation, — ставшую стандартом де-факто для лёгкой настройки LLM. Вместо модификации всех миллиардов параметров модели LoRA добавляет компактные матрицы-адаптеры, которые корректируют поведение модели с минимальными вычислительными затратами. Инновация Sakana AI в том, что эти адаптеры больше не нужно обучать — их генерирует отдельная нейросеть, натренированная на огромном разнообразии задач адаптации. Гиперсеть учится «понимать», какие именно изменения весов соответствуют тому или иному набору знаний или поведенческому паттерну.

Последствия для индустрии могут оказаться весьма серьёзными. Сейчас кастомизация LLM — это удел компаний с серьёзными ML-командами и бюджетами на вычисления. Если подход Sakana AI масштабируется, адаптация моделей станет доступна буквально через API-вызов: загрузил документ — получил специализированную модель. Это может радикально изменить рынок enterprise-решений на базе AI, где главный барьер — не сама технология, а стоимость и сложность её настройки под конкретного клиента. Кроме того, мгновенная генерация адаптеров открывает путь к динамической персонализации: модель может переключаться между «экспертизами» на лету, подстраиваясь под каждого пользователя или каждую задачу в реальном времени.

Впрочем, остаются открытые вопросы. Насколько качество таких мгновенно сгенерированных адаптеров сопоставимо с результатами полноценного файн-тюнинга на больших и сложных наборах данных? Как метод справляется с противоречивой или зашумлённой информацией? Как масштабируется на модели с сотнями миллиардов параметров? Sakana AI — компания, известная своим биологически инспирированным подходом к AI и амбициозными заявлениями, но пока не все её разработки прошли проверку масштабом реального продакшена.

Тем не менее направление, заданное Doc-to-LoRA и Text-to-LoRA, выглядит как логичный следующий шаг в эволюции работы с языковыми моделями. Индустрия постепенно движется от парадигмы «обучи одну модель на всё» к гибким, модульным системам, где адаптация происходит мгновенно и дёшево. Sakana AI, похоже, нащупала один из самых перспективных маршрутов к этому будущему.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…