Habr AI→ оригинал

BorisovAI اختبرت MoE على RTX 4090 وأظهرت لماذا تُفسد perplexity تقييم LLM

أجرت BorisovAI 22 تجربة على بنية MoE يُضاف فيها خبراء جدد إلى نموذج مجمّد كـ plugins. وعلى بطاقة RTX 4090 واحدة، لم يسبب هذا النهج أي تدهور وخفّض perplexity بقو

BorisovAI اختبرت MoE على RTX 4090 وأظهرت لماذا تُفسد perplexity تقييم LLM
Источник: Habr AI. Коллаж: Hamidun News.

BorisovAI опубликовала разбор 22 экспериментов с архитектурой MoE, в которой новые эксперты подключаются поверх замороженной языковой модели как плагины. На одной RTX 4090 схема показала почти идеальную инженерную картинку: нулевая деградация старых навыков, точная маршрутизация и заметное снижение перплексии. Но когда систему проверили на математическом бенчмарке, выяснилось, что красивая метрика может вести совсем не туда.

Как устроили схему

Исследователь заморозил базовую модель целиком и добавил к каждому MLP-слою небольшой обучаемый эксперт, а сверху — маршрутизатор примерно на 37 тысяч параметров. Логика простая: backbone не трогают, новый навык обучают отдельно, а затем дообучают только маршрутизатор, чтобы он отправлял нужные токены в нужный эксперт. На обучение одного нового домена уходило около получаса: примерно 15 минут на изолированного эксперта и ещё 15 минут на интеграцию в общую систему.

На трёх масштабах схема выглядела очень убедительно и почти без компромиссов: GPT-2 124M с 4 доменами снизила перплексию на 33,4% Pythia-410M с 6 доменами снизила перплексию на 34,3% Pythia-1B с 8 доменами снизила перплексию на 31,2% Точность маршрутизации дошла до 96%, а деградация старых навыков осталась на уровне 0,000% Дополнительно автор проверил несколько популярных приёмов, которые часто советуют для MoE. Штрафы за балансировку нагрузки сделали результат хуже на 11–27%, а совместное обучение экспертов и маршрутизатора привело к коллапсу качества. Лучше всего сработала безлоссовая балансировка: она позволила держать все эксперты «живыми» без отдельного дополнительного лосса.

На этом этапе всё выглядело как сильный аргумент в пользу модульных LLM, где новые способности можно подключать без полного переобучения.

Где сломалась метрика

Проблемы начались, когда архитектуру перенесли на Qwen 2.5 3B и попробовали добавить математического эксперта. По внутренним метрикам всё снова было отлично: перплексия на математических текстах снизилась на 23,9%, междоменный разрыв вырос в 64,9 раза, а маршрутизатор выбирал нужного эксперта практически без ошибок. Но на GSM8K, который проверяет именно способность решать школьные текстовые задачи, модель упала с 74,4% до 65,8%.

«Модель, которая говорит на языке математики, совершенно не умеет решать задачи».

Это ключевой вывод всей работы. Эксперт, обученный на учебниках и статьях, действительно освоил статистику математического языка: где обычно стоят формулы, какие термины идут рядом и как выглядит «правильный» текст из этой области. Но GSM8K требует не узнавания стиля, а цепочки рассуждений. Поэтому снижение перплексии здесь измеряло не реальное улучшение мышления, а просто лучшее моделирование доменного текста. Исследователь отдельно перепроверил альтернативы — разморозку верхних слоёв, совместное обучение и двухфазную схему, — но все варианты оставались примерно на тех же минус 8,4–8,6 процентного пункта.

Что сработало лучше Рабочий поворот произошёл после самодистилляции.

Вместо сырых математических текстов эксперт начали учить на пошаговых решениях, которые сама базовая модель уже смогла получить правильно. Для этого взяли 750 задач GSM8K: модель решила 638 из них, и из этих решений собрали датасет на 119 тысяч токенов. Это в 33 раза меньше, чем корпус из 4 миллионов токенов учебников и статей, но формат оказался гораздо ближе к реальному инференсу.

Результат поменялся местами с ожиданиями. После такого обучения GSM8K вырос до 75,5%: это на 1,1 процентного пункта выше базовой модели и на 9,7 пункта лучше, чем вариант с сырым математическим текстом. При этом перплексия, наоборот, ухудшилась на 17,8%.

Дополнительно выяснилось, что даже упаковка данных имеет значение: формат «вопрос/ответ» дал ещё на 2–3 пункта больше, чем более академичный формат «задача/решение». Иными словами, полезнее учить эксперта под форму будущего использования, а не под абстрактно «качественный» корпус. Попытка превратить этот подход в цикл самоулучшения не взлетела.

Первые прогоны намекали на рост с 75,5% до 76,0%, но после фиксации seed и расширения выборки эффект оказался статистическим шумом. При холодном старте новый эксперт быстро выходил на плато, а при тёплом старте качество даже падало, потому что между циклами повторялось слишком много одних и тех же задач и эксперт переобучался. Отдельно провалилось и label smoothing: на математике оно отняло ещё около 9 пунктов.

Что это значит Для разработчиков LLM здесь сразу два практических вывода.

Во-первых, модульная архитектура с подключаемыми экспертами действительно может добавлять доменные навыки без катастрофического забывания. Во-вторых, оценивать такие системы по перплексии опасно: она может улучшаться ровно в тот момент, когда модель начинает хуже рассуждать. Если задача связана с логикой, кодом или математикой, главным критерием должны быть поведенческие бенчмарки, а не только красивые языковые метрики.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…