تجربة على LLM أظهرت كيف تتشكل «شخصية» النموذج في الفضاء الكامن
نُشر تحليل لتجربة على LLM مكوّنة من وحدات، يجري فيها فصل معنى الإجابة وأسلوبها إلى تمثيلات كامنة مختلفة. ويقول المؤلف إن «embedding للشخصية» المنفصل يتيح بالفعل

В новом отчете об эксперименте с модульной архитектурой LLM автор показал, что отдельный латентный вектор может хранить не только стиль, но и устойчивые особенности подачи. Именно этот слой рассматривается как заготовка того, что можно назвать «эмбеддингом личности» модели.
Проблема среднего ответа В классической авторегрессионной модели
следующий шаг генерации — это распределение вероятностей по словарю. За счет этого у одной и той же реплики может быть много допустимых продолжений, а температура лишь меняет способ выбора внутри уже выученного распределения. В модульной схеме, которую описывает автор, ситуация другая: ядро должно выдать один следующий латентный вектор, который потом декодируется обратно в текст.
Из-за этого в одном компактном представлении приходится ужимать сразу несколько возможных вариантов ответа. На практике это приводит к усреднению. Модель начинает выбирать не яркий и конкретный вариант, а «среднее» продолжение, где сглаживаются интонация, характер и манера объяснения.
Именно здесь и появляется идея отделить содержание от способа подачи. Если семантика отвечает за то, что модель говорит, то отдельный стилевой латент должен отвечать за то, как именно это сказано: сухо или живо, уверенно или осторожно, по шагам или свободным потоком.
Как устроили эксперимент
Для проверки гипотезы автор обучал модель на текстах реальных пользователей так, чтобы она извлекала компактный вектор, описывающий не смысл, а устойчивую манеру речи. Этот вектор затем можно передавать в основную модель через cross-attention. Во время обучения стиль берется из целевого ответа, а на этапе инференса его уже можно задавать отдельно.
По сути, вместо одной ручки в виде температуры появляется набор более точных регуляторов поведения модели. Исследователь отдельно подчеркивает, что задача не сводилась к распознаванию конкретного автора. Цель была другой: получить гладкое пространство признаков, где рядом оказываются тексты людей с похожей манерой речи, даже если они пишут на разные темы.
В таком пространстве начали проявляться несколько осей, которыми можно управлять: формальность против разговорности уверенность против осторожности структурность против спонтанности «инженерная» против более гуманитарной подачи * нейтральный против эмоционально окрашенного тона ## Что показали метрики По данным автора, на синтетическом бенчмарке модель уже довольно уверенно различает отдельные стилевые контрасты. Формальность против разговорности определяется с balanced accuracy 0.93, уверенность против неуверенности — 0.
94, эмпатичная против холодной подачи — 0.93, а свободное изложение против пошагового — 0.92.
В смешанном режиме, где факторов сразу много, результаты ожидаемо ниже, но все равно содержательны: лексическая манера и semantic bias держатся на уровне 0.85 и 0.84, возрастные особенности — 0.
72, эмпатия — 0.73, структура — 0.70.
Отдельно интересно, что пространство признаков не разваливается при комбинации нескольких стилевых сдвигов. Среднее совпадение между предсказанной и реальной композицией таких сдвигов, по словам автора, дошло до cos = 0.97.
Это значит, что модель может одновременно двигаться, например, в сторону более формального, более уверенного и более технического ответа. При этом работа еще не завершена: в латенте остается заметный bias по длине текста, а социальные сигналы вроде возраста, пола или профессии пока выглядят скорее как вероятностный профиль, чем как надежное распознавание.
«Стиль в латенте действительно живет».
Что это значит
Для продуктовых команд это выглядит как переход от грубой настройки температуры к более точному управлению манерой ответа: формальный, мягкий, инженерный, объясняющий. Если подход масштабируется, LLM смогут не просто генерировать текст, а стабильно держать заданный характер общения без копирования содержания конкретного автора. И именно это делает идею «эмбеддинга личности» не метафорой, а вполне рабочей инженерной гипотезой.