كيف تحول تعليمات النظام الواحدة نموذج اللغة الكبير إلى أداة موثوقة: اختبارات على Qwen و DeepSeek
هلوسة نماذج اللغة الكبيرة ليست حكماً نهائياً. يمكن لمحفز النظام الواحد أن يحول نموذج من 'كاذب واثق' إلى أداة عمل موثوقة. أظهرت الاختبارات على Qwen و DeepSeek: ت

Большие языковые модели врут красиво. Не потому что злые — просто они обучены продолжать текст, а не говорить правду. Там, где у модели нет нужных данных, она генерирует что-то правдоподобное и выдаёт это с уверенностью эксперта.
Для прикладных задач — корпоративных помощников, аналитических инструментов, систем поддержки решений — такое поведение недопустимо. Ошибка, выданная уверенно, хуже ошибки с оговоркой. Автор статьи на Habr предложил простую, но рабочую метафору: LLM нужен экзоскелет.
Не дообучение, не RLHF-раунд, не дорогостоящий файнтюнинг — одна системная инструкция, которая задаёт модели жёсткие правила поведения в ситуациях неопределённости. Тесты проводились на двух наиболее популярных открытых моделях с сильной поддержкой русского языка: Qwen (серия от Alibaba) и DeepSeek — оба активно используются в российских продуктах именно из-за доступности и качества. Суть «экзоскелета» — запретить модели быть самоуверенной там, где она не уверена.
Системная инструкция предписывает несколько ключевых правил. Первое: признавать неопределённость явно — не обходить молчанием, а прямо говорить «я не знаю» или «у меня нет достаточных данных». Второе: уточнять запрос, если он неоднозначен, вместо того чтобы выбирать одну из интерпретаций и отвечать на неё.
Третье: чётко разделять факты, в которых модель уверена, и те, которые она лишь предполагает. Четвёртое: отказываться от ответа в областях, где риск ошибки высок и нет возможности верифицировать информацию изнутри модели. На практике это звучит тривиально.
На практике — работает. После добавления инструкции Qwen и DeepSeek начали значительно чаще признавать границы своих знаний: в тестовых сценариях с намеренно недостаточным или противоречивым контекстом модели переставали «додумывать» и начинали запрашивать уточнения или явно обозначать неопределённость. Уровень уверенных галлюцинаций в этих сценариях снизился заметно.
Почему это неочевидно? Потому что по умолчанию LLM обучена давать полный уверенный ответ — именно за это она получала высокие оценки в RLHF. Человек-оценщик инстинктивно предпочитает развёрнутый уверенный текст короткому «не знаю».
Модель усвоила это предпочтение. В итоге в неё встроено поведение, которое прямо противоположно тому, что нужно в реальном продакшене, где цена ошибки измеряется репутацией или деньгами. Системная инструкция — это способ перезаписать это поведение без изменения весов модели.
По сути, мы навязываем модели эпистемологическую скромность снаружи. Отсюда и метафора экзоскелета: сама модель не меняется внутри, но вокруг неё возникает жёсткая структура поведения, которая направляет реакции в нужную сторону. Важный нюанс: инструкция должна быть конкретной, а не декларативной.
«Будь точным и честным» не работает — модель уже считает себя точной и честной. Работают конкретные ситуации: если в запросе нет достаточного контекста — задай уточняющий вопрос; если ты не уверен в факте — явно это укажи и объясни почему; если вопрос выходит за пределы твоих данных — скажи об этом напрямую. Каждое правило описывает конкретный триггер и конкретное действие в ответ на него.
Разработчики часто боятся, что ограничения снизят полезность модели. В тестах этого не наблюдалось. В сценариях с достаточным контекстом модели работали так же хорошо, как и без инструкции.
Ограничение срабатывало только там, где данных действительно не хватало — именно в тех случаях, где раньше модель галлюцинировала. Для команд, которые строят на LLM внутренние инструменты — корпоративные базы знаний, аналитических помощников, системы документооборота — это практически применимый результат прямо сейчас. Не нужно ждать следующей версии модели, выделять бюджет на файнтюнинг или менять архитектуру.
Достаточно правильно написать системный промпт — и модель начинает вести себя так, как нужно бизнесу, а не так, как её обучили нравиться случайным оценщикам.