MarkTechPost showed how to build an LLM system with self-evaluation, confidence, and web search
A practical breakdown has appeared of an LLM system that does more than just answer: it shows its confidence level in the response. The setup works in three ste

Вышел практический разбор uncertainty-aware LLM-системы: модель в такой схеме не просто отвечает на запрос, а сразу показывает, насколько сама уверена в результате. Основа подхода — трехшаговый пайплайн, где после первого ответа запускаются самооценка и, при необходимости, автоматический веб-поиск для перепроверки. Материал интересен тем, что фокусируется не на теории, а на прикладной реализации такого контура.
Как работает пайплайн
Идея проста: не заставлять модель говорить с одинаковой уверенностью обо всём подряд. На первом шаге LLM генерирует обычный ответ, но вместе с ним возвращает числовую оценку уверенности и короткое объяснение, почему считает этот ответ сильным или, наоборот, сомнительным. Это превращает систему из чёрного ящика в более управляемый инструмент: разработчик получает не только текст, но и сигнал о качестве, который можно использовать в логике приложения и в маршрутизации запроса.
- Сначала модель формирует ответ на запрос.
- Затем выставляет себе confidence score и добавляет краткую аргументацию.
- После этого проходит отдельный этап self-evaluation, где проверяет собственные выводы.
- Если уверенность низкая или найденные слабые места существенны, система уходит во внешний веб-поиск и собирает дополнительные факты. На финальном этапе пайплайн может пересобрать ответ уже с учетом найденной информации. То есть модель не только признает неопределенность, но и получает встроенный механизм, как с ней работать: сначала оценить риск ошибки, затем попытаться его снизить, а не выдавать слишком уверенный текст с первого захода. По сути, сомнение здесь становится явной частью архитектуры, а не скрытой проблемой внутри модели.
Зачем нужна самооценка Для LLM это важный сдвиг.
Большинство чат-ботов и AI-ассистентов по умолчанию стараются звучать убедительно, даже когда данных не хватает. Из-за этого одинаково гладко выглядят и сильные ответы, и галлюцинации. Самооценка в отдельном шаге добавляет слой внутреннего контроля: система сверяет собственную логику, ищет пробелы в аргументации и может понять, что ей не хватает фактов до того, как ответ увидит пользователь.
Такой режим особенно полезен там, где цена ошибки выше обычной: в аналитике, корпоративном поиске, support-инструментах, research-ассистентах и внутренних copilot-сценариях. Вместо бинарной схемы «ответ есть или нет» появляется более реалистичная модель поведения. Если уверенность высокая, ответ можно отдавать сразу.
Если средняя — маркировать его как предварительный. Если низкая — автоматически переключать систему на поиск, повторный прогон или эскалацию человеку. Это удобно и на уровне интерфейса: пользователю можно показывать не только ответ, но и степень его надежности.
Что меняется для разработчиков С инженерной точки зрения материал
интересен тем, что описывает не новую модель, а архитектурный паттерн. Его можно использовать поверх уже существующих LLM, добавив несколько простых уровней оркестрации: сбор confidence score, пороги принятия решений, self-check и модуль веб-исследования. Такой подход хорошо сочетается с RAG-системами, внутренними базами знаний и агентными сценариями, где модели регулярно приходится отвечать на неполных или быстро устаревающих данных.
Такой подход не обещает магического исчезновения ошибок, но дает командам понятные рычаги управления качеством, стоимостью и скоростью ответа. У такого дизайна есть и компромиссы. Дополнительные этапы делают ответ медленнее и дороже, а качество веб-поиска зависит от свежести источников и того, насколько хорошо система умеет отбирать релевантные страницы.
Кроме того, нельзя безоговорочно доверять даже собственной оценке модели: confidence score полезен как сигнал, но не как абсолютная гарантия. Поэтому лучший результат дает связка из порогов, логирования, оценки на реальных кейсах и регулярной проверки того, когда система зря уходит в поиск, а когда, наоборот, слишком рано отвечает сама.
Что это значит
Индустрия постепенно уходит от идеи «один промпт — один ответ» к более зрелым AI-системам, которые умеют сомневаться, перепроверять себя и добирать данные извне. Для продуктовых команд это практичный путь к более надежным ассистентам без обязательной смены базовой модели и без полного пересмотра существующего стека.