أظهرت AWS و Artificial Genius طريقة لتقليل هلاوس LLM في المالية والطب
اقترحت AWS و Artificial Genius مخطط للمؤسسات المالية والطب والصناعات المنظمة الأخرى حيث لا ينشئ LLM إجابة بل يستخرجها أو يتحقق منها مقابل مستند. تعمل Amazon Nov

AWS вместе с партнером Artificial Genius показала, как адаптировать большие языковые модели для задач, где ошибка недопустима. В основе подхода — Amazon Nova и SageMaker, но ключевая идея не в новом размере модели, а в том, чтобы использовать её понимание языка без свободной генерации ответа.
Почему это проблема
Для финансовых сервисов, медицины, страхования и юридических процессов обычные LLM до сих пор выглядят рискованно. Они хорошо пишут, суммируют и объясняют, но по своей природе остаются вероятностными системами: модель предсказывает следующий токен, а не извлекает гарантированно верный факт. Из-за этого возникают галлюцинации — ответы, которые звучат убедительно, но не подтверждаются исходными данными.
В среде, где важны аудит, воспроизводимость и ответственность, такой режим работы плохо совместим с продакшеном. Авторы статьи предлагают смотреть на эволюцию AI в три шага. Первая волна строилась на символической логике и жестких правилах: такие системы были детерминированными, но слишком негибкими.
Вторая волна, к которой относятся современные трансформеры, дала огромный скачок в беглости и понимании языка, но принесла с собой непредсказуемость. Artificial Genius называет свой подход третьим поколением: модель по-прежнему понимает естественный язык как современный LLM, но итоговый ответ проходит через детерминированную логику и не должен выходить за пределы того, что реально есть во входном контексте.
Как работает схема
Главный тезис AWS и Artificial Genius звучит так: генеративную модель можно использовать строго негенеративно. То есть она не "додумывает" ответ по вероятности следующего токена, а проверяет, можно ли извлечь его из документа, и если нельзя — отказывается отвечать. Такой режим особенно полезен для вопросов вроде дат, сумм, имен, выдержек из отчета или подтверждения конкретного факта.
В статье это формулируется очень прямо: > «Если на вопрос нельзя ответить по документу, модель должна ответить: "Unknown"». в качестве базовой модели выбрали Amazon Nova Lite, потому что она лучше подходит для коротких и четких ответов без лишней разговорности; дообучение идет в SageMaker через supervised fine-tuning, чтобы модель следовала одному системному правилу — ничего не выдумывать; для обучения используют синтетический набор вопросов и ответов, где есть как отвечаемые, так и заведомо неотвечаемые запросы; вместо классического RAG, который все равно остается генеративным, упор сделан на более тесную связку между текстом документа и конкретным вопросом; * сверху это упаковано в агентную платформу, где свободный запрос можно перевести в более строгую спецификацию, а единственная ручная проверка остается на этапе такого перевода. Важная деталь: авторы отдельно противопоставляют свой метод привычному совету «поставьте temperature в ноль».
По их версии, это не решает корневую проблему, потому что модель все равно продолжает генерировать. В их варианте меняется не просто степень случайности, а сама логика использования модели: вероятностное понимание сохраняется на входе, а на выходе система стремится к бинарному режиму — ответить только тем, что подтверждается текстом, либо честно сказать, что ответа нет.
Что показали тесты Технически схема выглядит довольно приземленно и потому интересна.
Данные обучения хранятся в Amazon S3, дообучение базовой Nova-модели идет в SageMaker Training Jobs, а затем кастомная версия импортируется в Amazon Bedrock и отдается приложению через стандартный inference-контур. Для корпоративных команд это важно не только из-за удобства, но и из-за прозрачной линии данных: легче понять, на чем модель обучали, где она была изменена и как ее потом развернули в проде. Команда также раскрыла несколько инженерных выводов.
Для fine-tuning использовали LoRA, чтобы не ломать базовое языковое понимание модели. В предыдущих экспериментах на другой модели пришлось даже принудительно гасить chain-of-thought через служебный токен `</think>`, потому что развернутые рассуждения мешали кратким детерминированным ответам. Для версии на Nova Lite авторы комбинировали LoRA dropout на уровне 50%, ручной early stopping и расширение синтетического датасета до 30 тысяч примеров.
По их данным, это снизило частоту галлюцинаций с процентов и долей процента в ранних конфигурациях до 0,03% в лучшем варианте.
Что это значит История важна не только для пользователей AWS.
Она показывает более широкий сдвиг: рынок начинает искать не просто самые «умные» LLM, а модели с инженерно заданными рамками поведения. Для банков, страховых, клиник и legal-tech это сигнал, что внедрение AI все чаще будет строиться вокруг проверяемости, отказа от ответа и контролируемых workflow, а не вокруг красивой генерации любой ценой.