AWS Machine Learning Blog→ оригинал

AWS et Artificial Genius ont démontré comment réduire les hallucinations des LLM en finance et médecine

AWS et Artificial Genius ont proposé un schéma pour les banques, la médecine et autres secteurs régulés où LLM ne génère pas une réponse mais l'extrait ou la vé

AWS et Artificial Genius ont démontré comment réduire les hallucinations des LLM en finance et médecine
Источник: AWS Machine Learning Blog. Коллаж: Hamidun News.

AWS вместе с партнером Artificial Genius показала, как адаптировать большие языковые модели для задач, где ошибка недопустима. В основе подхода — Amazon Nova и SageMaker, но ключевая идея не в новом размере модели, а в том, чтобы использовать её понимание языка без свободной генерации ответа.

Почему это проблема

Для финансовых сервисов, медицины, страхования и юридических процессов обычные LLM до сих пор выглядят рискованно. Они хорошо пишут, суммируют и объясняют, но по своей природе остаются вероятностными системами: модель предсказывает следующий токен, а не извлекает гарантированно верный факт. Из-за этого возникают галлюцинации — ответы, которые звучат убедительно, но не подтверждаются исходными данными.

В среде, где важны аудит, воспроизводимость и ответственность, такой режим работы плохо совместим с продакшеном. Авторы статьи предлагают смотреть на эволюцию AI в три шага. Первая волна строилась на символической логике и жестких правилах: такие системы были детерминированными, но слишком негибкими.

Вторая волна, к которой относятся современные трансформеры, дала огромный скачок в беглости и понимании языка, но принесла с собой непредсказуемость. Artificial Genius называет свой подход третьим поколением: модель по-прежнему понимает естественный язык как современный LLM, но итоговый ответ проходит через детерминированную логику и не должен выходить за пределы того, что реально есть во входном контексте.

Как работает схема

Главный тезис AWS и Artificial Genius звучит так: генеративную модель можно использовать строго негенеративно. То есть она не "додумывает" ответ по вероятности следующего токена, а проверяет, можно ли извлечь его из документа, и если нельзя — отказывается отвечать. Такой режим особенно полезен для вопросов вроде дат, сумм, имен, выдержек из отчета или подтверждения конкретного факта.

В статье это формулируется очень прямо: > «Если на вопрос нельзя ответить по документу, модель должна ответить: "Unknown"». в качестве базовой модели выбрали Amazon Nova Lite, потому что она лучше подходит для коротких и четких ответов без лишней разговорности; дообучение идет в SageMaker через supervised fine-tuning, чтобы модель следовала одному системному правилу — ничего не выдумывать; для обучения используют синтетический набор вопросов и ответов, где есть как отвечаемые, так и заведомо неотвечаемые запросы; вместо классического RAG, который все равно остается генеративным, упор сделан на более тесную связку между текстом документа и конкретным вопросом; * сверху это упаковано в агентную платформу, где свободный запрос можно перевести в более строгую спецификацию, а единственная ручная проверка остается на этапе такого перевода. Важная деталь: авторы отдельно противопоставляют свой метод привычному совету «поставьте temperature в ноль».

По их версии, это не решает корневую проблему, потому что модель все равно продолжает генерировать. В их варианте меняется не просто степень случайности, а сама логика использования модели: вероятностное понимание сохраняется на входе, а на выходе система стремится к бинарному режиму — ответить только тем, что подтверждается текстом, либо честно сказать, что ответа нет.

Что показали тесты Технически схема выглядит довольно приземленно и потому интересна.

Данные обучения хранятся в Amazon S3, дообучение базовой Nova-модели идет в SageMaker Training Jobs, а затем кастомная версия импортируется в Amazon Bedrock и отдается приложению через стандартный inference-контур. Для корпоративных команд это важно не только из-за удобства, но и из-за прозрачной линии данных: легче понять, на чем модель обучали, где она была изменена и как ее потом развернули в проде. Команда также раскрыла несколько инженерных выводов.

Для fine-tuning использовали LoRA, чтобы не ломать базовое языковое понимание модели. В предыдущих экспериментах на другой модели пришлось даже принудительно гасить chain-of-thought через служебный токен `</think>`, потому что развернутые рассуждения мешали кратким детерминированным ответам. Для версии на Nova Lite авторы комбинировали LoRA dropout на уровне 50%, ручной early stopping и расширение синтетического датасета до 30 тысяч примеров.

По их данным, это снизило частоту галлюцинаций с процентов и долей процента в ранних конфигурациях до 0,03% в лучшем варианте.

Что это значит История важна не только для пользователей AWS.

Она показывает более широкий сдвиг: рынок начинает искать не просто самые «умные» LLM, а модели с инженерно заданными рамками поведения. Для банков, страховых, клиник и legal-tech это сигнал, что внедрение AI все чаще будет строиться вокруг проверяемости, отказа от ответа и контролируемых workflow, а не вокруг красивой генерации любой ценой.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…