AWS Machine Learning Blog→ оригинал

AWS explicou como fazer fine-tuning do Amazon Nova com um LLM como juiz para tarefas corporativas complexas

A AWS mostrou como usar LLM-as-a-judge no reinforcement fine-tuning dos modelos Amazon Nova. Em vez de rotulagem manual, um modelo separado atribui recompensas

AWS explicou como fazer fine-tuning do Amazon Nova com um LLM como juiz para tarefas corporativas complexas
Источник: AWS Machine Learning Blog. Коллаж: Hamidun News.

AWS подробно показала, как применять reinforcement fine-tuning с подходом LLM-as-a-judge для моделей Amazon Nova. Вместо ручной разметки или набора жёстких правил качество ответа оценивает отдельная языковая модель, а её вердикт превращается в reward-сигнал для обучения.

Зачем нужен судья

По версии AWS, обычный RFT можно строить либо на проверяемых правилах вроде точного совпадения строки, либо на схеме, где другая LLM оценивает ответ по нескольким критериям сразу. Второй вариант нужен там, где качество нельзя свести к одной формуле. Для корпоративных задач важны не только фактическая точность, но и тон, безопасность, полнота, релевантность и соответствие внутренним политикам. В этом подходе модель-судья не просто ставит балл, а ещё помогает понять, почему один ответ лучше другого. AWS подчёркивает, что такая схема ускоряет итерации: команда видит, где именно модель срезается, и может быстрее править reward-функцию. Это особенно полезно в областях, где ошибка не выглядит как явный баг, а проявляется в нюансах формулировки, пропущенном риске или слабой аргументации.

Шесть шагов настройки AWS разбивает внедрение LLM-as-a-judge на несколько практических шагов.

Сначала нужно выбрать тип оценки: rubric-based, где судья выставляет абсолютный балл одному ответу, или preference-based, где он сравнивает два варианта и выбирает лучший. Если готовых предпочтений нет, компания советует стартовать с rubric-подхода и простых критериев pass/fail вместо шкалы от 1 до 10.

  • Выбрать режим судейства: абсолютная оценка или попарное сравнение Ясно прописать критерии качества с наблюдаемыми признаками Подобрать judge-модель под домен и бюджет через Amazon Bedrock Требовать структурированный JSON-ответ, чтобы награду можно было надёжно парсить Связать reward-функцию с продовыми метриками и добавить устойчивую Lambda-обвязку Отдельный акцент сделан на инфраструктуре. AWS советует не полагаться только на judge и дополнять его быстрыми детерминированными проверками: валидностью JSON, длиной ответа, соответствием языка и safety-фильтрами. Сама Reward Lambda должна выдерживать тысячи оценок на шаг обучения, поэтому рекомендуются exponential backoff для вызовов Bedrock, параллелизация через ThreadPoolExecutor или async-паттерны, таймаут до 15 минут и provisioned concurrency около 100 для типовых конфигураций. Если судья или API падают, лучше вернуть нейтральную награду, чем сорвать весь тренировочный шаг. Дополнительно советуют держать набор регрессионных тестов для самого judge-пайплайна.

Кейс с договорами В качестве демонстрации AWS описывает проект с партнёром из юридической отрасли.

Задача — автоматически анализировать новые договоры, сравнивать их с внутренними правилами, прошлыми контрактами и требованиями законодательства, а на выходе формировать JSON с комментариями, типами замечаний и рекомендуемыми действиями. Исходный датасет был небольшим и содержал размеченные экспертами контракты, поэтому классическое supervised fine-tuning давало ограниченный эффект. Для RFT использовали отдельную judge-модель GPT OSS 120B и кастомный system prompt.

Судья проверял, действительно ли комментарий опирается на фрагмент самого договора, согласуется ли он с reference-документом и можно ли по нему принять действие. Затем это обернули в Lambda-функцию и запустили обучение через Nova Forge SDK с несколькими генерациями на пример и лимитом конкурентных вызовов 100. В итоге Amazon Nova 2 Lite после RFT получила агрегированный балл 4,33 из 5 и идеальную валидацию JSON-схемы, обойдя Claude Sonnet 4.

5 и Claude Haiku 4.5. AWS отдельно пишет, что у SFT-версий появлялись артефакты вроде повторяющихся комментариев и странных Unicode-символов, а у RFT-чекпоинтов этого не было.

Ещё важнее, что модель сохранила хорошие результаты даже после изменения judge prompt, то есть выучила не конкретную формулу оценки, а более общие паттерны качества. Минус тоже назван прямо: RFT требовал 4–8 rollouts на каждый обучающий пример и стоил дороже по вычислениям.

Что это значит AWS фактически продвигает RFT с LLM-as-a-judge как

рабочий путь для настройки моделей под чувствительные корпоративные сценарии, где простых правил мало, а ручная разметка слишком дорогая. Если подход с Amazon Nova реально переносится на прод, компании из юрсектора, финансов и здравоохранения получают способ дообучать модели под свои стандарты и при этом лучше контролировать формат, качество и объяснимость ответа.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…