AWS Montre Comment Fine-Tuner Amazon Nova via Nova Forge SDK et SageMaker Jobs
AWS a détaillé comment personnaliser Amazon Nova via Nova Forge SDK et SageMaker AI. Dans l'exemple, l'équipe entraîne un modèle sur la classification des quest

AWS показала практический сценарий кастомизации моделей Amazon Nova через Nova Forge SDK и Amazon SageMaker AI. В гайде команда проходит весь цикл — от базовой оценки модели до SFT, RFT и выката собственного endpoint для инференса.
Сценарий и данные AWS позиционирует
Nova Forge SDK как слой, который убирает самую скучную часть кастомизации LLM: подготовку инфраструктуры, выбор образов, валидацию конфигов и запуск тренировочных рецептов. Вместо ручной сборки пайплайна разработчик получает набор готовых компонентов для загрузки датасета, преобразования формата, старта job в SageMaker и последующей оценки результата. В статье это показано не на игрушечном примере, а на понятной прикладной задаче — автоматической классификации вопросов Stack Overflow по качеству.
Для эксперимента AWS взяла датасет Stack Overflow Question Quality на 60 тысяч вопросов за 2016–2020 годы и случайно выбрала 4700 записей. Модель должна была относить каждый вопрос к одной из трёх категорий: HQ, LQ_EDIT или LQ_CLOSE. Под SFT выделили 3500 примеров, на оценку — 500, а для RFT использовали ещё 700 специализированных примеров, дополнив их всеми 3500 SFT-записями, чтобы модель не растеряла уже выученный формат ответа.
Как шло обучение
Схема эксперимента разбита на четыре шага: сначала baseline-оценка предобученной Nova 2.0, затем supervised fine-tuning, после него reinforcement fine-tuning и в конце деплой на Amazon SageMaker AI Inference. Для загрузки CSV, проверки схемы и преобразования данных AWS использует класс CSVDatasetLoader, а для запуска вычислений — SMTJRuntimeManager. SFT в примере крутится на четырёх инстансах ml.p5.48xlarge, причём SDK умеет заранее валидировать совместимость окружения и параметров, чтобы не ловить ошибки уже после старта job.
- Baseline показывает, как модель ведёт себя без дообучения SFT учит правильному формату и предметному паттерну ответа RFT донастраивает решение через reward-функцию * Деплой можно сделать либо в Bedrock, либо в SageMaker Для RFT AWS добавила простую reward-функцию через Lambda: +1 за правильный класс и -1 за неправильный. Дообучение запускали поверх SFT-чекпойнта на двух ml.p5.48xlarge, а сам прогон сделали коротким — всего 40 шагов. Дополнительно команда ограничила длину вывода и ввела KL-штраф, чтобы модель не уехала слишком далеко от поведения, закреплённого на этапе SFT. То есть SDK здесь выступает не просто как обёртка над запуском, а как единая точка для подготовки данных, обучения, логов и выката.
Что показали метрики Самая полезная часть статьи — цифры.
Базовая Nova 2.0 показала лишь 13% exact match на трёхклассовой задаче, где случайное угадывание дало бы около 33,3%. Даже если игнорировать многословность ответов и извлекать только метку класса из текста, точность составляла 52,2%.
AWS объясняет это двумя проблемами: модель слишком охотно писала длинные объяснения вместо одного ярлыка и была смещена в сторону ответа HQ независимо от реального качества вопроса. После короткого SFT exact match вырос до 77,2%, а классификационная точность по извлечённым меткам — до 79,0%. Следующий слой, RFT, добавил ещё немного: exact match поднялся до 78,8%, quasi-EM — до 80,6%, F1 — до 78,8%.
Прирост после reinforcement-этапа получился не гигантским, но стабильным почти по всем ключевым метрикам. Отдельно AWS отмечает, что BLEU для такой задачи почти бесполезен: когда модель отвечает одним токеном вроде HQ или LQ_CLOSE, важнее смотреть на exact match и F1, а не на overlap n-грамм.
Что это значит AWS пытается продать не просто ещё одну модель, а более
короткий путь к её прикладной настройке. Если Nova Forge SDK действительно закрывает валидацию, запуск, мониторинг и деплой в одном интерфейсе, то командам будет проще проверять гипотезы по нишевым датасетам без отдельного MLOps-квеста на каждую итерацию.