AWS Machine Learning Blog→ оригинал

AWS Shows How to Fine-Tune Amazon Nova via Nova Forge SDK and SageMaker Jobs

AWS detailed how to customize Amazon Nova via Nova Forge SDK and SageMaker AI. In the example, the team trains a model on Stack Overflow question classification

AWS Shows How to Fine-Tune Amazon Nova via Nova Forge SDK and SageMaker Jobs
Источник: AWS Machine Learning Blog. Коллаж: Hamidun News.

AWS показала практический сценарий кастомизации моделей Amazon Nova через Nova Forge SDK и Amazon SageMaker AI. В гайде команда проходит весь цикл — от базовой оценки модели до SFT, RFT и выката собственного endpoint для инференса.

Сценарий и данные AWS позиционирует

Nova Forge SDK как слой, который убирает самую скучную часть кастомизации LLM: подготовку инфраструктуры, выбор образов, валидацию конфигов и запуск тренировочных рецептов. Вместо ручной сборки пайплайна разработчик получает набор готовых компонентов для загрузки датасета, преобразования формата, старта job в SageMaker и последующей оценки результата. В статье это показано не на игрушечном примере, а на понятной прикладной задаче — автоматической классификации вопросов Stack Overflow по качеству.

Для эксперимента AWS взяла датасет Stack Overflow Question Quality на 60 тысяч вопросов за 2016–2020 годы и случайно выбрала 4700 записей. Модель должна была относить каждый вопрос к одной из трёх категорий: HQ, LQ_EDIT или LQ_CLOSE. Под SFT выделили 3500 примеров, на оценку — 500, а для RFT использовали ещё 700 специализированных примеров, дополнив их всеми 3500 SFT-записями, чтобы модель не растеряла уже выученный формат ответа.

Как шло обучение

Схема эксперимента разбита на четыре шага: сначала baseline-оценка предобученной Nova 2.0, затем supervised fine-tuning, после него reinforcement fine-tuning и в конце деплой на Amazon SageMaker AI Inference. Для загрузки CSV, проверки схемы и преобразования данных AWS использует класс CSVDatasetLoader, а для запуска вычислений — SMTJRuntimeManager. SFT в примере крутится на четырёх инстансах ml.p5.48xlarge, причём SDK умеет заранее валидировать совместимость окружения и параметров, чтобы не ловить ошибки уже после старта job.

  • Baseline показывает, как модель ведёт себя без дообучения SFT учит правильному формату и предметному паттерну ответа RFT донастраивает решение через reward-функцию * Деплой можно сделать либо в Bedrock, либо в SageMaker Для RFT AWS добавила простую reward-функцию через Lambda: +1 за правильный класс и -1 за неправильный. Дообучение запускали поверх SFT-чекпойнта на двух ml.p5.48xlarge, а сам прогон сделали коротким — всего 40 шагов. Дополнительно команда ограничила длину вывода и ввела KL-штраф, чтобы модель не уехала слишком далеко от поведения, закреплённого на этапе SFT. То есть SDK здесь выступает не просто как обёртка над запуском, а как единая точка для подготовки данных, обучения, логов и выката.

Что показали метрики Самая полезная часть статьи — цифры.

Базовая Nova 2.0 показала лишь 13% exact match на трёхклассовой задаче, где случайное угадывание дало бы около 33,3%. Даже если игнорировать многословность ответов и извлекать только метку класса из текста, точность составляла 52,2%.

AWS объясняет это двумя проблемами: модель слишком охотно писала длинные объяснения вместо одного ярлыка и была смещена в сторону ответа HQ независимо от реального качества вопроса. После короткого SFT exact match вырос до 77,2%, а классификационная точность по извлечённым меткам — до 79,0%. Следующий слой, RFT, добавил ещё немного: exact match поднялся до 78,8%, quasi-EM — до 80,6%, F1 — до 78,8%.

Прирост после reinforcement-этапа получился не гигантским, но стабильным почти по всем ключевым метрикам. Отдельно AWS отмечает, что BLEU для такой задачи почти бесполезен: когда модель отвечает одним токеном вроде HQ или LQ_CLOSE, важнее смотреть на exact match и F1, а не на overlap n-грамм.

Что это значит AWS пытается продать не просто ещё одну модель, а более

короткий путь к её прикладной настройке. Если Nova Forge SDK действительно закрывает валидацию, запуск, мониторинг и деплой в одном интерфейсе, то командам будет проще проверять гипотезы по нишевым датасетам без отдельного MLOps-квеста на каждую итерацию.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…