AWS Machine Learning Blog→ оригинал

AWS объяснила запуск reinforcement fine-tuning в Amazon Bedrock через OpenAI-совместимые API

AWS выпустила техразбор по reinforcement fine-tuning в Amazon Bedrock через OpenAI-совместимые API. Сценарий такой: настроить Bedrock-ключ и `OPENAI_BASE_URL`,

AWS объяснила запуск reinforcement fine-tuning в Amazon Bedrock через OpenAI-совместимые API
Источник: AWS Machine Learning Blog. Коллаж: Hamidun News.

AWS выпустила подробный разбор того, как запускать reinforcement fine-tuning в Amazon Bedrock через OpenAI-совместимые API. По сути, компания предлагает знакомый для разработчиков маршрут: тот же OpenAI SDK, но с Bedrock в роли платформы для обучения, оценки и инференса.

Как устроен процесс

Reinforcement fine-tuning, или RFT, нужен в тех случаях, когда модели мало просто показать правильные ответы, как в классическом supervised fine-tuning. Здесь модель генерирует несколько вариантов ответа на один и тот же промпт, а затем отдельная reward-функция выставляет им числовую оценку. Amazon Bedrock берет этот сигнал и сам прогоняет цикл оптимизации через алгоритм GRPO.

Для команды это значит, что не нужно собирать тяжелую инфраструктуру под reinforcement learning: orchestration, параллелизм, чекпоинты и метрики сервис берет на себя. В практическом walkthrough AWS показывает, что вход в этот сценарий сделали максимально похожим на уже привычный стек OpenAI. Разработчику достаточно направить `OPENAI_BASE_URL` на региональный endpoint Bedrock Mantle и передать `OPENAI_API_KEY`, сгенерированный для Bedrock.

Дальше можно использовать те же вызовы `client.files.create()`, `client.

fine_tuning.jobs.create()` и `client.

chat.completions.create()`.

То есть барьер не в новом SDK, а в том, насколько хорошо ты формализовал критерий качества ответа.

Данные и reward-функция В примере AWS использует датасет GSM8K для школьных математических задач.

Данные загружаются через Files API в формате JSONL: в каждой строке есть блок `messages`, а для проверяемых задач добавляется `reference_answer`. Такой формат позволяет не только отправить вопрос модели, но и сохранить опорный ответ или правило проверки. В walkthrough отдельно показано, что промпт можно заранее структурировать так, чтобы финальный ответ было легко извлечь автоматически — например, в специальном формате вроде `\boxed{}` или после маркера `####`.

Ключевой узел всей схемы — reward-функция в AWS Lambda. В демонстрации она получает траектории, находит последний ответ ассистента, извлекает правильный ответ из `reference_answer` и возвращает score от 0 до 1. Для математики это просто бинарная проверка, но логика не ограничивается только такими кейсами.

AWS отдельно подчеркивает, что внутрь Lambda можно зашить свои правила, а для менее формализуемых задач использовать подход model-as-a-judge. Плюс важный для enterprise пункт: данные во время процесса не покидают защищенную среду AWS и не используются для обучения моделей Bedrock.

Обучение и запуск

Сам запуск обучения выглядит довольно компактно: в `fine_tuning.jobs.create()` передаются базовая модель, training file, тип метода `reinforcement`, ARN Lambda-грейдера и набор гиперпараметров.

В примере фигурирует `openai.gpt-oss-20b`, одна эпоха, `batch_size=4` и `learning_rate_multiplier=1.0`, хотя документация рекомендует для стабильности начинать с значения ниже единицы.

Дальше Bedrock сам создает job, считает шаги и сохраняет промежуточные checkpoints, которые можно использовать для оценки качества еще до финала обучения. Во время тренировки AWS предлагает смотреть не только на статус job, но и на события с метриками. В примере job на подмножестве GSM8K проходит 67 шагов, а reward-кривая поднимается примерно с 0.

56 до диапазона 0.85–0.97 уже к середине обучения.

Параллельно ответы становятся короче, что авторы трактуют как признак того, что модель научилась решать задачи точнее и без лишней болтовни. `critic_rewards_mean` — главный сигнал: если растет, модель учится `actor_entropy` — показывает, не схлопывается ли разнообразие ответов до mode collapse `actor_grad_norm` — помогает заметить нестабильность, если градиенты начинают резко прыгать `response_length_mean` — полезен против reward hacking, когда модель начинает раздувать ответы ради оценки После завершения job модель не нужно отдельно разворачивать. Достаточно получить `fine_tuned_model` из деталей задания и сразу вызвать его через Chat Completions API или Responses API, включая streaming.

Это главный практический плюс всей схемы: обучение и инференс остаются в одном API-ландшафте. Документация Bedrock отдельно уточняет, что OpenAI-совместимый путь для fine-tuning сейчас доступен для `openai.gpt-oss-20b` и `qwen.

qwen3-32b` в регионе `us-west-2`.

«Никакого отдельного endpoint и хостинга».

Что это значит AWS явно пытается сделать reinforcement fine-tuning не

исследовательской экзотикой, а нормальным инженерным инструментом. Если у команды уже есть код под OpenAI SDK и понятная reward-логика, вход в RFT становится заметно проще: можно начать с 100–200 примеров, проверить метрики, сравнить чекпоинты и понять, даст ли настройка более дешевую и быструю модель под конкретную задачу. Особенно это интересно для математики, кода и других сценариев, где качество ответа можно проверить автоматически.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…