AWS explique le lancement du reinforcement fine-tuning dans Amazon Bedrock via les APIs compatibles OpenAI
AWS a publié un guide technique sur le reinforcement fine-tuning dans Amazon Bedrock via les APIs compatibles OpenAI. Le scénario est le suivant : configurez la

AWS выпустила подробный разбор того, как запускать reinforcement fine-tuning в Amazon Bedrock через OpenAI-совместимые API. По сути, компания предлагает знакомый для разработчиков маршрут: тот же OpenAI SDK, но с Bedrock в роли платформы для обучения, оценки и инференса.
Как устроен процесс
Reinforcement fine-tuning, или RFT, нужен в тех случаях, когда модели мало просто показать правильные ответы, как в классическом supervised fine-tuning. Здесь модель генерирует несколько вариантов ответа на один и тот же промпт, а затем отдельная reward-функция выставляет им числовую оценку. Amazon Bedrock берет этот сигнал и сам прогоняет цикл оптимизации через алгоритм GRPO.
Для команды это значит, что не нужно собирать тяжелую инфраструктуру под reinforcement learning: orchestration, параллелизм, чекпоинты и метрики сервис берет на себя. В практическом walkthrough AWS показывает, что вход в этот сценарий сделали максимально похожим на уже привычный стек OpenAI. Разработчику достаточно направить `OPENAI_BASE_URL` на региональный endpoint Bedrock Mantle и передать `OPENAI_API_KEY`, сгенерированный для Bedrock.
Дальше можно использовать те же вызовы `client.files.create()`, `client.
fine_tuning.jobs.create()` и `client.
chat.completions.create()`.
То есть барьер не в новом SDK, а в том, насколько хорошо ты формализовал критерий качества ответа.
Данные и reward-функция В примере AWS использует датасет GSM8K для школьных математических задач.
Данные загружаются через Files API в формате JSONL: в каждой строке есть блок `messages`, а для проверяемых задач добавляется `reference_answer`. Такой формат позволяет не только отправить вопрос модели, но и сохранить опорный ответ или правило проверки. В walkthrough отдельно показано, что промпт можно заранее структурировать так, чтобы финальный ответ было легко извлечь автоматически — например, в специальном формате вроде `\boxed{}` или после маркера `####`.
Ключевой узел всей схемы — reward-функция в AWS Lambda. В демонстрации она получает траектории, находит последний ответ ассистента, извлекает правильный ответ из `reference_answer` и возвращает score от 0 до 1. Для математики это просто бинарная проверка, но логика не ограничивается только такими кейсами.
AWS отдельно подчеркивает, что внутрь Lambda можно зашить свои правила, а для менее формализуемых задач использовать подход model-as-a-judge. Плюс важный для enterprise пункт: данные во время процесса не покидают защищенную среду AWS и не используются для обучения моделей Bedrock.
Обучение и запуск
Сам запуск обучения выглядит довольно компактно: в `fine_tuning.jobs.create()` передаются базовая модель, training file, тип метода `reinforcement`, ARN Lambda-грейдера и набор гиперпараметров.
В примере фигурирует `openai.gpt-oss-20b`, одна эпоха, `batch_size=4` и `learning_rate_multiplier=1.0`, хотя документация рекомендует для стабильности начинать с значения ниже единицы.
Дальше Bedrock сам создает job, считает шаги и сохраняет промежуточные checkpoints, которые можно использовать для оценки качества еще до финала обучения. Во время тренировки AWS предлагает смотреть не только на статус job, но и на события с метриками. В примере job на подмножестве GSM8K проходит 67 шагов, а reward-кривая поднимается примерно с 0.
56 до диапазона 0.85–0.97 уже к середине обучения.
Параллельно ответы становятся короче, что авторы трактуют как признак того, что модель научилась решать задачи точнее и без лишней болтовни. `critic_rewards_mean` — главный сигнал: если растет, модель учится `actor_entropy` — показывает, не схлопывается ли разнообразие ответов до mode collapse `actor_grad_norm` — помогает заметить нестабильность, если градиенты начинают резко прыгать `response_length_mean` — полезен против reward hacking, когда модель начинает раздувать ответы ради оценки После завершения job модель не нужно отдельно разворачивать. Достаточно получить `fine_tuned_model` из деталей задания и сразу вызвать его через Chat Completions API или Responses API, включая streaming.
Это главный практический плюс всей схемы: обучение и инференс остаются в одном API-ландшафте. Документация Bedrock отдельно уточняет, что OpenAI-совместимый путь для fine-tuning сейчас доступен для `openai.gpt-oss-20b` и `qwen.
qwen3-32b` в регионе `us-west-2`.
«Никакого отдельного endpoint и хостинга».
Что это значит AWS явно пытается сделать reinforcement fine-tuning не
исследовательской экзотикой, а нормальным инженерным инструментом. Если у команды уже есть код под OpenAI SDK и понятная reward-логика, вход в RFT становится заметно проще: можно начать с 100–200 примеров, проверить метрики, сравнить чекпоинты и понять, даст ли настройка более дешевую и быструю модель под конкретную задачу. Особенно это интересно для математики, кода и других сценариев, где качество ответа можно проверить автоматически.