AWS explica o lançamento de reinforcement fine-tuning no Amazon Bedrock via APIs compatíveis com OpenAI
AWS lançou um guia técnico sobre reinforcement fine-tuning no Amazon Bedrock via APIs compatíveis com OpenAI. O cenário é assim: configure a chave do Bedrock…
Processado por IA de AWS Machine Learning Blog; editado por Hamidun News
A AWS divulgou um detalhamento sobre como executar reinforcement fine-tuning no Amazon Bedrock através de APIs compatíveis com OpenAI. Essencialmente, a empresa oferece uma rota familiar para desenvolvedores: o mesmo SDK da OpenAI, mas com Bedrock como plataforma para treinamento, avaliação e inferência.
Como funciona o processo
Reinforcement fine-tuning, ou RFT, é necessário em casos onde não é suficiente simplesmente mostrar à modelos as respostas corretas, como no fine-tuning supervisionado clássico. Aqui, o modelo gera múltiplas variantes de resposta para o mesmo prompt, e então uma função de reward separada atribui a eles uma pontuação numérica. O Amazon Bedrock pega esse sinal e executa o ciclo de otimização por si próprio através do algoritmo GRPO. Para um time, isso significa que não é necessário construir uma infraestrutura pesada para reinforcement learning: orquestração, paralelismo, checkpoints e métricas são gerenciados pelo serviço.
Em um walkthrough prático, a AWS mostra que o ponto de entrada para esse cenário foi feito o mais similar possível ao stack OpenAI já familiar. Um desenvolvedor apenas precisa apontar `OPENAI_BASE_URL` para o endpoint regional Bedrock Mantle e passar uma `OPENAI_API_KEY` gerada para Bedrock. Depois disso, você pode usar as mesmas chamadas: `client.files.create()`, `client.fine_tuning.jobs.create()` e `client.chat.completions.create()`. Ou seja, a barreira não está em um novo SDK, mas em como você formalizou bem o critério para qualidade de resposta.
Dados e função de reward
No exemplo, a AWS usa o dataset GSM8K para problemas de matemática escolar. Os dados são carregados através da Files API em formato JSONL: cada linha contém um bloco `messages`, e para tarefas sendo avaliadas, um `reference_answer` é adicionado. Esse formato permite não apenas enviar uma pergunta ao modelo, mas também preservar a resposta de referência ou regra de verificação.
No walkthrough, é mostrado separadamente que o prompt pode ser pré-estruturado para que a resposta final seja fácil de extrair automaticamente — por exemplo, em um formato especial como `\boxed{}` ou após um marcador `####`.
O nó chave de todo o esquema é a função de reward no AWS Lambda. Na demonstração, ela recebe trajetórias, encontra a última resposta do assistente, extrai a resposta correta de `reference_answer` e retorna uma pontuação de 0 a 1. Para matemática, isso é simplesmente uma verificação binária, mas a lógica não se limita apenas a esses casos. A AWS enfatiza separadamente que regras customizadas podem ser incorporadas no Lambda, e para tarefas menos formalizáveis, uma abordagem model-as-a-judge pode ser usada. Mais um ponto importante para enterprise: dados não saem do ambiente protegido da AWS durante o processo e não são usados para treinar modelos Bedrock.
Treinamento e execução
O lançamento do treinamento em si parece bem compacto: em `fine_tuning.jobs.create()`, você passa o modelo base, arquivo de treinamento, tipo de método `reinforcement`, o ARN do avaliador Lambda e um conjunto de hiperparâmetros. O exemplo apresenta `openai.gpt-oss-20b`, uma época, `batch_size=4` e `learning_rate_multiplier=1.0`, embora a documentação recomende começar com um valor abaixo de um para estabilidade. Então Bedrock cria o job por si próprio, conta passos e salva checkpoints intermediários que podem ser usados para avaliação de qualidade antes do final do treinamento.
Durante o treinamento, a AWS sugere monitorar não apenas o status do job, mas também eventos com métricas. No exemplo, um job em um subconjunto GSM8K executa 67 passos, e a curva de reward sobe de aproximadamente 0,56 para o intervalo de 0,85–0,97 já no meio do treinamento. Ao mesmo tempo, as respostas ficam mais curtas, o que os autores interpretam como um sinal de que o modelo aprendeu a resolver tarefas com mais precisão e sem verbosidade desnecessária.
- `critic_rewards_mean` — o sinal principal: se cresce, o modelo está aprendendo
- `actor_entropy` — mostra se a diversidade de respostas está desabando em colapso de modo
- `actor_grad_norm` — ajuda a notar instabilidade se gradientes começam a pular drasticamente
- `response_length_mean` — útil contra reward hacking, quando o modelo começa a inflar respostas pela pontuação
Após a conclusão do job, o modelo não precisa ser implantado separadamente. É suficiente obter `fine_tuned_model` dos detalhes do job e chamá-lo imediatamente através da Chat Completions API ou Responses API, incluindo streaming. Essa é a principal vantagem prática de todo o esquema: treinamento e inferência permanecem no mesmo paisagem de API.
A documentação do Bedrock esclarece separadamente que o caminho compatível com OpenAI para fine-tuning está atualmente disponível para `openai.gpt-oss-20b` e `qwen.qwen3-32b` na região `us-west-2`.
"Nenhum endpoint separado e hosting."
O que isso significa
A AWS claramente quer fazer do reinforcement fine-tuning não uma curiosidade de pesquisa, mas uma ferramenta de engenharia normal. Se um time já tem código para o SDK OpenAI e lógica clara de reward, a entrada em RFT se torna notavelmente mais fácil: você pode começar com 100–200 exemplos, verificar métricas, comparar checkpoints e entender se o ajuste vai render um modelo mais barato e rápido para uma tarefa específica. Isso é especialmente interessante para matemática, código e outros cenários onde a qualidade da resposta pode ser verificada automaticamente.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.