AWS Machine Learning Blog→ original

AWS explica o lançamento de reinforcement fine-tuning no Amazon Bedrock via APIs compatíveis com OpenAI

AWS lançou um guia técnico sobre reinforcement fine-tuning no Amazon Bedrock via APIs compatíveis com OpenAI. O cenário é assim: configure a chave do Bedrock…

Processado por IA de AWS Machine Learning Blog; editado por Hamidun News
AWS explica o lançamento de reinforcement fine-tuning no Amazon Bedrock via APIs compatíveis com OpenAI
Fonte: AWS Machine Learning Blog. Colagem: Hamidun News.
◐ Ouvir artigo

A AWS divulgou um detalhamento sobre como executar reinforcement fine-tuning no Amazon Bedrock através de APIs compatíveis com OpenAI. Essencialmente, a empresa oferece uma rota familiar para desenvolvedores: o mesmo SDK da OpenAI, mas com Bedrock como plataforma para treinamento, avaliação e inferência.

Como funciona o processo

Reinforcement fine-tuning, ou RFT, é necessário em casos onde não é suficiente simplesmente mostrar à modelos as respostas corretas, como no fine-tuning supervisionado clássico. Aqui, o modelo gera múltiplas variantes de resposta para o mesmo prompt, e então uma função de reward separada atribui a eles uma pontuação numérica. O Amazon Bedrock pega esse sinal e executa o ciclo de otimização por si próprio através do algoritmo GRPO. Para um time, isso significa que não é necessário construir uma infraestrutura pesada para reinforcement learning: orquestração, paralelismo, checkpoints e métricas são gerenciados pelo serviço.

Em um walkthrough prático, a AWS mostra que o ponto de entrada para esse cenário foi feito o mais similar possível ao stack OpenAI já familiar. Um desenvolvedor apenas precisa apontar `OPENAI_BASE_URL` para o endpoint regional Bedrock Mantle e passar uma `OPENAI_API_KEY` gerada para Bedrock. Depois disso, você pode usar as mesmas chamadas: `client.files.create()`, `client.fine_tuning.jobs.create()` e `client.chat.completions.create()`. Ou seja, a barreira não está em um novo SDK, mas em como você formalizou bem o critério para qualidade de resposta.

Dados e função de reward

No exemplo, a AWS usa o dataset GSM8K para problemas de matemática escolar. Os dados são carregados através da Files API em formato JSONL: cada linha contém um bloco `messages`, e para tarefas sendo avaliadas, um `reference_answer` é adicionado. Esse formato permite não apenas enviar uma pergunta ao modelo, mas também preservar a resposta de referência ou regra de verificação.

No walkthrough, é mostrado separadamente que o prompt pode ser pré-estruturado para que a resposta final seja fácil de extrair automaticamente — por exemplo, em um formato especial como `\boxed{}` ou após um marcador `####`.

O nó chave de todo o esquema é a função de reward no AWS Lambda. Na demonstração, ela recebe trajetórias, encontra a última resposta do assistente, extrai a resposta correta de `reference_answer` e retorna uma pontuação de 0 a 1. Para matemática, isso é simplesmente uma verificação binária, mas a lógica não se limita apenas a esses casos. A AWS enfatiza separadamente que regras customizadas podem ser incorporadas no Lambda, e para tarefas menos formalizáveis, uma abordagem model-as-a-judge pode ser usada. Mais um ponto importante para enterprise: dados não saem do ambiente protegido da AWS durante o processo e não são usados para treinar modelos Bedrock.

Treinamento e execução

O lançamento do treinamento em si parece bem compacto: em `fine_tuning.jobs.create()`, você passa o modelo base, arquivo de treinamento, tipo de método `reinforcement`, o ARN do avaliador Lambda e um conjunto de hiperparâmetros. O exemplo apresenta `openai.gpt-oss-20b`, uma época, `batch_size=4` e `learning_rate_multiplier=1.0`, embora a documentação recomende começar com um valor abaixo de um para estabilidade. Então Bedrock cria o job por si próprio, conta passos e salva checkpoints intermediários que podem ser usados para avaliação de qualidade antes do final do treinamento.

Durante o treinamento, a AWS sugere monitorar não apenas o status do job, mas também eventos com métricas. No exemplo, um job em um subconjunto GSM8K executa 67 passos, e a curva de reward sobe de aproximadamente 0,56 para o intervalo de 0,85–0,97 já no meio do treinamento. Ao mesmo tempo, as respostas ficam mais curtas, o que os autores interpretam como um sinal de que o modelo aprendeu a resolver tarefas com mais precisão e sem verbosidade desnecessária.

  • `critic_rewards_mean` — o sinal principal: se cresce, o modelo está aprendendo
  • `actor_entropy` — mostra se a diversidade de respostas está desabando em colapso de modo
  • `actor_grad_norm` — ajuda a notar instabilidade se gradientes começam a pular drasticamente
  • `response_length_mean` — útil contra reward hacking, quando o modelo começa a inflar respostas pela pontuação

Após a conclusão do job, o modelo não precisa ser implantado separadamente. É suficiente obter `fine_tuned_model` dos detalhes do job e chamá-lo imediatamente através da Chat Completions API ou Responses API, incluindo streaming. Essa é a principal vantagem prática de todo o esquema: treinamento e inferência permanecem no mesmo paisagem de API.

A documentação do Bedrock esclarece separadamente que o caminho compatível com OpenAI para fine-tuning está atualmente disponível para `openai.gpt-oss-20b` e `qwen.qwen3-32b` na região `us-west-2`.

"Nenhum endpoint separado e hosting."

O que isso significa

A AWS claramente quer fazer do reinforcement fine-tuning não uma curiosidade de pesquisa, mas uma ferramenta de engenharia normal. Se um time já tem código para o SDK OpenAI e lógica clara de reward, a entrada em RFT se torna notavelmente mais fácil: você pode começar com 100–200 exemplos, verificar métricas, comparar checkpoints e entender se o ajuste vai render um modelo mais barato e rápido para uma tarefa específica. Isso é especialmente interessante para matemática, código e outros cenários onde a qualidade da resposta pode ser verificada automaticamente.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…