AWS explicou como fazer fine-tuning do Amazon Nova com um LLM como juiz para tarefas corporativas complexas
A AWS mostrou como usar LLM-as-a-judge no reinforcement fine-tuning dos modelos Amazon Nova. Em vez de rotulagem manual, um modelo separado atribui…
Processado por IA de AWS Machine Learning Blog; editado por Hamidun News
A AWS detalhadamente mostrou como aplicar reinforcement fine-tuning com a abordagem LLM-como-juiz para os modelos Amazon Nova. Em vez de anotação manual ou um conjunto de regras codificadas, um modelo de linguagem separado avalia a qualidade da resposta, e seu veredicto se torna um sinal de recompensa para o treinamento.
Por Que um Juiz é Necessário
De acordo com a AWS, o RFT padrão pode ser construído ou em regras verificáveis como correspondência exata de string, ou em um esquema onde outro LLM avalia a resposta em relação a vários critérios simultaneamente. A segunda opção é necessária quando a qualidade não pode ser reduzida a uma única fórmula. Para tarefas corporativas, o que importa não é apenas precisão factual, mas também tom, segurança, completude, relevância e conformidade com políticas internas.
Nessa abordagem, o modelo juiz não apenas atribui uma pontuação, mas também ajuda a explicar por que uma resposta é melhor que outra. A AWS enfatiza que esse esquema acelera as iterações: as equipes veem exatamente onde o modelo falha e podem corrigir a função de recompensa mais rapidamente. Isso é especialmente útil em domínios onde um erro não parece um bug óbvio, mas se manifesta em nuances de redação, risco negligenciado ou raciocínio fraco.
Seis Passos para Configuração
A AWS divide a implementação de LLM-como-juiz em várias etapas práticas. Primeiro, você deve escolher o tipo de avaliação: baseada em rubrica, onde o juiz atribui uma pontuação absoluta a uma resposta, ou baseada em preferência, onde ele compara duas opções e escolhe a melhor. Se preferências prontas não existem, a empresa recomenda começar com uma abordagem de rubrica e critérios simples de passar/falhar em vez de uma escala de 1 a 10.
- Escolha o modo de julgamento: avaliação absoluta ou comparação pareada
- Defina claramente os critérios de qualidade com indicadores observáveis
- Selecione um modelo juiz adequado ao seu domínio e orçamento através do Amazon Bedrock
- Exija saída JSON estruturada para que as recompensas possam ser analisadas de forma confiável
- Vincule a função de recompensa às métricas de produto e adicione infraestrutura Lambda estável
Uma ênfase separada é colocada na infraestrutura. A AWS recomenda não depender apenas do juiz e complementá-lo com verificações rápidas determinísticas: validade de JSON, comprimento da resposta, correspondência de idioma e filtros de segurança. O Lambda de Recompensa deve lidar com milhares de avaliações por etapa de treinamento, então recuo exponencial para chamadas do Bedrock, paralelização via ThreadPoolExecutor ou padrões assíncronos, tempos limite de até 15 minutos e concorrência provisionada em torno de 100 para configurações típicas são recomendados. Se o juiz ou a API falhar, é melhor retornar uma recompensa neutra do que quebrar todo o passo de treinamento. Além disso, as equipes devem manter um conjunto de testes de regressão para o próprio pipeline do juiz.
Caso de Estudo de Contratos
Como demonstração, a AWS descreve um projeto com um parceiro do setor jurídico. O objetivo era analisar automaticamente novos contratos, compará-los com regras internas, contratos anteriores e requisitos regulatórios, e gerar JSON com comentários, tipos de observação e ações recomendadas. O conjunto de dados inicial era pequeno e continha contratos anotados por especialistas, portanto o fine-tuning supervisionado clássico produziu resultados limitados.
Para RFT, eles usaram um modelo juiz separado GPT OSS 120B e um prompt de sistema customizado. O juiz verificava se um comentário realmente se baseava em um fragmento do próprio contrato, se estava alinhado com o documento de referência e se uma ação podia ser tomada com base nele. Em seguida, envolveram isso em uma função Lambda e lançaram o treinamento através do SDK Nova Forge com múltiplas gerações por exemplo e limite de chamadas concorrentes de 100.
Como resultado, Amazon Nova 2 Lite após RFT alcançou uma pontuação agregada de 4,33 em 5 e validação perfeita do esquema JSON, superando Claude Sonnet 4.5 e Claude Haiku 4.5.
A AWS observa separadamente que versões SFT exibiam artefatos como comentários repetidos e caracteres Unicode estranhos, enquanto checkpoints RFT não tinham. Mais importante, o modelo manteve resultados fortes mesmo após mudar o prompt do juiz, significando que aprendeu não uma fórmula de pontuação específica, mas padrões de qualidade mais gerais. A desvantagem também foi afirmada claramente: RFT exigiu 4–8 rollouts por exemplo de treinamento e foi mais caro computacionalmente.
O Que Isso Significa
A AWS está efetivamente promovendo RFT com LLM-como-juiz como uma abordagem prática para ajustar modelos a cenários corporativos sensíveis onde regras simples são insuficientes e anotação manual é muito cara. Se a abordagem Amazon Nova realmente escala para produção, empresas dos setores jurídico, financeiro e de saúde ganham a capacidade de fazer fine-tune de modelos para seus próprios padrões enquanto controlam melhor o formato de saída, qualidade e explicabilidade.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.