AWS Mostra Como Fazer Fine-Tuning da Amazon Nova via Nova Forge SDK e SageMaker Jobs
AWS mostrou em detalhes como customizar a Amazon Nova via Nova Forge SDK e SageMaker AI. No exemplo, a equipe treina um modelo para classificação de questões…
Processado por IA de AWS Machine Learning Blog; editado por Hamidun News
A AWS mostrou um cenário prático para personalizar modelos Amazon Nova através do Nova Forge SDK e do Amazon SageMaker AI. No guia, a equipe percorre todo o ciclo — desde a avaliação básica do modelo até SFT, RFT e implantação de um endpoint customizado para inferência.
Cenário e Dados
A AWS posiciona o Nova Forge SDK como uma camada que remove a parte mais tediosa da customização de LLM: preparação da infraestrutura, seleção de imagens, validação de configurações e execução de receitas de treinamento. Em vez de construir manualmente um pipeline, um desenvolvedor obtém um conjunto de componentes prontos para carregamento de dados, transformação de formato, inicialização de uma tarefa no SageMaker e avaliação subsequente dos resultados. No artigo, isso é demonstrado não com um exemplo trivial, mas com uma tarefa prática clara — classificação automática de questões do Stack Overflow por qualidade.
Para o experimento, a AWS pegou o conjunto de dados Stack Overflow Question Quality com 60 mil questões de 2016–2020 e selecionou aleatoriamente 4700 registros. O modelo deveria classificar cada questão em uma das três categorias: HQ, LQ_EDIT ou LQ_CLOSE. Para SFT, 3500 exemplos foram alocados, 500 para avaliação, e para RFT, mais 700 exemplos especializados foram usados, complementados com todos os 3500 registros de SFT para evitar que o modelo esquecesse do formato de resposta que já havia aprendido.
Como o Treinamento Progrediu
O esquema do experimento é dividido em quatro etapas: primeiro, uma avaliação básica do Nova 2.0 pré-treinado, depois fine-tuning supervisionado, seguido de fine-tuning por reforço, e finalmente implantação no Amazon SageMaker AI Inference. Para carregar CSV, verificar o esquema e transformar dados, a AWS usa a classe CSVDatasetLoader, e para executar cálculos — SMTJRuntimeManager. SFT no exemplo é executado em quatro instâncias ml.p5.48xlarge, e o SDK é capaz de validar antecipadamente a compatibilidade do ambiente e dos parâmetros para evitar erros após a inicialização da tarefa.
- Baseline mostra como o modelo se comporta sem fine-tuning
- SFT ensina o formato correto e o padrão temático da resposta
- RFT ajusta a solução através de uma função de recompensa
- A implantação pode ser feita no Bedrock ou no SageMaker
Para RFT, a AWS adicionou uma função de recompensa simples através do Lambda: +1 para a classe correta e -1 para a incorreta. O fine-tuning foi iniciado a partir do checkpoint de SFT em duas instâncias ml.p5.48xlarge, e a própria execução foi mantida curta — apenas 40 etapas. Além disso, a equipe limitou o comprimento da saída e introduziu uma penalidade KL para impedir que o modelo se desviasse muito do comportamento estabelecido durante a fase de SFT. Em outras palavras, o SDK aqui funciona não apenas como um wrapper ao redor do lançamento, mas como um ponto unificado para preparação de dados, treinamento, logs e implantação.
O que as Métricas Mostraram
A parte mais útil do artigo — os números. O baseline Nova 2.0 mostrou apenas 13% de exact match em uma tarefa de três classes, onde adivinhar aleatoriamente produziria cerca de 33,3%. Mesmo se ignorarmos a verbosidade das respostas e extrairmos apenas o rótulo de classe do texto, a precisão era de 52,2%. A AWS explica isso com dois problemas: o modelo estava muito disposto a escrever explicações longas em vez de um único rótulo, e estava enviesado em relação à resposta HQ independentemente da qualidade real da questão.
Após um SFT curto, o exact match subiu para 77,2%, e a precisão da classificação em rótulos extraídos — para 79,0%. A próxima camada, RFT, adicionou um pouco mais: exact match subiu para 78,8%, quasi-EM — para 80,6%, F1 — para 78,8%. A melhoria após o estágio de reforço se mostrou não enorme, mas consistente em quase todas as métricas principais. A AWS também observa separadamente que BLEU é quase inútil para tal tarefa: quando o modelo responde com um único token como HQ ou LQ_CLOSE, é mais importante olhar para exact match e F1, em vez de sobreposição de n-gramas.
O que Isso Significa
A AWS está tentando vender não apenas outro modelo, mas um caminho mais curto para sua customização prática. Se o Nova Forge SDK realmente cobre validação, lançamento, monitoramento e implantação em uma única interface, as equipes encontrarão mais facilidade em testar hipóteses em conjuntos de dados especializados sem uma quest separada de MLOps para cada iteração.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.