AWS Machine Learning Blog→ original

AWS Muestra Cómo Hacer Fine-Tuning de Amazon Nova a Través de Nova Forge SDK y SageMaker Jobs

AWS mostró en detalle cómo personalizar Amazon Nova mediante Nova Forge SDK y SageMaker AI. En el ejemplo, el equipo entrena un modelo para clasificación de…

Procesado por IA desde AWS Machine Learning Blog; editado por Hamidun News
AWS Muestra Cómo Hacer Fine-Tuning de Amazon Nova a Través de Nova Forge SDK y SageMaker Jobs
Fuente: AWS Machine Learning Blog. Collage: Hamidun News.
◐ Escuchar artículo

AWS mostró un escenario práctico para personalizar modelos Amazon Nova a través del Nova Forge SDK y Amazon SageMaker AI. En la guía, el equipo recorre todo el ciclo — desde la evaluación básica del modelo hasta SFT, RFT e implementación de un endpoint personalizado para inferencia.

Escenario y Datos

AWS posiciona Nova Forge SDK como una capa que elimina la parte más tediosa de la personalización de LLM: preparación de infraestructura, selección de imágenes, validación de configuraciones y ejecución de recetas de entrenamiento. En lugar de construir manualmente un pipeline, un desarrollador obtiene un conjunto de componentes listos para cargar datos, transformar el formato, iniciar un trabajo en SageMaker y evaluar posteriormente los resultados. En el artículo, esto se demuestra no con un ejemplo trivial, sino con una tarea práctica clara — clasificación automática de preguntas de Stack Overflow por calidad.

Para el experimento, AWS tomó el conjunto de datos Stack Overflow Question Quality de 60 mil preguntas de 2016–2020 y seleccionó aleatoriamente 4700 registros. El modelo debería clasificar cada pregunta en una de tres categorías: HQ, LQ_EDIT o LQ_CLOSE. Para SFT se asignaron 3500 ejemplos, 500 para evaluación, y para RFT se utilizaron otros 700 ejemplos especializados, complementados con los 3500 registros de SFT para evitar que el modelo olvidara el formato de respuesta que ya había aprendido.

Cómo Progresó el Entrenamiento

El esquema del experimento se divide en cuatro pasos: primero, una evaluación básica del Nova 2.0 preentrenado, luego fine-tuning supervisado, seguido de fine-tuning por refuerzo, y finalmente implementación en Amazon SageMaker AI Inference. Para cargar CSV, verificar el esquema y transformar datos, AWS utiliza la clase CSVDatasetLoader, y para ejecutar cálculos — SMTJRuntimeManager. SFT en el ejemplo se ejecuta en cuatro instancias ml.p5.48xlarge, y el SDK es capaz de validar de antemano la compatibilidad del entorno y los parámetros para evitar errores después de iniciar el trabajo.

  • Baseline muestra cómo se comporta el modelo sin fine-tuning
  • SFT enseña el formato correcto y el patrón de asunto de la respuesta
  • RFT ajusta la solución a través de una función de recompensa
  • La implementación puede realizarse en Bedrock o en SageMaker

Para RFT, AWS añadió una función de recompensa simple a través de Lambda: +1 para la clase correcta y -1 para la incorrecta. El fine-tuning se lanzó sobre el checkpoint de SFT en dos instancias ml.p5.48xlarge, y la ejecución en sí se mantuvo corta — solo 40 pasos. Además, el equipo limitó la longitud de salida e introdujo una penalidad KL para evitar que el modelo se desviara demasiado del comportamiento establecido durante la fase de SFT. En otras palabras, el SDK aquí actúa no solo como un envoltorio alrededor del lanzamiento, sino como un punto unificado para preparación de datos, entrenamiento, logs e implementación.

Lo que las Métricas Mostraron

La parte más útil del artículo — los números. El baseline Nova 2.0 mostró solo 13% de exact match en una tarea de tres clases, donde adivinar al azar produciría aproximadamente 33,3%. Incluso si ignoramos la verbosidad de las respuestas y extraemos solo la etiqueta de clase del texto, la precisión era del 52,2%. AWS explica esto con dos problemas: el modelo era demasiado propenso a escribir explicaciones largas en lugar de una sola etiqueta, y estaba sesgado hacia la respuesta HQ independientemente de la calidad real de la pregunta.

Después de un SFT corto, el exact match subió a 77,2%, y la precisión de clasificación en etiquetas extraídas — a 79,0%. La siguiente capa, RFT, añadió un poco más: exact match subió a 78,8%, quasi-EM — a 80,6%, F1 — a 78,8%. La mejora después de la etapa de refuerzo resultó no ser gigantesca, pero consistente en casi todas las métricas clave. AWS también señala por separado que BLEU es casi inútil para tal tarea: cuando el modelo responde con un solo token como HQ o LQ_CLOSE, es más importante observar exact match y F1, en lugar de sobreposición de n-gramas.

Lo que Esto Significa

AWS está intentando vender no solo otro modelo, sino un camino más corto a su personalización práctica. Si Nova Forge SDK realmente cubre validación, lanzamiento, monitoreo e implementación en una sola interfaz, los equipos encontrarán más fácil probar hipótesis en conjuntos de datos especializados sin una misión separada de MLOps para cada iteración.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…