AWS Machine Learning Blog→ original

AWS explica el lanzamiento de reinforcement fine-tuning en Amazon Bedrock mediante APIs compatibles con OpenAI

AWS lanzó un desglose técnico del reinforcement fine-tuning en Amazon Bedrock mediante APIs compatibles con OpenAI. El escenario es así: configura la clave…

Procesado por IA desde AWS Machine Learning Blog; editado por Hamidun News
AWS explica el lanzamiento de reinforcement fine-tuning en Amazon Bedrock mediante APIs compatibles con OpenAI
Fuente: AWS Machine Learning Blog. Collage: Hamidun News.
◐ Escuchar artículo

AWS publicó un desglose detallado sobre cómo ejecutar reinforcement fine-tuning en Amazon Bedrock a través de APIs compatibles con OpenAI. Esencialmente, la empresa ofrece una ruta familiar para desarrolladores: el mismo SDK de OpenAI, pero con Bedrock como plataforma para entrenamiento, evaluación e inferencia.

Cómo funciona el proceso

Reinforcement fine-tuning, o RFT, es necesario en casos donde no es suficiente simplemente mostrar a los modelos las respuestas correctas, como en el fine-tuning supervisado clásico. Aquí, el modelo genera múltiples variantes de respuesta para el mismo prompt, y luego una función de reward separada les asigna una puntuación numérica. Amazon Bedrock toma esta señal y ejecuta el ciclo de optimización por sí mismo a través del algoritmo GRPO. Para un equipo, esto significa que no es necesario construir una infraestructura pesada para reinforcement learning: orquestación, paralelismo, checkpoints y métricas son gestionados por el servicio.

En un walkthrough práctico, AWS muestra que el punto de entrada a este escenario ha sido hecho lo más similar posible al stack OpenAI ya familiar. Un desarrollador solo necesita apuntar `OPENAI_BASE_URL` al endpoint regional Bedrock Mantle y pasar una `OPENAI_API_KEY` generada para Bedrock. Después de eso, puedes usar las mismas llamadas: `client.files.create()`, `client.fine_tuning.jobs.create()` y `client.chat.completions.create()`. Es decir, la barrera no está en un nuevo SDK, sino en qué tan bien has formalizado el criterio de calidad de respuesta.

Datos y función de reward

En el ejemplo, AWS utiliza el dataset GSM8K para problemas matemáticos escolares. Los datos se cargan a través de la Files API en formato JSONL: cada línea contiene un bloque `messages`, y para tareas siendo evaluadas, se añade un `reference_answer`. Este formato permite no solo enviar una pregunta al modelo, sino también preservar la respuesta de referencia o regla de verificación.

En el walkthrough, se muestra por separado que el prompt puede ser pre-estructurado para que la respuesta final sea fácil de extraer automáticamente — por ejemplo, en un formato especial como `\boxed{}` o después de un marcador `####`.

El nodo clave de todo el esquema es la función de reward en AWS Lambda. En la demostración, recibe trayectorias, encuentra la última respuesta del asistente, extrae la respuesta correcta de `reference_answer` y devuelve una puntuación de 0 a 1. Para matemática, esto es simplemente una verificación binaria, pero la lógica no se limita solo a estos casos. AWS enfatiza por separado que reglas personalizadas pueden ser incorporadas en Lambda, y para tareas menos formalizables, se puede usar un enfoque model-as-a-judge. Más un punto importante para enterprise: los datos no salen del entorno protegido de AWS durante el proceso y no se utilizan para entrenar modelos Bedrock.

Entrenamiento y ejecución

El lanzamiento del entrenamiento en sí se ve bastante compacto: en `fine_tuning.jobs.create()`, pasas el modelo base, archivo de entrenamiento, tipo de método `reinforcement`, el ARN del evaluador Lambda y un conjunto de hiperparámetros. El ejemplo presenta `openai.gpt-oss-20b`, una época, `batch_size=4` y `learning_rate_multiplier=1.0`, aunque la documentación recomienda comenzar con un valor por debajo de uno para estabilidad. Luego Bedrock crea el job por sí mismo, cuenta pasos y guarda checkpoints intermedios que pueden usarse para evaluación de calidad antes del final del entrenamiento.

Durante el entrenamiento, AWS sugiere monitorear no solo el estado del job, sino también eventos con métricas. En el ejemplo, un job en un subconjunto GSM8K ejecuta 67 pasos, y la curva de reward sube de aproximadamente 0,56 al rango de 0,85–0,97 ya a mitad del entrenamiento. Al mismo tiempo, las respuestas se hacen más cortas, lo que los autores interpretan como una señal de que el modelo ha aprendido a resolver tareas con mayor precisión y sin verbosidad innecesaria.

  • `critic_rewards_mean` — la señal principal: si crece, el modelo está aprendiendo
  • `actor_entropy` — muestra si la diversidad de respuestas se está colapsando en mode collapse
  • `actor_grad_norm` — ayuda a detectar inestabilidad si los gradientes comienzan a saltar bruscamente
  • `response_length_mean` — útil contra reward hacking, cuando el modelo comienza a inflar respuestas por la puntuación

Después de la finalización del job, el modelo no necesita ser desplegado por separado. Es suficiente obtener `fine_tuned_model` de los detalles del job e invocarlo inmediatamente a través de la Chat Completions API o Responses API, incluyendo streaming. Esta es la principal ventaja práctica de todo el esquema: entrenamiento e inferencia permanecen en el mismo paisaje de API.

La documentación de Bedrock aclara por separado que la ruta compatible con OpenAI para fine-tuning está actualmente disponible para `openai.gpt-oss-20b` y `qwen.qwen3-32b` en la región `us-west-2`.

"Sin endpoint separado ni hosting."

Qué significa esto

AWS claramente quiere hacer del reinforcement fine-tuning no una rareza de investigación, sino una herramienta de ingeniería normal. Si un equipo ya tiene código para el SDK OpenAI y lógica clara de reward, la entrada a RFT se vuelve notablemente más fácil: puedes comenzar con 100–200 ejemplos, verificar métricas, comparar checkpoints y entender si el ajuste rendirá un modelo más barato y rápido para una tarea específica. Esto es especialmente interesante para matemática, código y otros escenarios donde la calidad de la respuesta puede verificarse automáticamente.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…