AWS a expliqué comment affiner Amazon Nova à l’aide d’un LLM juge pour des tâches d’entreprise complexes
AWS a montré comment utiliser LLM-as-a-judge pour le reinforcement fine-tuning des modèles Amazon Nova. Au lieu d’une annotation manuelle, un modèle distinct…
Traité par IA depuis AWS Machine Learning Blog ; édité par Hamidun News
AWS a expliqué en détail comment appliquer le reinforcement fine-tuning avec l'approche LLM-en-tant-que-juge pour les modèles Amazon Nova. Au lieu d'une annotation manuelle ou d'un ensemble de règles codées en dur, un modèle de langage distinct évalue la qualité de la réponse, et son verdict devient un signal de récompense pour l'entraînement.
Pourquoi un Juge est Nécessaire
Selon AWS, le RFT standard peut être construit soit sur des règles vérifiables comme la correspondance exacte de chaîne, soit sur un schéma où un autre LLM évalue la réponse par rapport à plusieurs critères simultanément. La deuxième option est nécessaire lorsque la qualité ne peut pas être réduite à une seule formule. Pour les tâches d'entreprise, ce qui compte n'est pas seulement l'exactitude factuelle, mais aussi le ton, la sécurité, l'exhaustivité, la pertinence et la conformité aux politiques internes.
Dans cette approche, le modèle juge non seulement attribue une note, mais aide également à expliquer pourquoi une réponse est meilleure qu'une autre. AWS souligne que ce schéma accélère les itérations : les équipes voient exactement où le modèle échoue et peuvent corriger la fonction de récompense plus rapidement. Ceci est particulièrement utile dans les domaines où une erreur ne ressemble pas à un bug évident, mais se manifeste dans les nuances de la formulation, un risque négligé ou un raisonnement faible.
Six Étapes pour la Configuration
AWS divise l'implémentation de LLM-en-tant-que-juge en plusieurs étapes pratiques. D'abord, vous devez choisir le type d'évaluation : basé sur une rubrique, où le juge attribue une note absolue à une réponse, ou basé sur la préférence, où il compare deux options et choisit la meilleure. Si des préférences préétablies n'existent pas, l'entreprise recommande de commencer par une approche de rubrique et des critères simples de réussite/échec au lieu d'une échelle de 1 à 10.
- Choisissez le mode de jugement : évaluation absolue ou comparaison par paires
- Définissez clairement les critères de qualité avec des indicateurs observables
- Sélectionnez un modèle juge adapté à votre domaine et à votre budget via Amazon Bedrock
- Exigez une sortie JSON structurée pour que les récompenses puissent être analysées de manière fiable
- Liez la fonction de récompense aux métriques de produit et ajoutez une infrastructure Lambda stable
Un accent particulier est mis sur l'infrastructure. AWS recommande de ne pas dépendre uniquement du juge et de le compléter par des contrôles rapides et déterministes : validité JSON, longueur de réponse, correspondance de langue et filtres de sécurité. Lambda de Récompense doit gérer des milliers d'évaluations par étape d'entraînement, donc un recul exponentiel pour les appels Bedrock, la parallélisation via ThreadPoolExecutor ou les motifs asynchrones, les délais d'expiration jusqu'à 15 minutes et la concurrence provisionée autour de 100 pour les configurations typiques sont recommandés.
Si le juge ou l'API échouent, il est préférable de retourner une récompense neutre que de casser toute l'étape d'entraînement. De plus, les équipes doivent maintenir un ensemble de tests de régression pour le pipeline du juge lui-même.
Étude de Cas de Contrats
À titre de démonstration, AWS décrit un projet avec un partenaire du secteur juridique. L'objectif était d'analyser automatiquement les nouveaux contrats, de les comparer avec les règles internes, les contrats antérieurs et les exigences réglementaires, et de générer du JSON avec des commentaires, des types de remarques et des actions recommandées. L'ensemble de données initial était petit et contenait des contrats annotés par des experts, donc le fine-tuning supervisé classique a produit des résultats limités.
Pour le RFT, ils ont utilisé un modèle juge distinct GPT OSS 120B et une invite de système personnalisée. Le juge vérifiait si un commentaire reposait réellement sur un fragment du contrat lui-même, s'il était conforme au document de référence et si une action pouvait être prise en fonction de celui-ci. Ils ont ensuite enveloppé cela dans une fonction Lambda et lancé l'entraînement via le SDK Nova Forge avec plusieurs générations par exemple et une limite d'appels simultanés de 100.
En résultat, Amazon Nova 2 Lite après RFT a obtenu un score agrégé de 4,33 sur 5 et une validation parfaite du schéma JSON, surpassant Claude Sonnet 4.5 et Claude Haiku 4.5.
AWS note séparément que les versions SFT présentaient des artefacts comme des commentaires répétés et des caractères Unicode étranges, tandis que les points de contrôle RFT ne l'étaient pas. Plus important encore, le modèle a maintenu des résultats solides même après la modification de l'invite du juge, ce qui signifie qu'il a appris non pas une formule de notation spécifique, mais des motifs de qualité plus généraux. L'inconvénient est également énoncé clairement : le RFT exigeait 4–8 rollouts par exemple d'entraînement et était plus coûteux en termes de calcul.
Ce Que Cela Signifie
AWS promeut effectivement le RFT avec LLM-en-tant-que-juge comme une approche viable pour adapter les modèles à des scénarios d'entreprise sensibles où les règles simples sont insuffisantes et l'annotation manuelle est trop coûteuse. Si l'approche Amazon Nova évolue réellement vers la production, les entreprises des secteurs juridique, financier et de la santé obtiennent la capacité d'affiner les modèles selon leurs propres normes tout en contrôlant mieux le format de sortie, la qualité et l'explicabilité.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.