AWS a expliqué comment affiner Amazon Nova à l’aide d’un LLM juge pour des tâches d’entreprise complexes

Q: Quelle est la source ?

Publication originale sur AWS Machine Learning Blog. Hamidun News traite et adapte les contenus avec l'IA.

Q: Quand a-t-il été publié ?

30 avr. 2026. Temps de lecture : 3 min.

AWS a montré comment utiliser LLM-as-a-judge pour le reinforcement fine-tuning des modèles Amazon Nova. Au lieu d’une annotation manuelle, un modèle distinct…

Rédaction de Hamidun News

Veille IA · AWS Machine Learning Blog

30 avr. 2026· 3 min

Traité par IA depuis AWS Machine Learning Blog ; édité par Hamidun News

AWS a expliqué comment affiner Amazon Nova à l’aide d’un LLM juge pour des tâches d’entreprise complexes — Source : AWS Machine Learning Blog. Collage: Hamidun News.

◐ Écouter l'article

AWS a expliqué en détail comment appliquer le reinforcement fine-tuning avec l'approche LLM-en-tant-que-juge pour les modèles Amazon Nova. Au lieu d'une annotation manuelle ou d'un ensemble de règles codées en dur, un modèle de langage distinct évalue la qualité de la réponse, et son verdict devient un signal de récompense pour l'entraînement.

Pourquoi un Juge est Nécessaire

Selon AWS, le RFT standard peut être construit soit sur des règles vérifiables comme la correspondance exacte de chaîne, soit sur un schéma où un autre LLM évalue la réponse par rapport à plusieurs critères simultanément. La deuxième option est nécessaire lorsque la qualité ne peut pas être réduite à une seule formule. Pour les tâches d'entreprise, ce qui compte n'est pas seulement l'exactitude factuelle, mais aussi le ton, la sécurité, l'exhaustivité, la pertinence et la conformité aux politiques internes.

Dans cette approche, le modèle juge non seulement attribue une note, mais aide également à expliquer pourquoi une réponse est meilleure qu'une autre. AWS souligne que ce schéma accélère les itérations : les équipes voient exactement où le modèle échoue et peuvent corriger la fonction de récompense plus rapidement. Ceci est particulièrement utile dans les domaines où une erreur ne ressemble pas à un bug évident, mais se manifeste dans les nuances de la formulation, un risque négligé ou un raisonnement faible.

Six Étapes pour la Configuration

AWS divise l'implémentation de LLM-en-tant-que-juge en plusieurs étapes pratiques. D'abord, vous devez choisir le type d'évaluation : basé sur une rubrique, où le juge attribue une note absolue à une réponse, ou basé sur la préférence, où il compare deux options et choisit la meilleure. Si des préférences préétablies n'existent pas, l'entreprise recommande de commencer par une approche de rubrique et des critères simples de réussite/échec au lieu d'une échelle de 1 à 10.

Choisissez le mode de jugement : évaluation absolue ou comparaison par paires
Définissez clairement les critères de qualité avec des indicateurs observables
Sélectionnez un modèle juge adapté à votre domaine et à votre budget via Amazon Bedrock
Exigez une sortie JSON structurée pour que les récompenses puissent être analysées de manière fiable
Liez la fonction de récompense aux métriques de produit et ajoutez une infrastructure Lambda stable

Un accent particulier est mis sur l'infrastructure. AWS recommande de ne pas dépendre uniquement du juge et de le compléter par des contrôles rapides et déterministes : validité JSON, longueur de réponse, correspondance de langue et filtres de sécurité. Lambda de Récompense doit gérer des milliers d'évaluations par étape d'entraînement, donc un recul exponentiel pour les appels Bedrock, la parallélisation via ThreadPoolExecutor ou les motifs asynchrones, les délais d'expiration jusqu'à 15 minutes et la concurrence provisionée autour de 100 pour les configurations typiques sont recommandés.

Si le juge ou l'API échouent, il est préférable de retourner une récompense neutre que de casser toute l'étape d'entraînement. De plus, les équipes doivent maintenir un ensemble de tests de régression pour le pipeline du juge lui-même.

Étude de Cas de Contrats

À titre de démonstration, AWS décrit un projet avec un partenaire du secteur juridique. L'objectif était d'analyser automatiquement les nouveaux contrats, de les comparer avec les règles internes, les contrats antérieurs et les exigences réglementaires, et de générer du JSON avec des commentaires, des types de remarques et des actions recommandées. L'ensemble de données initial était petit et contenait des contrats annotés par des experts, donc le fine-tuning supervisé classique a produit des résultats limités.

Pour le RFT, ils ont utilisé un modèle juge distinct GPT OSS 120B et une invite de système personnalisée. Le juge vérifiait si un commentaire reposait réellement sur un fragment du contrat lui-même, s'il était conforme au document de référence et si une action pouvait être prise en fonction de celui-ci. Ils ont ensuite enveloppé cela dans une fonction Lambda et lancé l'entraînement via le SDK Nova Forge avec plusieurs générations par exemple et une limite d'appels simultanés de 100.

En résultat, Amazon Nova 2 Lite après RFT a obtenu un score agrégé de 4,33 sur 5 et une validation parfaite du schéma JSON, surpassant Claude Sonnet 4.5 et Claude Haiku 4.5.

AWS note séparément que les versions SFT présentaient des artefacts comme des commentaires répétés et des caractères Unicode étranges, tandis que les points de contrôle RFT ne l'étaient pas. Plus important encore, le modèle a maintenu des résultats solides même après la modification de l'invite du juge, ce qui signifie qu'il a appris non pas une formule de notation spécifique, mais des motifs de qualité plus généraux. L'inconvénient est également énoncé clairement : le RFT exigeait 4–8 rollouts par exemple d'entraînement et était plus coûteux en termes de calcul.

Ce Que Cela Signifie

AWS promeut effectivement le RFT avec LLM-en-tant-que-juge comme une approche viable pour adapter les modèles à des scénarios d'entreprise sensibles où les règles simples sont insuffisantes et l'annotation manuelle est trop coûteuse. Si l'approche Amazon Nova évolue réellement vers la production, les entreprises des secteurs juridique, financier et de la santé obtiennent la capacité d'affiner les modèles selon leurs propres normes tout en contrôlant mieux le format de sortie, la qualité et l'explicabilité.

Hamidun News

Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Canal Telegram RSS hamidun.com

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

🎓 Academy — 7 jours gratuits Consultation gratuite