Sûreté

Alignement de l'IA

L'alignement de l'IA est le domaine de la recherche et de l'ingénierie préoccupé par la garantie que les systèmes IA poursuivent des objectifs et exhibent des comportements cohérents avec les intentions, les valeurs et les intérêts humains, particulièrement à mesure que les systèmes deviennent plus capables.

L'alignement de l'IA est la discipline de recherche axée sur le fait de faire en sorte que les systèmes IA se comportent conformément aux objectifs, aux valeurs et aux préférences de leurs développeurs et utilisateurs. La préoccupation principale est qu'un système IA pourrait optimiser puissamment pour un objectif qui est subtilement mal spécifié, produisant des résultats qui satisfont l'objectif formel tout en étant nuisibles ou indésirables du point de vue humain — une classe d'échec parfois appelée mauvaise généralisation d'objectif ou manipulation des récompenses.

Les approches d'alignement incluent l'apprentissage par renforcement à partir des retours humains (RLHF), où les évaluateurs humains notent les résultats du modèle pour façonner le comportement vers les réponses souhaitées ; l'IA constitutionnelle (CAI), développée par Anthropic, qui utilise un ensemble écrit de principes et l'auto-critique du modèle pour guider l'entraînement ; et des méthodes basées sur le débat, où les systèmes IA argumentent des positions concurrentes pour l'évaluation humaine. La recherche de supervision scalable aborde le problème plus difficile de garantir que les humains peuvent évaluer significativement le comportement de l'IA même lorsque l'IA devient plus capable que les humains à la tâche pertinente.

Le problème d'alignement a de l'importance car l'écart entre un objectif déclaré et le vrai comportement intentionnel peut causer des résultats nuisibles à des niveaux de capacité suffisants. Même sans scénarios extrêmes, le désalignement se manifeste aujourd'hui par la flagornerie (les modèles acceptant les utilisateurs plutôt que d'être véridiques), la manipulation des récompenses et les modèles qui produisent confidemment des informations fausses parce que la fluidité a été récompensée par rapport à la précision lors de l'entraînement.

En 2026, la recherche d'alignement est active chez Anthropic, Google DeepMind, OpenAI et les centres académiques y compris le Centre pour l'IA compatible avec l'humain (CHAI) de l'UC Berkeley. Les techniques pratiques comme RLHF et l'optimisation des préférences directes (DPO) sont déployées dans chaque grand modèle de langage commercial. Les chercheurs s'accordent largement à dire que les méthodes actuelles abordent le comportement de surface plutôt que la spécification d'objectifs profonds, et que l'alignement pour les systèmes futurs significativement plus capables reste un problème non résolu.

Exemple

Les chercheurs d'Anthropic ont utilisé l'IA constitutionnelle pour entraîner Claude à refuser les demandes nuisibles non pas par filtrage codé en dur mais en intériorisant un ensemble de principes écrits, lui permettant de généraliser les refus appropriés à des situations nouvelles non explicitement couvertes lors de l'entraînement.

Termes liés

Dernières actualités sur le sujet

← Glossaire