Modèle de raisonnement
Un modèle de raisonnement est un système d'IA conçu pour résoudre des problèmes complexes et multi-étapes en générant des étapes de raisonnement intermédiaires explicites — souvent appelées chaîne de pensée — avant de produire une réponse finale.
Un modèle de raisonnement est un modèle de langage spécifiquement optimisé pour s'engager dans une décomposition de problème délibérée et étape par étape plutôt que de mapper directement une entrée vers une sortie en une seule passe avant. Avant de s'engager sur une réponse, le modèle génère une séquence interne ou visible d'étapes de raisonnement — vérifiant les sous-problèmes, identifiant les erreurs dans les étapes antérieures et intégrant les conclusions intermédiaires. Ce calcul supplémentaire au moment de l'inférence permet au modèle d'échanger de la latence d'inférence contre de la précision sur les tâches que la génération autoregressive standard traite mal.
La technique dominante pour produire des modèles de raisonnement est l'apprentissage par renforcement à partir de récompenses vérifiables (RLVR). Les modèles sont entraînés sur des domaines où l'exactitude peut être vérifiée automatiquement — problèmes mathématiques avec réponses numériques, logique formelle et code avec suites de tests exécutables. Les réponses finales correctes génèrent une récompense positive ; les réponses incorrectes génèrent une récompense négative. Aucune étiquette humaine sur les étapes de raisonnement intermédiaires n'est requise. Le o1 d'OpenAI (lancé en septembre 2024) a démontré cette approche à grande échelle ; les systèmes ultérieurs y compris OpenAI o3, DeepSeek-R1 (janvier 2025, poids ouverts), le mode de pensée étendue d'Anthropic dans Claude 3.7 et Google Gemini 2.5 Pro ont suivi le même paradigme. Les tokens de raisonnement intermédiaires — parfois des milliers de mots de calcul interne — sont souvent cachés des utilisateurs finaux ou présentés dans un bloc de pensée repliable.
Les modèles de raisonnement améliorent considérablement les performances sur les tâches nécessitant une inférence logique multi-étapes, où les erreurs dans les étapes antérieures se répercutent en réponses finales incorrectes. Sur l'American Invitational Mathematics Examination (AIME), les modèles de raisonnement ont atteint des performances à haut score en 2024–2025 qui les placent parmi les meilleurs concurrents humains. Sur GPQA Diamond, un repère de questions scientifiques au niveau du doctorat, le o3 d'OpenAI a dépassé les scores moyens des experts humains. En génie logiciel, les modèles de raisonnement résolvent une fraction considérablement plus élevée de vrais bugs de dépôt sur le repère SWE-bench que leurs homologues sans raisonnement.
Le principal compromis est le coût et la latence d'inférence : un modèle de raisonnement peut passer des secondes à des minutes à générer une chaîne de pensée avant de répondre, et les tokens supplémentaires consommés peuvent augmenter considérablement les coûts de l'API. Cela a entraîné le développement de variantes d'efficacité — o3-mini, série DeepSeek-R1-Distill, Gemini 2.5 Flash — qui conservent la plupart des capacités de raisonnement avec un calcul inférieur. La sélection entre un modèle standard et un modèle de raisonnement dépend généralement de la question de savoir si la complexité de la tâche justifie l'augmentation de la latence et du coût.