Inférence

Chain-of-Thought (CoT)

Chain-of-Thought (CoT) est une technique de prompting dans laquelle un modèle de langage génère des étapes de raisonnement intermédiaires explicites avant de produire une réponse finale, améliorant considérablement la précision sur les problèmes arithmétiques, logiques et multi-étapes.

Le prompting chain-of-thought (CoT) est une technique où un grand modèle de langage (LLM) produit une séquence d'étapes de raisonnement intermédiaires—une chaîne de logique écrite—avant de déclarer sa réponse finale, plutôt que de mapper directement l'entrée à une sortie. L'approche a été formellement décrite par Wei et al. chez Google Brain dans un article de 2022 qui l'a démontré comme une capacité émergente de modèles suffisamment grands (à peu près 100 milliards de paramètres à l'époque).

CoT peut être tiré de deux manières principales. Le CoT few-shot intègre des exemples travaillés avec des solutions étape par étape dans le prompt, montrant au modèle le format de raisonnement attendu. Le CoT zero-shot utilise des instructions minimales—le plus célèbre étant « Réfléchissons étape par étape »—pour déclencher un comportement similaire sans exemples, une découverte de Kojima et al. (2022). Les systèmes plus récents, y compris la série o d'OpenAI et DeepSeek-R1, internalisent le CoT par l'apprentissage par renforcement à partir de récompenses basées sur les résultats, de sorte que le modèle produit des traces de raisonnement structurées en tant que comportement entraîné plutôt qu'un comportement incité.

CoT est important car il améliore considérablement la performance sur les tâches où la précision dépend du séquençage correct de plusieurs déductions. Sur le benchmark de mathématiques de l'école primaire GSM8K, le PaLM 540B incité par CoT a atteint une précision comparable aux modèles spécifiques à la tâche et fine-tunés sans aucun entraînement spécifique à la tâche. La technique améliore aussi l'interprétabilité : la trace de raisonnement est visible, ce qui facilite l'identification du point de défaillance de la logique d'un modèle.

En 2026, le CoT est omniprésent dans les systèmes IA de pointe. La recherche s'est diversifiée en tree-of-thought (explorant des chemins de raisonnement ramifiés via la recherche), skeleton-of-thought (décomposant les problèmes en sous-problèmes parallèles), et des modèles de récompense de processus (PRMs) qui évaluent chaque étape de raisonnement plutôt que seulement la réponse finale. Les traces CoT internes étendues sont maintenant un composant standard des modèles orientés vers le raisonnement, avec des nombres de jetons de pensée atteignant régulièrement des dizaines de milliers sur les problèmes de mathématiques de compétition.

Exemple

Étant donné le prompt « Un entrepôt a reçu 3 expéditions de 144 unités chacune et en a expédié 275. Combien d'unités restent-il ? », un modèle activé par CoT écrit : « 3 × 144 = 432 unités reçues ; 432 − 275 = 157 unités restantes » avant de renvoyer 157 comme réponse—une approche qui élimine les erreurs arithmétiques à une étape communes en mode de réponse directe.

Termes liés

Modèle de raisonnement Test-Time Compute ReAct Pattern

← Glossaire