Inférence

Test-Time Compute

Test-time compute (TTC) est le budget de calcul—cycles de traitement, mémoire et temps—qu'un modèle dépense pendant l'inférence plutôt que pendant l'entraînement, lui permettant de consacrer plus d'efforts aux problèmes plus difficiles sans aucune modification de ses poids.

Test-time compute (TTC) est le calcul qu'un modèle de réseau neuronal utilise au moment de l'inférence, c'est-à-dire lors de la génération des sorties pour une entrée donnée, distinct du calcul fixe dépensé pendant l'entraînement. Contrairement au coût d'entraînement, qui est une dépense unique, le TTC peut être mis à l'échelle dynamiquement par requête : les requêtes faciles reçoivent un calcul minimal, tandis que les requêtes difficiles en reçoivent considérablement plus, permettant l'allocation adaptative de ressources sans réentraînement.

Les modèles exploitent un calcul de test-temps supplémentaire par plusieurs mécanismes. L'échantillonnage best-of-N génère plusieurs réponses candidates et sélectionne la mieux notée en utilisant un modèle de récompense. Les boucles d'auto-affinage itératives permettent à un modèle de critiquer et de réviser son propre brouillon. Plus particulièrement, le raisonnement chaîne-de-pensée étendu produit de longues traces de raisonnement interne—parfois des milliers de jetons—avant d'émettre une réponse finale. Les modèles o1 (publié en septembre 2024) et o3 d'OpenAI sont les exemples les plus largement cités d'architectures explicitement optimisées pour mettre à l'échelle le TTC par un raisonnement renforcé par l'apprentissage.

L'intuition centrale est que la performance sur les tâches de raisonnement difficiles—mathématiques de compétition, génération de code complexe, planification multi-étapes—s'adapte prévisiblement avec le calcul de test-temps, similaire à la manière dont la performance d'entraînement s'adapte avec le calcul d'entraînement. Cela déplace un levier de conception clé de la phase d'entraînement (coûteux, peu fréquent) à la phase d'inférence (à la demande, facturable par requête), et permet aux fournisseurs d'offrir une qualité échelonnée à un coût échelonné.

En 2026, la mise à l'échelle du TTC est devenue un axe de conception courant dans les laboratoires de pointe. Gemini 2.0 Flash Thinking de Google, DeepSeek-R1 et Claude 3.7 Sonnet d'Anthropic avec la pensée étendue exposent tous des budgets de jetons de raisonnement explicites. La recherche se concentre sur les stratégies de recherche efficaces—telles que la recherche d'arbre de Monte Carlo appliquée à la génération de jetons et les modèles de récompense de processus qui notent les étapes intermédiaires—pour maximiser la qualité de la sortie par unité de calcul dépensé.

Exemple

Lorsqu'on lui demande de prouver une identité de combinatoire non triviale, un modèle configuré avec un budget TTC élevé génère plus de 800 jetons de raisonnement intermédiaire—explorant plusieurs stratégies de preuve et vérifiant les contradictions—avant de s'engager sur une réponse finale vérifiée, atteignant une précision sur les benchmarks de niveau compétition qu'une réponse de passage unique direct ne peut pas égaler.

Termes liés

Modèle de raisonnement Chain-of-Thought (CoT)Inférence Lois de mise à l'échelle

← Glossaire