MarkTechPost→ original

Google plaide pour penser plus en profondeur, pas plus longtemps — et divise par deux les coûts d'inférence

Une étude conjointe de Google et de l'Université de Virginie remet en cause le dogme central de ces dernières années : plus la chaîne de raisonnement…

Traité par IA depuis MarkTechPost ; édité par Hamidun News
Google plaide pour penser plus en profondeur, pas plus longtemps — et divise par deux les coûts d'inférence
Source : MarkTechPost. Collage: Hamidun News.
◐ Écouter l'article

Au cours des dernières années, l'industrie des grands modèles de langage a vécu selon une règle non dite : si vous voulez une réponse plus précise d'un modèle sur une question complexe, faites-le penser plus longtemps. La technique Chain-of-Thought, où un modèle construit une chaîne de raisonnement étape par étape avant la réponse finale, est devenue l'étalon-or. Les développeurs allongeaient ces chaînes, élargissaient les fenêtres contextuelles, dépensaient plus de ressources informatiques pour chaque requête. Mais une nouvelle recherche menée conjointement par l'Université de Virginie et Google affirme : nous avons confondu verbosité et intelligence tout ce temps.

L'idée sous-jacente du travail est trompeusement simple. Les chercheurs se sont demandé : est-ce que chaque jeton supplémentaire dans une chaîne de raisonnement rapproche réellement le modèle de la bonne réponse ? Ou une part significative de ces jetons est-elle du bruit informationnel, de la répétition et du piétinement sur place ? Pour répondre à cette question, l'équipe a introduit une nouvelle métrique — Deep-Thinking Ratio, ou coefficient de pensée profonde. Au lieu de mesurer la longueur du raisonnement en jetons, cette métrique évalue quelle fraction du raisonnement contient réellement des étapes logiques productives — celles qui conduisent à résoudre le problème plutôt que de simplement remplir l'espace.

Les résultats ont été frappants. L'analyse a montré que dans les chaînes de raisonnement longues typiques des LLM modernes, une énorme partie des étapes intermédiaires n'a aucune charge sémantique réelle. Un modèle peut reformuler la même pensée des dizaines de fois, revenir à des étapes déjà couvertes, générer des explications redondantes — et tout cela coûte de l'argent réel. Chaque jeton supplémentaire à la phase d'inférence — c'est du temps GPU, de l'électricité et de la latence pour l'utilisateur final. À l'échelle des grands services traitant des milliards de requêtes, nous parlons de sommes colossales.

La réussite clé de la recherche est que, en optimisant le processus de raisonnement en tenant compte de la Deep-Thinking Ratio, ils ont réussi à atteindre deux choses simultanément qui sont généralement considérées comme mutuellement exclusives. La précision des réponses du modèle s'est améliorée — car l'élimination des étapes improductives réduit réellement la probabilité que le modèle « se perde » dans son propre raisonnement et arrive à une conclusion erronée. Et les coûts globaux d'inférence ont été réduits d'environ moitié — car le modèle génère considérablement moins de jetons par requête. Ce n'est pas un compromis entre la qualité et le coût, mais un cas rare où l'optimisation d'un paramètre améliore les deux.

Pour comprendre l'ampleur de cette découverte, il convient de rappeler le contexte. Le coût d'inférence est l'un des principaux maux de tête de l'industrie. OpenAI, Google, Anthropic et d'autres entreprises dépensent des milliards de dollars en infrastructure informatique, et une part importante de ces dépenses va à la génération de réponses pour les utilisateurs.

Des modèles comme o1 et o3 d'OpenAI, ainsi que Gemini avec pensée étendue de Google, ont été spécifiquement conçus pour de longues chaînes de raisonnement. S'il s'avère que la moitié de ces raisonnements peut être supprimée sans problème — ou plus précisément, apprendre au modèle à ne pas les générer en premier lieu — l'effet économique se mesurera en centaines de millions de dollars par an.

Il y a aussi un aspect théorique plus profond. La recherche remet effectivement en question le paradigme même de mise à l'échelle de l'inférence qui a dominé en 2024-2025. Si « penser plus longtemps » n'équivaut pas à « penser mieux », alors la course à l'expansion des fenêtres contextuelles et à l'augmentation des budgets informatiques pour le raisonnement est une impasse.

À la place, l'industrie devrait peut-être se concentrer sur la qualité de chaque étape de raisonnement plutôt que sur leur nombre. Cela se fait écho de la manière dont fonctionne la pensée humaine : un expert résout un problème non pas parce qu'il pense plus longtemps qu'un débutant, mais parce que chacune de ses étapes de pensée est plus délibérée.

Les conséquences pratiques pour les développeurs et les utilisateurs pourraient se manifester assez rapidement. Deep-Thinking Ratio est une métrique qu'il est relativement simple d'intégrer dans les pipelines existants d'entraînement et d'évaluation des modèles. On peut s'attendre à ce que les grands laboratoires commencent à utiliser des approches similaires lors du fine-tuning, et que les fournisseurs de cloud les utilisent pour optimiser les coûts des appels API. Pour les utilisateurs finaux, cela signifie des réponses plus rapides et plus précises au même prix ou moins.

La recherche de Google et de l'Université de Virginie rappelle à l'industrie une vérité importante qu'il est facile d'oublier dans la course à la mise à l'échelle : l'efficacité ne concerne pas le « plus », mais le « plus précis.» Les modèles de l'avenir ne seront probablement pas ceux qui pensent le plus longtemps, mais ceux qui savent penser substantiellement.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…