Yao Shunyue chez Tencent: pourquoi la star de la recherche en IA a commencé par les bases
Imaginez le meilleur attaquant du monde rejoignant un nouveau club et, dès le premier match, au lieu de simplement marquer des buts, commence à réécrire le…
Traité par IA depuis Jiqizhixin (机器之心) ; édité par Hamidun News
Imaginez le meilleur attaquant du monde rejoignant un nouveau club et, dès le premier match, au lieu de simplement marquer des buts, commence à réécrire le manuel de tactique. C'est à peu près ce que ressemble le premier article scientifique de Yao Shunyu sous les auspices de Tencent. Pour ceux qui l'auraient manqué : Yao est une figure légendaire dans les cercles restreints des chercheurs.
C'est lui qui nous a donné ReAct (Reason + Act) et Tree of Thoughts, enseignant aux réseaux de neurones non seulement à produire du texte, mais à planifier leurs actions et à raisonner. Son récent passage de Princeton à la division de recherche de Tencent a créé un effet de bombe dans l'industrie. Et maintenant, nous voyons les premiers fruits de cette union.
Au lieu d'annoncer immédiatement un tueur du GPT-5, Yao et son équipe ont décidé de regarder sous le capot de l'un des phénomènes les plus mystérieux du monde des grands modèles de langage : l'apprentissage en contexte (In-Context Learning, ICL). Si vous avez déjà donné à un réseau de neurones quelques exemples dans un prompt et qu'il a magiquement compris la tâche, vous avez rencontré ICL. C'est la capacité du modèle à apprendre sans modifier ses poids, directement dans le processus du dialogue.
Jusqu'à présent, ce processus ressemblait à de l'alchimie : nous savions que ça fonctionnait, mais ne comprenions pas tout à fait comment le modèle structurait ces connaissances en interne. Le travail de Yao tente de transformer cette alchimie en une science rigoureuse. Pourquoi Tencent a-t-il jeté ses meilleurs esprits sur cette direction maintenant ?
La réponse réside dans l'état actuel du marché. L'époque où vous pouviez simplement enterrer un modèle sous les données et les cartes graphiques touche à sa fin. Nous entrons dans la deuxième moitié du jeu, où la victoire reviendra à celui qui rendra les modèles plus intelligents et plus efficaces au niveau de l'architecture.
L'apprentissage en contexte est la clé pour créer de véritables agents autonomes. Si le modèle comprend mieux le contexte, il commet moins d'erreurs dans les chaînes complexes de raisonnement et nécessite moins de ressources informatiques pour s'adapter aux besoins spécifiques de l'entreprise. Tencent parie clairement sur la qualité du raisonnement, pas sur la quantité de paramètres.
Dans leur travail, les chercheurs analysent exactement comment les distributions des données d'entrée influencent la capacité du modèle à généraliser. Ce n'est pas simplement une investigation théorique. Comprendre la mécanique de l'ICL permet de créer des systèmes plus stables qui ne se cassent pas avec un seul mot mal choisi dans une instruction.
Face à la concurrence féroce d'Alibaba et DeepSeek, il est vital pour Tencent d'avoir un avantage technologique qu'on ne peut pas simplement copier en achetant dix mille autres puces H100. Ils ont besoin de percées algorithmiques, et Yao Shunyu est exactement la personne qui peut les livrer. C'est aussi intéressant de voir comment ce travail s'inscrit dans la stratégie plus large des géants technologiques chinois.
Nous voyons un changement clair du copier des architectures occidentales à la tentative de diriger la recherche fondamentale. Si auparavant les entreprises chinoises jouaient souvent le rôle de suiveurs, maintenant elles recrutent les meilleurs scientifiques directement des bancs des principales universités américaines et leur donnent un chèque en blanc pour la recherche approfondie. Cela crée une nouvelle dynamique dans l'industrie, où les frontières entre la science académique et le développement d'entreprise s'effacent enfin.
L'essentiel : Tencent investit dans la fondation, pas dans la façade. Si Yao Shunyu comprend la mécanique de l'apprentissage en contexte, la prochaine itération de leurs modèles pourrait laisser les concurrents bien loin derrière par l'efficacité, pas par la force brute. La compréhension de l'ICL peut-elle devenir le levier qui transformera notre compréhension des possibilités des architectures actuelles ?
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.