MarkTechPost→ original

HPC-Ops de Tencent : le logiciel chinois tire le maximum du matériel américain

Tandis que le monde débat de quel modèle est le plus intelligent, les ingénieurs de Tencent ont décidé d'aborder un problème concret mais bien plus critique…

Traité par IA depuis MarkTechPost ; édité par Hamidun News
HPC-Ops de Tencent : le logiciel chinois tire le maximum du matériel américain
Source : MarkTechPost. Collage: Hamidun News.
◐ Écouter l'article

Tandis que le monde débat de quel modèle est le plus intelligent, les ingénieurs de Tencent ont décidé d'aborder un problème concret mais bien plus critique — comment cesser de gaspiller des budgets en calculs inefficaces. Tous sont habitués à écrire des réseaux de neurones en Python, mais lorsqu'il s'agit de charges de travail réelles en production, les langages interprétés deviennent un fardeau. Un accès direct au matériel est nécessaire, et c'est précisément ce que fournit la nouvelle bibliothèque HPC-Ops. Ce n'est pas simplement un autre ensemble de scripts, mais une bibliothèque complète d'opérateurs pour l'inférence hautes performances, que Tencent Hunyuan a passé des années à affiner sur ses services internes.

Le problème fondamental est simple : les architectures modernes comme Mixture of Experts (MoE) ou les transformers avec contexte massif sont extrêmement exigeantes en termes de bande passante mémoire et de puissance de calcul GPU. Les bibliothèques standard de NVIDIA ne correspondent pas toujours parfaitement aux besoins spécifiques d'architectures particulières. Tencent a suivi la voie de la personnalisation et a réécrit les noyaux CUDA critiques pour des opérations comme Attention et Grouped GEMM. Ce sont les briques de construction fondamentales à partir desquelles tout modèle de langage moderne est construit. Si ces briques sont tordues, toute la structure s'effondrera et les factures infonuagiques exploseront.

Une attention particulière dans HPC-Ops a été accordée au Fused MoE — une technique qui permet de combiner plusieurs étapes de calcul en une seule traversée de la mémoire. Dans les architectures de « mélange d'experts », c'est critiquement important, car le transfert constant de données entre différentes parties du GPU crée des latences massives. L'optimisation de ces processus permet aux modèles de répondre plus rapidement, ce qui affecte directement l'expérience utilisateur. Personne ne veut attendre cinq secondes pendant qu'un chatbot comprend comment terminer une phrase.

Pourquoi Tencent a-t-elle décidé d'ouvrir le code précisément maintenant ? La réponse réside dans le contexte mondial. Sous les sanctions et la pénurie de puces de pointe comme le H100, les entreprises chinoises sont forcées de devenir des champions de l'efficacité. Quand vous n'avez pas un approvisionnement infini de GPUs, vous commencez à polir le logiciel jusqu'à la perfection. En lançant HPC-Ops en tant que code source ouvert, Tencent offre effectivement au marché une norme qui peut concurrencer les solutions de NVIDIA ou Meta. C'est un coup fort dans la lutte pour l'influence dans la communauté des développeurs d'infrastructures.

Pour le développeur typique, cela signifie que la barrière d'entrée pour créer des services IA rapides et bon marché s'est abaissée légèrement. La bibliothèque fournit des API compacts pour C et Python, permettant d'intégrer ces innovations dans les projets existants sans avoir besoin de tout réécrire à partir de zéro. C'est un pont entre la recherche académique et la réalité entreprise impitoyable, où chaque milliseconde compte.

À long terme, de tels lancements remodelent le paysage de l'industrie. Nous passons de l'ère du « faites-le simplement fonctionner » à l'ère du « faites-le maximalement efficacement ». Tencent signale clairement qu'elle n'est pas simplement consommatrice de technologie, mais celle qui dicte les règles du jeu au niveau de l'architecture. Maintenant, la question est seulement de savoir avec quelle rapidité ces innovations seront adoptées par d'autres grands acteurs et si HPC-Ops deviendra partie intégrante de la pile standard pour l'inférence LLM dans le monde entier.

L'essentiel : Tencent déplace la lutte pour le marché de l'IA vers l'efficacité computationnelle. Les frameworks occidentaux peuvent-ils offrir quelque chose d'aussi optimisé pour travailler avec MoE ?

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…