DGX Spark avec Qwen3 : le test de NVIDIA qui n'a pas tout dit
Le nouveau système NVIDIA DGX Spark (GB10), avec 128 Go de mémoire unifiée, promet de résoudre les problèmes d'exécution des grands modèles de langage…
Traité par IA depuis Habr AI ; édité par Hamidun News
DGX Spark avec Qwen3 : le test de NVIDIA qui ne racontait pas toute l'histoire
Dans le monde de l'intelligence artificielle, où les grands modèles de langage (LLM) deviennent de plus en plus puissants et exigeants, le problème de l'insuffisance de mémoire pour les exécuter est particulièrement aigu. De nombreux enthousiastes et même des professionnels sont confrontés à des situations où un modèle avec des dizaines de milliards de paramètres ne rentre simplement pas dans la quantité limitée de mémoire vidéo (VRAM) des processeurs graphiques modernes. Dans de tels cas, il est nécessaire de faire des compromis : soit utiliser le « déchargement » d'une partie du modèle vers le processeur central (CPU), ce qui réduit catastrophiquement les performances, soit recourir à des solutions cloud coûteuses, qui peuvent également susciter des préoccupations concernant la confidentialité des données.
NVIDIA, cherchant à résoudre ce problème urgent, a présenté le système DGX Spark (également connu sous le nom de GB10), équipé de 128 GB de mémoire unifiée. Le prix déclaré de l'appareil varie de 400 à 500 mille roubles. Cependant, comme l'a montré deux semaines de tests approfondis, les résultats du fonctionnement de ce système avec le modèle Qwen3 se sont avérés ambigus, soulevant des questions sur la véritable valeur de cette solution.
Le contexte du problème que DGX Spark est censé résoudre est bien connu de quiconque travaille avec les LLM. Une situation typique est la tentative d'exécuter un modèle avec 32 milliards de paramètres sur une carte graphique du niveau RTX 4090 avec ses 24 GB de VRAM. Inévitablement, un déficit de mémoire apparaît.
L'alternative sous la forme d'un déchargement vers le CPU, bien qu'elle permet d'exécuter le modèle, entraîne une baisse inacceptable des performances. Les services cloud, en revanche, non seulement exigent un investissement financier considérable, mais soulèvent également des questions sur la sécurité et la confidentialité des données traitées, car elles sont transmises à des serveurs tiers. C'est dans ce contexte que la proposition de NVIDIA sous la forme de DGX Spark avec ses 128 GB de mémoire unifiée semble prometteuse.
La mémoire unifiée, contrairement à la mémoire séparée traditionnelle du CPU et du GPU, permet aux deux processeurs de travailler avec le même volume de données sans besoin de les copier, ce qui devrait théoriquement accélérer le traitement.
Les tests approfondis de DGX Spark avec le modèle Qwen3 ont révélé une série de nuances. Des benchmarks extensifs ont été menés, incluant la comparaison de différents formats de quantification du modèle (une méthode qui réduit la taille du modèle et les exigences de mémoire au prix de certaine perte de précision), les tests avec différents volumes de contexte d'entrée (la quantité d'information que le modèle traite simultanément) et la comparaison des performances avec des solutions GPU plus traditionnelles. Les résultats se sont avérés loin d'être univoques.
Dans certains scénarios, DGX Spark a en effet démontré des avantages, en particulier lorsqu'il était nécessaire de traiter de grands volumes de données qui ne rentraient pas dans la VRAM des cartes graphiques standard. Cependant, dans d'autres cas, en particulier sous des charges intensives ou lorsque vous travaillez avec certains types de modèles, le système n'a pas montré les améliorations de performances attendues. De plus, il a parfois été observé que les performances de DGX Spark était même inférieure aux solutions bien optimisées basées sur plusieurs GPU puissants, ou nécessitaient de recourir à des ressources cloud coûteuses, ce qui annule le principal avantage de l'appareil – le traitement local des données.
Il est à noter que dans certains tests, lorsque le modèle ne rentrait pas complètement dans la mémoire unifiée, le système basculait automatiquement sur l'utilisation du CPU, ce qui entraînait un ralentissement significatif comparable au déchargement régulier.
Les implications de ces résultats si mitigés nécessitent une analyse attentive. L'efficacité financière de DGX Spark, à un prix d'un demi-million de roubles, soulève des questions, en particulier si l'on considère que dans de nombreux scénarios, il ne fournit pas de supériorité tangible par rapport à des solutions plus accessibles ou traditionnelles. Les limitations architecturales du système, qui se manifestent sous certains types de charges, en font non pas une solution universelle, mais plutôt un produit de niche.
Les matériaux marketing de NVIDIA mettent probablement l'accent sur les indicateurs de performance maximale et les scénarios où 128 GB de mémoire sont réellement un facteur décisif, tout en minimisant les situations où cette architecture pourrait s'avérer inefficace ou même inférieure. Cela signifie que les acheteurs potentiels doivent soigneusement peser leurs tâches et les comparer avec les capacités réelles de DGX Spark, plutôt que de se fier uniquement aux promesses publicitaires.
En conclusion, DGX Spark avec 128 GB de mémoire unifiée représente une étape intéressante, mais non idéale, dans le développement du matériel pour travailler avec les grands modèles de langage. Il peut être bénéfique pour une gamme étroite de tâches où la capacité mémoire est critique et où d'autres solutions ne peuvent simplement pas faire face. Cependant, pour la plupart des utilisateurs, 128 GB de mémoire unifiée n'est pas une « balle magique » qui résout tous les problèmes.
Nous devons reconnaître que pour atteindre les performances maximales et la viabilité économique, les solutions optimisées basées sur plusieurs GPU ou même les approches hybrides sont souvent plus préférables. Des tests minutieux et une compréhension des caractéristiques architecturales de DGX Spark sont essentiels pour déterminer si cet appareil vaut véritablement son coût considérable pour vos besoins spécifiques.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.