Habr AI→ original

NVIDIA Tesla V100 pour les modèles d'IA locaux : test sur des tâches réelles

La Tesla V100 de 2017 gère les modèles LLM modernes comme Qwen35B et GPT-OSS-20B. La vitesse de génération varie de 38 à 109 tokens par seconde selon le modèle.

NVIDIA Tesla V100 pour les modèles d'IA locaux : test sur des tâches réelles
Source : Habr AI. Collage: Hamidun News.
◐ Écouter l'article

Tesla V100 16 GB — accélérateur de serveur NVIDIA de 2017. Peut-il fonctionner avec des modèles de langage larges modernes sortis en 2025–2026 ? Les auteurs de l'examen ont décidé de vérifier et ont testé cinq modèles ouverts populaires (de Qwen à Gemma) sur cinq scénarios réels — de la génération de texte à la création de code et de jeux.

Vitesse en Chiffres

Tesla V100 est équipée de mémoire HBM2 avec une bande passante de ~900 GB/s et une performance maximale de 125 TFLOPS au format FP16 (demi-précision). En pratique, cela donne 38–109 tokens par seconde selon le modèle, la taille et la quantification (niveau de compression des poids). Le leader en vitesse est GPT-OSS-20B (109 t/s).

Le plus lent sous charge complète est Qwen3.6-35b-a3b en quantification Q4 (19 t/s). Mais voici un tournant intéressant : lorsque les chercheurs ont activé Multi-Token Prediction (MTP) — un mode où le modèle prédit plusieurs tokens simultanément — la vitesse du même Qwen a décollé jusqu'à 77 t/s.

Une augmentation de quatre fois grâce à la prédiction parallèle. Il y a un piège : MTP fonctionne de manière fiable sur Vulkan, mais sur CUDA Qwen avec MTP peut être instable. C'est important à retenir lors du choix d'un backend.

Tâches Réelles

Quelles tâches V100 résout-il bien en réalité ?

  • Site web d'une page : de la demande de texte à HTML+CSS+JavaScript prêt — 1 minute 45 secondes (GPT-OSS-20B) ou 7 minutes 24 secondes (Qwen sans MTP). Les cinq modèles ont généré avec succès du code valide, intégré le contenu multimédia et structuré correctement le balisage.
  • Flappy Bird en JavaScript : le jeu est créé en 1–7 minutes selon le modèle. La qualité de la mise en œuvre varie du code procédural minimaliste (mécanique de base des tuyaux) aux graphiques très détaillés proches du jeu original.
  • Résumé de documents : traiter un article scientifique de 17 pages prend 17–180 secondes. GPT-OSS le fait en 17 secondes, Qwen sans accélération — en 3 minutes. La différence est cinq fois. En comparaison, un humain lit et résume un article en 15–20 minutes.

Facteur Critique : Charge GPU

L'ennemi principal des LLM locaux est le déchargement des couches de modèle vers la RAM système au lieu de la VRAM. Lorsque le modèle est entièrement placé en VRAM, la vitesse de génération est stable : 38 t/s. Lorsque certaines couches sont déchargées vers la RAM, la vitesse chute à 19 t/s — deux fois plus lente.

Ceci s'explique par la différence de bande passante : HBM2 fonctionne à 900 GB/s, tandis que DDR4 sur la carte mère fonctionne seulement à 50–100 GB/s. Pour Qwen3.6-35b en quantification Q4, 20–21 GB de VRAM sont requis, donc 24 GB est le minimum sûr pour un usage général.

16 GB convient uniquement pour les modèles compacts jusqu'à 20B paramètres en quantification agressive (Q2_K), où la qualité est perdue.

Configuration du PC de test : carte mère ASRock A520M Phantom Gaming 4, processeur AMD Ryzen 7 5700GE, 64 GB DDR4-3600, SSD Kingston KC3000 1 TB, alimentation FSP Vita 750W, Windows 11 Pro, pilote NVIDIA 553.74, LM Studio v0.4.14.

Ce Que Cela Signifie

Tesla V100 reste un accélérateur pratique pour les LLM locaux en 2026. Pas un roi de la vitesse, mais polyvalent et économique : moins cher que les accélérateurs modernes (H100, B200) lors de l'achat sur le marché secondaire, avec suffisamment de VRAM pour travailler avec des modèles de 35B paramètres. Si vous achetez V100 avec 24 GB de mémoire, configurez MTP sur le backend Vulkan et installez les pilotes actuels, vous obtenez une machine locale complète pour développer, expérimenter et prototyper des applications LLM.

Pour un usage de niche (génération de code, traitement de documents, création de jeux) c'est une solution fonctionnelle et économique. Pour les scénarios de production avec des exigences de latence (inférieures à 100 ms) ou le traitement de lots haute performance, des accélérateurs modernes comme H100 ou B200 sont nécessaires.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.
Qu'en pensez-vous ?
Chargement des commentaires…