Habr AI→ original

NVIDIA Tesla V100 para modelos de IA locales: prueba en tareas del mundo real

La Tesla V100 de 2017 maneja modelos LLM modernos como Qwen35B y GPT-OSS-20B. La velocidad de generación varía de 38 a 109 tokens por segundo según el modelo. E

NVIDIA Tesla V100 para modelos de IA locales: prueba en tareas del mundo real
Fuente: Habr AI. Collage: Hamidun News.
◐ Escuchar artículo

Tesla V100 16 GB — acelerador de servidor NVIDIA de 2017. ¿Puede funcionar con modelos de lenguaje grandes modernos lanzados en 2025–2026? Los autores de la reseña decidieron comprobarlo y probaron cinco modelos abiertos populares (de Qwen a Gemma) en cinco escenarios reales — desde generación de texto hasta creación de código y juegos.

Velocidad en Números

Tesla V100 está equipada con memoria HBM2 con ancho de banda de ~900 GB/s y rendimiento máximo de 125 TFLOPS en formato FP16 (media precisión). En la práctica, esto proporciona 38–109 tokens por segundo dependiendo del modelo, tamaño y cuantización (nivel de compresión de pesos). El líder en velocidad es GPT-OSS-20B (109 t/s).

El más lento bajo carga completa es Qwen3.6-35b-a3b en cuantización Q4 (19 t/s). Pero aquí hay un giro interesante: cuando los investigadores habilitaron Multi-Token Prediction (MTP) — un modo donde el modelo predice múltiples tokens simultáneamente — la velocidad del mismo Qwen se disparó a 77 t/s.

Un aumento de cuatro veces debido a la predicción paralela. Hay una trampa: MTP funciona de manera confiable en Vulkan, pero en CUDA Qwen con MTP puede ser inestable. Esto es importante recordar al elegir un backend.

Tareas Reales

¿Qué tareas resuelve bien V100 en la realidad?

  • Sitio web de una página: de solicitud de texto a HTML+CSS+JavaScript listo — 1 minuto 45 segundos (GPT-OSS-20B) o 7 minutos 24 segundos (Qwen sin MTP). Todos los cinco modelos generaron exitosamente código válido, incrustaron contenido multimedia y estructuraron correctamente el marcado.
  • Flappy Bird en JavaScript: el juego se crea en 1–7 minutos dependiendo del modelo. La calidad de la implementación varía de código procedural minimalista (mecánica básica de tuberías) a gráficos altamente detallados que se aproximan al juego original.
  • Resumen de documentos: procesar un artículo científico de 17 páginas toma 17–180 segundos. GPT-OSS lo maneja en 17 segundos, Qwen sin aceleración — en 3 minutos. La diferencia es de cinco veces. Para comparación, un humano lee y resume un artículo en 15–20 minutos.

Factor Crítico: Carga de GPU

El principal enemigo de los LLM locales es descargar capas del modelo a la RAM del sistema en lugar de VRAM. Cuando el modelo se coloca completamente en VRAM, la velocidad de generación es estable: 38 t/s. Cuando algunas capas se descargan a RAM, la velocidad cae a 19 t/s — dos veces más lenta.

Esto se explica por la diferencia en ancho de banda: HBM2 funciona a 900 GB/s, mientras que DDR4 en la placa base funciona solo a 50–100 GB/s. Para Qwen3.6-35b en cuantización Q4, se requieren 20–21 GB de VRAM, por lo que 24 GB es el mínimo seguro para uso general.

16 GB es adecuado solo para modelos compactos de hasta 20B parámetros en cuantización agresiva (Q2_K), donde se pierde calidad.

Configuración del PC de prueba: placa base ASRock A520M Phantom Gaming 4, procesador AMD Ryzen 7 5700GE, 64 GB DDR4-3600, SSD Kingston KC3000 1 TB, fuente de poder FSP Vita 750W, Windows 11 Pro, controlador NVIDIA 553.74, LM Studio v0.4.14.

Lo Que Esto Significa

Tesla V100 sigue siendo un acelerador práctico para LLM locales en 2026. No es un rey de velocidad, pero es versátil y económico: más barato que aceleradores modernos (H100, B200) al comprar en el mercado secundario, con suficiente VRAM para trabajar con modelos de 35B parámetros. Si compras V100 con 24 GB de memoria, configuras MTP en el backend Vulkan e instalas controladores actualizados, obtienes una máquina local completa para desarrollar, experimentar y crear prototipos de aplicaciones LLM.

Para uso de nicho (generación de código, procesamiento de documentos, creación de juegos) es una solución práctica y económica. Para escenarios de producción con requisitos de latencia (por debajo de 100 ms) o procesamiento de lotes de alto rendimiento, se necesitan aceleradores modernos como H100 o B200.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.
¿Qué te parece?
Cargando comentarios…