DGX Spark com Qwen3: o teste da NVIDIA que não contou tudo
O novo sistema NVIDIA DGX Spark (GB10), com 128 GB de memória unificada, promete resolver os problemas de execução de grandes modelos de linguagem. No…
Processado por IA de Habr AI; editado por Hamidun News
DGX Spark com Qwen3: o teste da NVIDIA que não contou a história toda
No mundo da inteligência artificial, onde modelos de linguagem grandes (LLM) estão se tornando cada vez mais poderosos e exigentes, o problema da insuficiência de memória para executá-los é particularmente agudo. Muitos entusiastas e até profissionais enfrentam situações em que um modelo com dezenas de bilhões de parâmetros simplesmente não cabe na quantidade limitada de memória de vídeo (VRAM) dos processadores gráficos modernos. Em tais casos, é necessário fazer compromissos: usar "descarregamento" de parte do modelo para o processador central (CPU), o que reduz catastroficamente o desempenho, ou recorrer a soluções na nuvem caras, que também podem causar preocupações sobre privacidade de dados.
A NVIDIA, buscando resolver este problema urgente, apresentou o sistema DGX Spark (também conhecido como GB10), equipado com 128 GB de memória unificada. O preço declarado do dispositivo varia de 400 a 500 mil rublos. No entanto, como mostrado por duas semanas de testes aprofundados, os resultados do trabalho deste sistema com o modelo Qwen3 se mostraram ambíguos, suscitando questões sobre o verdadeiro valor desta solução.
O contexto do problema que o DGX Spark é suposto resolver é bem conhecido por qualquer pessoa que trabalhe com LLM. Uma situação típica é tentar executar um modelo com 32 bilhões de parâmetros em uma placa gráfica ao nível do RTX 4090 com seus 24 GB de VRAM. Inevitavelmente, surge um déficit de memória.
A alternativa na forma de descarregamento para CPU, embora permita executar o modelo, leva a uma queda inaceitável de desempenho. Os serviços em nuvem, por sua vez, não apenas exigem investimento financeiro significativo, mas também levantam questões sobre a segurança e privacidade dos dados processados, já que são transmitidos para servidores de terceiros. É neste contexto que a proposta da NVIDIA na forma de DGX Spark com seus 128 GB de memória unificada parece promissora.
A memória unificada, ao contrário da memória tradicional separada de CPU e GPU, permite que ambos os processadores trabalhem com o mesmo volume de dados sem a necessidade de copiá-los, o que teoricamente deveria acelerar o processamento.
O teste aprofundado do DGX Spark com o modelo Qwen3 revelou uma série de nuances. Benchmarks extensivos foram conduzidos, incluindo comparação de diversos formatos de quantização do modelo (um método que reduz o tamanho do modelo e os requisitos de memória ao custo de alguma perda de precisão), testes com diferentes volumes de contexto de entrada (a quantidade de informação que o modelo processa simultaneamente) e comparação de desempenho com soluções GPU mais familiares. Os resultados se mostraram longe de inequívocos.
Em alguns cenários, o DGX Spark de fato demonstrou vantagens, especialmente quando era necessário operar com grandes volumes de dados que não cabiam na VRAM de placas gráficas padrão. No entanto, em outros casos, especialmente sob cargas intensivas ou ao trabalhar com certos tipos de modelos, o sistema não mostrou os ganhos de desempenho esperados. Além disso, às vezes observou-se que o desempenho do DGX Spark até ficava aquém de soluções bem otimizadas baseadas em múltiplas GPUs poderosas, ou exigia recorrer a recursos na nuvem caros, o que nega a principal vantagem do dispositivo – processamento local de dados.
Vale notar que em alguns testes, quando o modelo não cabia completamente na memória unificada, o sistema automaticamente mudava para usar CPU, o que levava a uma redução significativa de velocidade comparável ao descarregamento regular.
As implicações de tais resultados mistos exigem análise cuidadosa. A eficiência financeira do DGX Spark, a um preço de meio milhão de rublos, levanta questões, especialmente considerando que em vários cenários não fornece superioridade tangível sobre soluções mais acessíveis ou tradicionais. As limitações arquitetônicas do sistema, que se manifestam sob certos tipos de cargas, o tornam não uma solução universal, mas sim um produto de nicho.
Os materiais de marketing da NVIDIA provavelmente enfatizam indicadores de desempenho máximo e cenários onde 128 GB de memória é de fato um fator decisivo, enquanto minimizam situações onde essa arquitetura pode se mostrar ineficiente ou até inferior. Isso significa que possíveis compradores precisam pesar cuidadosamente suas tarefas e compará-las com as capacidades reais do DGX Spark, em vez de contar apenas com promessas publicitárias.
Em conclusão, o DGX Spark com 128 GB de memória unificada representa um passo interessante, mas não ideal, no desenvolvimento de hardware para trabalhar com grandes modelos de linguagem. Pode ser benéfico para uma gama estreita de tarefas onde a capacidade de memória é crítica e onde outras soluções simplesmente não conseguem lidar. No entanto, para a maioria dos usuários, 128 GB de memória unificada não é uma "bala de prata" que resolve todos os problemas.
Devemos reconhecer que para alcançar máximo desempenho e viabilidade de custo, soluções otimizadas baseadas em múltiplas GPUs ou até abordagens híbridas são frequentemente mais preferíveis. Testes cuidadosos e compreensão das características arquitetônicas do DGX Spark são essenciais para determinar se este dispositivo realmente vale seu considerável custo para suas necessidades específicas.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.