Habr AI→ original

LLM local em uma placa de vídeo de 2017: AMD RX 580 + Vulkan + Ollama

A placa de vídeo AMD RX 580, de 2017, consegue executar modelos de linguagem modernos graças ao Vulkan. Sem a complexidade do ROCm, use o Vulkan de forma simple

Processado por IA de Habr AI; editado por Hamidun News
LLM local em uma placa de vídeo de 2017: AMD RX 580 + Vulkan + Ollama
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

A IA local se tornou realidade até para hardware antigo. A AMD RX 580, uma placa gráfica de 2017, é capaz de executar modelos de linguagem modernos em um computador local com uma velocidade de 15–35 tokens por segundo. Não é nuvem, não é API, não é assinatura — IA pura e local em uma máquina que estava esquecida na gaveta.

Vulkan em vez de ROCm ROCm — o suporte oficial da AMD para aceleração

de GPU — frequentemente cria problemas no Fedora: instalação complexa, incompatibilidades de versão, lacunas na documentação. Vulkan oferece uma alternativa: é uma API gráfica padrão disponível em qualquer lugar, funcionando sem dor. Ollama suporta Vulkan, e isso muda o jogo — não há mais necessidade de lidar com ROCm. Uma velocidade de 15–35 tokens por segundo é bem realista para uma placa gráfica de 2017. Isso não compete com GPUs modernas como a RTX 4090, mas é suficiente para uso local: executar Llama 3.1, DeepSeek, Qwen 3.5, experimentar com modelos, integrar em seus próprios aplicativos sem APIs na nuvem.

Como configurar uma pilha de IA local O processo é surpreendentemente simples: *

Instale Ollama — um inicializador minimalista de modelos para qualquer SO Execute Open WebUI — uma interface da web para interagir com modelos Conecte n8n — uma plataforma para automação e fluxos de trabalho complexos * Carregue qualquer modelo aberto — Llama 3.1, DeepSeek V2, Qwen 3.5 Vulkan é usado automaticamente pelo Ollama se a placa gráfica for compatível. No Fedora, tudo funciona pronto para uso — nenhuma configuração adicional necessária.

Desempenho real

Na AMD RX 580 você obterá: Llama 3.1 70B com quantização: ~20 tokens por segundo DeepSeek V2: ~18 tokens por segundo * Qwen 3.5 32B: ~32 tokens por segundo Isso é suficiente para uso interativo — você não terá uma resposta instantânea como no ChatGPT, mas um resultado totalmente pronto chegará em 5–15 segundos. Para processamento em lote de centenas de textos, a velocidade não importa em absoluto. Além disso: privacidade total. Todos os dados permanecem em sua máquina, sem solicitações para OpenAI, Anthropic ou outros serviços de nuvem.

O que isso significa A IA local não é mais privilégio de proprietários de hardware premium.

Uma placa gráfica antiga que estava sem uso de repente se torna uma ferramenta útil para desenvolvimento e experimentos. Isso abre a porta para IA privada, experimentos independentes de serviços de nuvem e integração de modelos diretamente em seus próprios projetos.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…