LLM local em uma placa de vídeo de 2017: AMD RX 580 + Vulkan + Ollama
A placa de vídeo AMD RX 580, de 2017, consegue executar modelos de linguagem modernos graças ao Vulkan. Sem a complexidade do ROCm, use o Vulkan de forma simple
Processado por IA de Habr AI; editado por Hamidun News
A IA local se tornou realidade até para hardware antigo. A AMD RX 580, uma placa gráfica de 2017, é capaz de executar modelos de linguagem modernos em um computador local com uma velocidade de 15–35 tokens por segundo. Não é nuvem, não é API, não é assinatura — IA pura e local em uma máquina que estava esquecida na gaveta.
Vulkan em vez de ROCm ROCm — o suporte oficial da AMD para aceleração
de GPU — frequentemente cria problemas no Fedora: instalação complexa, incompatibilidades de versão, lacunas na documentação. Vulkan oferece uma alternativa: é uma API gráfica padrão disponível em qualquer lugar, funcionando sem dor. Ollama suporta Vulkan, e isso muda o jogo — não há mais necessidade de lidar com ROCm. Uma velocidade de 15–35 tokens por segundo é bem realista para uma placa gráfica de 2017. Isso não compete com GPUs modernas como a RTX 4090, mas é suficiente para uso local: executar Llama 3.1, DeepSeek, Qwen 3.5, experimentar com modelos, integrar em seus próprios aplicativos sem APIs na nuvem.
Como configurar uma pilha de IA local O processo é surpreendentemente simples: *
Instale Ollama — um inicializador minimalista de modelos para qualquer SO Execute Open WebUI — uma interface da web para interagir com modelos Conecte n8n — uma plataforma para automação e fluxos de trabalho complexos * Carregue qualquer modelo aberto — Llama 3.1, DeepSeek V2, Qwen 3.5 Vulkan é usado automaticamente pelo Ollama se a placa gráfica for compatível. No Fedora, tudo funciona pronto para uso — nenhuma configuração adicional necessária.
Desempenho real
Na AMD RX 580 você obterá: Llama 3.1 70B com quantização: ~20 tokens por segundo DeepSeek V2: ~18 tokens por segundo * Qwen 3.5 32B: ~32 tokens por segundo Isso é suficiente para uso interativo — você não terá uma resposta instantânea como no ChatGPT, mas um resultado totalmente pronto chegará em 5–15 segundos. Para processamento em lote de centenas de textos, a velocidade não importa em absoluto. Além disso: privacidade total. Todos os dados permanecem em sua máquina, sem solicitações para OpenAI, Anthropic ou outros serviços de nuvem.
O que isso significa A IA local não é mais privilégio de proprietários de hardware premium.
Uma placa gráfica antiga que estava sem uso de repente se torna uma ferramenta útil para desenvolvimento e experimentos. Isso abre a porta para IA privada, experimentos independentes de serviços de nuvem e integração de modelos diretamente em seus próprios projetos.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.