Ollama acelera a execução local de AI no Apple M5: é preciso um Mac com pelo menos 32 GB de memória

Q: Qual é a fonte?

Publicado originalmente em 3DNews AI. O Hamidun News processa e adapta os materiais com IA.

Q: Quando foi publicado?

2 de mai. de 2026. Tempo de leitura: 3 min.

A Ollama lançou a versão 0.19 com aceleração de hardware para Apple M5, M5 Pro e M5 Max. Com MLX e os novos aceleradores, os modelos locais no Mac entregam o…

Redação da Hamidun News

Monitoramento de AI · 3DNews AI

2 de mai. de 2026· 3 min

Processado por IA de 3DNews AI; editado por Hamidun News

Ollama acelera a execução local de AI no Apple M5: é preciso um Mac com pelo menos 32 GB de memória — Fonte: 3DNews AI. Colagem: Hamidun News.

◐ Ouvir artigo

Ollama adicionou aceleração de hardware para Apple M5, M5 Pro e M5 Max, para que modelos de IA locais no macOS sejam executados significativamente mais rápido. O novo esquema funciona em modo preview e requer no mínimo 32 GB de memória unificada.

O que Mudou

Ollama é uma das ferramentas mais proeminentes para executar modelos de linguagem grandes localmente no Windows, Linux e macOS. Na versão 0.19, os desenvolvedores moveram as operações do Apple Silicon para um novo modo baseado em MLX — o próprio framework ML da Apple, que utiliza melhor a memória unificada do chip e seus blocos computacionais. Para os usuários, isso significa inicializações de resposta mais rápidas e velocidades de geração mais altas sem ir para a nuvem e sem transmitir dados para um serviço externo.

O ponto-chave é que a aceleração está atualmente vinculada especificamente à família Apple M5. De acordo com Ollama, o aplicativo aprendeu a acessar os novos GPU Neural Accelerators nos chips M5, M5 Pro e M5 Max. Estes são o que fornecem a melhoria tanto no tempo até o primeiro token quanto na velocidade geral de saída. Isto é especialmente importante para cenários onde o modelo não apenas responde em uma interface de bate-papo, mas continuamente recebe contexto longo, ferramentas e histórico de ações.

Onde a Melhoria é Visível

Nos números, a atualização parece bastante prática. No teste oficial de Ollama, a empresa comparou a versão 0.19 com 0.18 no modelo Qwen3.5-35B-A3B: a velocidade de prefill aumentou de 1154 para 1810 tokens por segundo, e decode de 58 para 112 tokens por segundo. Para quantização int4, os desenvolvedores prometem números ainda mais altos — até 1851 tokens por segundo em prefill e até 134 em decode. Esta é uma diferença já notável não apenas em benchmarks, mas também no trabalho cotidiano.

"Esta é a forma mais rápida de executar

Ollama no Apple Silicon", escrevem os desenvolvedores no anúncio de lançamento preview.

Desempenho mais rápido é esperado não apenas para bate-papos locais comuns, mas também para ferramentas onde o modelo continuamente processa código, comandos e prompts longos:

assistentes pessoais como OpenClaw
agentes de código como Claude Code, OpenCode e Codex
sessões longas com prompts de sistema compartilhados e ramificação de diálogo
cenários locais onde privacidade e baixa latência importam

Adicionalmente, Ollama atualizou o mecanismo de cache. Agora o aplicativo pode reutilizar cache entre diferentes conversas, salvá-lo em pontos de prompt bem-sucedidos e manter prefixos comuns na memória por mais tempo. Para cenários de código e agentes, isso importa mais do que parece: quando uma ferramenta frequentemente retorna ao mesmo contexto de sistema, reduzir reprocessamento desnecessário de prompt acelera diretamente as respostas.

Limitações e Detalhes

A limitação principal é simples: você precisa de um Mac com pelo menos 32 GB de memória unificada. Para IA local, isto é crítico porque no Apple Silicon a memória é compartilhada entre a CPU, GPU e outros aceleradores, e modelos grandes rapidamente consomem a capacidade disponível. Em outras palavras, a notícia diz respeito não apenas a qualquer Mac M5, mas apenas a configurações suficientemente caras onde há memória suficiente para o próprio modelo, cache e carga de trabalho.

Há uma segunda limitação: por enquanto é sobre uma implementação preview e um conjunto inicial bastante estreito. No anúncio, Ollama especificamente observou que o lançamento primeiro acelera o novo modelo Qwen3.5-35B-A3B com configurações para tarefas de programação. Suporte para outras arquiteturas e importação mais conveniente de modelos customizados ainda está em progresso. Ou seja, isto não é aceleração instantânea de "tudo de uma vez," mas o primeiro passo em direção a otimização mais profunda de IA local para novos Macs.

Separadamente vale a pena notar o suporte para NVFP4 e melhorias que aproximam a execução local de ambientes de produção. NVFP4 reduz requisitos de memória e largura de banda sem perda de qualidade significativa, significando que usuários podem obter resultados mais próximos ao que provedores modernos de inferência oferecem. Combinado com MLX, isto transforma Ollama de apenas um wrapper de modelo conveniente em uma plataforma local mais séria para desenvolvimento e experimentação.

O que Isto Significa

Para o mercado de IA local, este é um sinal importante: Mac está cada vez mais se tornando uma máquina de trabalho não apenas para executar pequenos modelos com pesos abertos, mas também para cenários de agentes completos. Para desenvolvedores e usuários avançados, a vantagem é clara — menos latência, mais privacidade, menos dependência na nuvem. Mas essa história ainda não se tornará mainstream: o custo de entrada permanece alto devido ao requisito de Apple M5 e 32 GB de memória.

Hamidun News

Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Canal do Telegram RSS hamidun.com

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

🎓 Academy — 7 dias grátis Consultoria grátis