3DNews AI→ original

Ollama acelera a execução local de AI no Apple M5: é preciso um Mac com pelo menos 32 GB de memória

A Ollama lançou a versão 0.19 com aceleração de hardware para Apple M5, M5 Pro e M5 Max. Com MLX e os novos aceleradores, os modelos locais no Mac entregam o…

Processado por IA de 3DNews AI; editado por Hamidun News
Ollama acelera a execução local de AI no Apple M5: é preciso um Mac com pelo menos 32 GB de memória
Fonte: 3DNews AI. Colagem: Hamidun News.
◐ Ouvir artigo

Ollama adicionou aceleração de hardware para Apple M5, M5 Pro e M5 Max, para que modelos de IA locais no macOS sejam executados significativamente mais rápido. O novo esquema funciona em modo preview e requer no mínimo 32 GB de memória unificada.

O que Mudou

Ollama é uma das ferramentas mais proeminentes para executar modelos de linguagem grandes localmente no Windows, Linux e macOS. Na versão 0.19, os desenvolvedores moveram as operações do Apple Silicon para um novo modo baseado em MLX — o próprio framework ML da Apple, que utiliza melhor a memória unificada do chip e seus blocos computacionais. Para os usuários, isso significa inicializações de resposta mais rápidas e velocidades de geração mais altas sem ir para a nuvem e sem transmitir dados para um serviço externo.

O ponto-chave é que a aceleração está atualmente vinculada especificamente à família Apple M5. De acordo com Ollama, o aplicativo aprendeu a acessar os novos GPU Neural Accelerators nos chips M5, M5 Pro e M5 Max. Estes são o que fornecem a melhoria tanto no tempo até o primeiro token quanto na velocidade geral de saída. Isto é especialmente importante para cenários onde o modelo não apenas responde em uma interface de bate-papo, mas continuamente recebe contexto longo, ferramentas e histórico de ações.

Onde a Melhoria é Visível

Nos números, a atualização parece bastante prática. No teste oficial de Ollama, a empresa comparou a versão 0.19 com 0.18 no modelo Qwen3.5-35B-A3B: a velocidade de prefill aumentou de 1154 para 1810 tokens por segundo, e decode de 58 para 112 tokens por segundo. Para quantização int4, os desenvolvedores prometem números ainda mais altos — até 1851 tokens por segundo em prefill e até 134 em decode. Esta é uma diferença já notável não apenas em benchmarks, mas também no trabalho cotidiano.

"Esta é a forma mais rápida de executar

Ollama no Apple Silicon", escrevem os desenvolvedores no anúncio de lançamento preview.

Desempenho mais rápido é esperado não apenas para bate-papos locais comuns, mas também para ferramentas onde o modelo continuamente processa código, comandos e prompts longos:

  • assistentes pessoais como OpenClaw
  • agentes de código como Claude Code, OpenCode e Codex
  • sessões longas com prompts de sistema compartilhados e ramificação de diálogo
  • cenários locais onde privacidade e baixa latência importam

Adicionalmente, Ollama atualizou o mecanismo de cache. Agora o aplicativo pode reutilizar cache entre diferentes conversas, salvá-lo em pontos de prompt bem-sucedidos e manter prefixos comuns na memória por mais tempo. Para cenários de código e agentes, isso importa mais do que parece: quando uma ferramenta frequentemente retorna ao mesmo contexto de sistema, reduzir reprocessamento desnecessário de prompt acelera diretamente as respostas.

Limitações e Detalhes

A limitação principal é simples: você precisa de um Mac com pelo menos 32 GB de memória unificada. Para IA local, isto é crítico porque no Apple Silicon a memória é compartilhada entre a CPU, GPU e outros aceleradores, e modelos grandes rapidamente consomem a capacidade disponível. Em outras palavras, a notícia diz respeito não apenas a qualquer Mac M5, mas apenas a configurações suficientemente caras onde há memória suficiente para o próprio modelo, cache e carga de trabalho.

Há uma segunda limitação: por enquanto é sobre uma implementação preview e um conjunto inicial bastante estreito. No anúncio, Ollama especificamente observou que o lançamento primeiro acelera o novo modelo Qwen3.5-35B-A3B com configurações para tarefas de programação. Suporte para outras arquiteturas e importação mais conveniente de modelos customizados ainda está em progresso. Ou seja, isto não é aceleração instantânea de "tudo de uma vez," mas o primeiro passo em direção a otimização mais profunda de IA local para novos Macs.

Separadamente vale a pena notar o suporte para NVFP4 e melhorias que aproximam a execução local de ambientes de produção. NVFP4 reduz requisitos de memória e largura de banda sem perda de qualidade significativa, significando que usuários podem obter resultados mais próximos ao que provedores modernos de inferência oferecem. Combinado com MLX, isto transforma Ollama de apenas um wrapper de modelo conveniente em uma plataforma local mais séria para desenvolvimento e experimentação.

O que Isto Significa

Para o mercado de IA local, este é um sinal importante: Mac está cada vez mais se tornando uma máquina de trabalho não apenas para executar pequenos modelos com pesos abertos, mas também para cenários de agentes completos. Para desenvolvedores e usuários avançados, a vantagem é clara — menos latência, mais privacidade, menos dependência na nuvem. Mas essa história ainda não se tornará mainstream: o custo de entrada permanece alto devido ao requisito de Apple M5 e 32 GB de memória.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…