Ollama acelera a execução local de AI no Apple M5: é preciso um Mac com pelo menos 32 GB de memória

Q: Источник материала?

Оригинальная публикация на 3DNews AI. Hamidun News обрабатывает и адаптирует материалы с помощью AI.

Q: Когда опубликовано?

2026-05-02. Время чтения: 3 мин.

A Ollama lançou a versão 0.19 com aceleração de hardware para Apple M5, M5 Pro e M5 Max. Com MLX e os novos aceleradores, os modelos locais no Mac entregam o pr

ЖХ

Редакция Hamidun News

AI‑мониторинг · 3DNews AI

2026-05-02· 3 мин

◐ Слушать статью

Ollama добавила аппаратное ускорение для Apple M5, M5 Pro и M5 Max, чтобы локальные ИИ-модели на macOS запускались заметно быстрее. Новая схема работает в preview-режиме и требует минимум 32 Гбайт унифицированной памяти.

Что изменилось

Ollama — один из самых заметных инструментов для локального запуска больших языковых моделей на Windows, Linux и macOS. В версии 0.19 разработчики перевели работу на Apple Silicon в новый режим на базе MLX — собственного ML-фреймворка Apple, который лучше использует объединённую память и вычислительные блоки чипа.

Для пользователя это означает более быстрый старт ответа и более высокую скорость генерации без ухода в облако и без передачи данных внешнему сервису. Ключевой момент в том, что ускорение сейчас завязано именно на семейство Apple M5. По данным Ollama, приложение научилось обращаться к новым GPU Neural Accelerators в чипах M5, M5 Pro и M5 Max.

Именно они дают прирост как по времени до первого токена, так и по общей скорости вывода. Это особенно важно для сценариев, где модель не просто отвечает в чат-интерфейсе, а постоянно получает длинный контекст, инструменты и историю действий.

Где виден прирост На цифрах обновление выглядит вполне прикладным.

В официальном тесте Ollama сравнила версию 0.19 с 0.18 на модели Qwen3.5-35B-A3B: скорость prefill выросла с 1154 до 1810 токенов в секунду, а decode — с 58 до 112 токенов в секунду. Для int4-квантизации разработчики обещают ещё более высокие показатели — до 1851 токена в секунду на prefill и до 134 на decode. Это уже заметная разница не только в бенчмарках, но и в повседневной работе.

«Это самый быстрый способ запускать Ollama на Apple Silicon», — пишут разработчики в анонсе preview-версии.

Быстрее должны работать не только обычные локальные чаты, но и инструменты, где модель постоянно обрабатывает код, команды и длинные подсказки: персональные ассистенты вроде OpenClaw кодовые агенты вроде Claude Code, OpenCode и Codex длинные сессии с общим системным промптом и ветвлением диалогов локальные сценарии, где важна приватность и низкая задержка Дополнительно Ollama обновила механизм кэша. Теперь приложение может повторно использовать кэш между разными разговорами, сохранять его в удачных точках промпта и дольше удерживать общие префиксы в памяти. Для сценариев с кодом и агентами это важнее, чем кажется: когда инструмент часто возвращается к одному и тому же системному контексту, уменьшение лишней переработки промпта напрямую ускоряет ответы.

Ограничения и детали

Главное ограничение простое: нужен Mac как минимум с 32 Гбайт унифицированной памяти. Для локального ИИ это критично, потому что на Apple Silicon память делится между CPU, GPU и остальными ускорителями, а крупные модели быстро съедают доступный объём. Иными словами, новость касается не любого Mac на M5, а только достаточно дорогих конфигураций, где хватает памяти под саму модель, кэш и рабочую нагрузку.

Есть и второе ограничение: пока речь идёт о preview-реализации и довольно узком стартовом наборе. В анонсе Ollama отдельно сказано, что релиз в первую очередь ускоряет новую модель Qwen3.5-35B-A3B с настройками под coding-задачи.

Поддержка других архитектур и более удобный импорт кастомных моделей ещё в работе. То есть это не мгновенное ускорение «всего и сразу», а первый шаг к более глубокой оптимизации локального ИИ под новые Mac. Отдельно стоит отметить поддержку NVFP4 и улучшения, которые приближают локальный запуск к продакшен-среде.

NVFP4 снижает требования к памяти и пропускной способности без сильной потери качества, а значит пользователи могут получать результаты, ближе к тем, что дают современные inference-провайдеры. В сочетании с MLX это превращает Ollama не просто в удобную оболочку для моделей, а в более серьёзную локальную платформу для разработки и экспериментов.

Что это значит

Для рынка локального ИИ это важный сигнал: Mac всё активнее превращается в рабочую машину не только для запуска небольших моделей с открытыми весами, но и для полноценных агентных сценариев. Для разработчиков и продвинутых пользователей выигрыш очевиден — меньше задержка, больше приватности, меньше зависимости от облака. Но массовой эта история пока не станет: входной билет остаётся высоким из-за требования к Apple M5 и 32 Гбайт памяти.

ЖХ

Hamidun News

AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Telegram-канал RSS hamidun.com