Ollama ускорила локальный запуск ИИ на Apple M5: нужен Mac минимум с 32 Гбайт памяти
Ollama выпустила версию 0.19 с аппаратным ускорением для Apple M5, M5 Pro и M5 Max. За счёт MLX и новых ускорителей локальные модели на Mac быстрее выдают первы
Ollama добавила аппаратное ускорение для Apple M5, M5 Pro и M5 Max, чтобы локальные ИИ-модели на macOS запускались заметно быстрее. Новая схема работает в preview-режиме и требует минимум 32 Гбайт унифицированной памяти.
Что изменилось
Ollama — один из самых заметных инструментов для локального запуска больших языковых моделей на Windows, Linux и macOS. В версии 0.19 разработчики перевели работу на Apple Silicon в новый режим на базе MLX — собственного ML-фреймворка Apple, который лучше использует объединённую память и вычислительные блоки чипа.
Для пользователя это означает более быстрый старт ответа и более высокую скорость генерации без ухода в облако и без передачи данных внешнему сервису. Ключевой момент в том, что ускорение сейчас завязано именно на семейство Apple M5. По данным Ollama, приложение научилось обращаться к новым GPU Neural Accelerators в чипах M5, M5 Pro и M5 Max.
Именно они дают прирост как по времени до первого токена, так и по общей скорости вывода. Это особенно важно для сценариев, где модель не просто отвечает в чат-интерфейсе, а постоянно получает длинный контекст, инструменты и историю действий.
Где виден прирост На цифрах обновление выглядит вполне прикладным.
В официальном тесте Ollama сравнила версию 0.19 с 0.18 на модели Qwen3.5-35B-A3B: скорость prefill выросла с 1154 до 1810 токенов в секунду, а decode — с 58 до 112 токенов в секунду. Для int4-квантизации разработчики обещают ещё более высокие показатели — до 1851 токена в секунду на prefill и до 134 на decode. Это уже заметная разница не только в бенчмарках, но и в повседневной работе.
«Это самый быстрый способ запускать Ollama на Apple Silicon», — пишут разработчики в анонсе preview-версии.
Быстрее должны работать не только обычные локальные чаты, но и инструменты, где модель постоянно обрабатывает код, команды и длинные подсказки: персональные ассистенты вроде OpenClaw кодовые агенты вроде Claude Code, OpenCode и Codex длинные сессии с общим системным промптом и ветвлением диалогов локальные сценарии, где важна приватность и низкая задержка Дополнительно Ollama обновила механизм кэша. Теперь приложение может повторно использовать кэш между разными разговорами, сохранять его в удачных точках промпта и дольше удерживать общие префиксы в памяти. Для сценариев с кодом и агентами это важнее, чем кажется: когда инструмент часто возвращается к одному и тому же системному контексту, уменьшение лишней переработки промпта напрямую ускоряет ответы.
Ограничения и детали
Главное ограничение простое: нужен Mac как минимум с 32 Гбайт унифицированной памяти. Для локального ИИ это критично, потому что на Apple Silicon память делится между CPU, GPU и остальными ускорителями, а крупные модели быстро съедают доступный объём. Иными словами, новость касается не любого Mac на M5, а только достаточно дорогих конфигураций, где хватает памяти под саму модель, кэш и рабочую нагрузку.
Есть и второе ограничение: пока речь идёт о preview-реализации и довольно узком стартовом наборе. В анонсе Ollama отдельно сказано, что релиз в первую очередь ускоряет новую модель Qwen3.5-35B-A3B с настройками под coding-задачи.
Поддержка других архитектур и более удобный импорт кастомных моделей ещё в работе. То есть это не мгновенное ускорение «всего и сразу», а первый шаг к более глубокой оптимизации локального ИИ под новые Mac. Отдельно стоит отметить поддержку NVFP4 и улучшения, которые приближают локальный запуск к продакшен-среде.
NVFP4 снижает требования к памяти и пропускной способности без сильной потери качества, а значит пользователи могут получать результаты, ближе к тем, что дают современные inference-провайдеры. В сочетании с MLX это превращает Ollama не просто в удобную оболочку для моделей, а в более серьёзную локальную платформу для разработки и экспериментов.
Что это значит
Для рынка локального ИИ это важный сигнал: Mac всё активнее превращается в рабочую машину не только для запуска небольших моделей с открытыми весами, но и для полноценных агентных сценариев. Для разработчиков и продвинутых пользователей выигрыш очевиден — меньше задержка, больше приватности, меньше зависимости от облака. Но массовой эта история пока не станет: входной билет остаётся высоким из-за требования к Apple M5 и 32 Гбайт памяти.