Ollama تسرّع تشغيل AI محليًا على Apple M5: يلزم Mac مزود بما لا يقل عن 32 GB من الذاكرة
أطلقت Ollama الإصدار 0.19 مع تسريع عتادي لأجهزة Apple M5 وM5 Pro وM5 Max. وبفضل MLX والمسرّعات الجديدة، تعطي النماذج المحلية على Mac أول token أسرع وتحقق تحسنًا
Ollama добавила аппаратное ускорение для Apple M5, M5 Pro и M5 Max, чтобы локальные ИИ-модели на macOS запускались заметно быстрее. Новая схема работает в preview-режиме и требует минимум 32 Гбайт унифицированной памяти.
Что изменилось
Ollama — один из самых заметных инструментов для локального запуска больших языковых моделей на Windows, Linux и macOS. В версии 0.19 разработчики перевели работу на Apple Silicon в новый режим на базе MLX — собственного ML-фреймворка Apple, который лучше использует объединённую память и вычислительные блоки чипа.
Для пользователя это означает более быстрый старт ответа и более высокую скорость генерации без ухода в облако и без передачи данных внешнему сервису. Ключевой момент в том, что ускорение сейчас завязано именно на семейство Apple M5. По данным Ollama, приложение научилось обращаться к новым GPU Neural Accelerators в чипах M5, M5 Pro и M5 Max.
Именно они дают прирост как по времени до первого токена, так и по общей скорости вывода. Это особенно важно для сценариев, где модель не просто отвечает в чат-интерфейсе, а постоянно получает длинный контекст, инструменты и историю действий.
Где виден прирост На цифрах обновление выглядит вполне прикладным.
В официальном тесте Ollama сравнила версию 0.19 с 0.18 на модели Qwen3.5-35B-A3B: скорость prefill выросла с 1154 до 1810 токенов в секунду, а decode — с 58 до 112 токенов в секунду. Для int4-квантизации разработчики обещают ещё более высокие показатели — до 1851 токена в секунду на prefill и до 134 на decode. Это уже заметная разница не только в бенчмарках, но и в повседневной работе.
«Это самый быстрый способ запускать Ollama на Apple Silicon», — пишут разработчики в анонсе preview-версии.
Быстрее должны работать не только обычные локальные чаты, но и инструменты, где модель постоянно обрабатывает код, команды и длинные подсказки: персональные ассистенты вроде OpenClaw кодовые агенты вроде Claude Code, OpenCode и Codex длинные сессии с общим системным промптом и ветвлением диалогов локальные сценарии, где важна приватность и низкая задержка Дополнительно Ollama обновила механизм кэша. Теперь приложение может повторно использовать кэш между разными разговорами, сохранять его в удачных точках промпта и дольше удерживать общие префиксы в памяти. Для сценариев с кодом и агентами это важнее, чем кажется: когда инструмент часто возвращается к одному и тому же системному контексту, уменьшение лишней переработки промпта напрямую ускоряет ответы.
Ограничения и детали
Главное ограничение простое: нужен Mac как минимум с 32 Гбайт унифицированной памяти. Для локального ИИ это критично, потому что на Apple Silicon память делится между CPU, GPU и остальными ускорителями, а крупные модели быстро съедают доступный объём. Иными словами, новость касается не любого Mac на M5, а только достаточно дорогих конфигураций, где хватает памяти под саму модель, кэш и рабочую нагрузку.
Есть и второе ограничение: пока речь идёт о preview-реализации и довольно узком стартовом наборе. В анонсе Ollama отдельно сказано, что релиз в первую очередь ускоряет новую модель Qwen3.5-35B-A3B с настройками под coding-задачи.
Поддержка других архитектур и более удобный импорт кастомных моделей ещё в работе. То есть это не мгновенное ускорение «всего и сразу», а первый шаг к более глубокой оптимизации локального ИИ под новые Mac. Отдельно стоит отметить поддержку NVFP4 и улучшения, которые приближают локальный запуск к продакшен-среде.
NVFP4 снижает требования к памяти и пропускной способности без сильной потери качества, а значит пользователи могут получать результаты, ближе к тем, что дают современные inference-провайдеры. В сочетании с MLX это превращает Ollama не просто в удобную оболочку для моделей, а в более серьёзную локальную платформу для разработки и экспериментов.
Что это значит
Для рынка локального ИИ это важный сигнал: Mac всё активнее превращается в рабочую машину не только для запуска небольших моделей с открытыми весами, но и для полноценных агентных сценариев. Для разработчиков и продвинутых пользователей выигрыш очевиден — меньше задержка, больше приватности, меньше зависимости от облака. Но массовой эта история пока не станет: входной билет остаётся высоким из-за требования к Apple M5 и 32 Гбайт памяти.