LM Studio y Qwen: cómo los LLMs locales manejan la codificación en MacBook M4 Pro

Q: Источник материала?

Оригинальная публикация на Habr AI. Hamidun News обрабатывает и адаптирует материалы с помощью AI.

Q: Когда опубликовано?

2026-04-28. Время чтения: 4 мин.

Los LLMs locales para codificación ahora pueden usarse sin la nube si la tarea es chats rápidos y ediciones simples. En el experimento con MacBook M4 Pro, los m

ЖХ

Редакция Hamidun News

AI‑мониторинг · Habr AI

2026-04-28· 3 мин

LM Studio y Qwen: cómo los LLMs locales manejan la codificación en MacBook M4 Pro — Источник: Habr AI. Коллаж: Hamidun News.

Локальные языковые модели уже можно использовать для написания и правки кода без отправки исходников в облако, но комфорт такой работы пока сильно зависит от задачи и запаса железа. Эксперимент на MacBook Pro с M4 Pro и 48 ГБ памяти показывает, что связка LM Studio и современных моделей с открытыми весами уже даёт внятный результат в режиме чата, однако в режиме полноценных агентов быстро упирается в память, нагрев и время выполнения. Отправная точка здесь простая: облачные модели удобны, но у них есть лимиты, зависимость от сети и главный минус для многих разработчиков — данные, код и промпты уходят на удалённые серверы.

Локальный запуск обещает приватность и полный контроль, но требует понимания того, как модель ест RAM и VRAM, сколько памяти остаётся под контекст и чем отличаются форматы вроде GGUF и MLX. Тесты проводились на MacBook Pro с чипом M4 Pro и 48 ГБ unified memory, где CPU и GPU делят общий пул памяти. Это помогает уместить более крупные модели, но одновременно означает, что модель конкурирует за ресурсы с IDE, Docker и десятками вкладок в браузере.

Отдельная часть разбора посвящена выбору модели под железо. Автор советует смотреть не только на размер в миллиардах параметров, но и на специализацию, квантизацию, поддержку function calling и тип архитектуры. Для кодинга он взял Qwen3-Coder 30B A3B Instruct в MLX и GGUF-вариантах, а также сравнил её с Qwen3-Coder Next, Qwen3.

5, Nvidia Nemotron-3 Nano и Gemma 4 26B A4B. В статье хорошо объясняется практический смысл аббревиатур: например, A3B указывает на MoE-подход, когда из большой модели активируется только часть параметров, за счёт чего скорость ближе к маленьким моделям, а качество — к более крупным. В качестве среды запуска выбран LM Studio: через него модель легко скачать, поднять локальный сервер, включить CORS и подключить агентов вроде Claude Code, Open Code, Kilo Code и Aider.

Прогноз по производительности для Qwen3-Coder обещал около 150 токенов в секунду, но реальный замер в LM Studio оказался ближе к 82 токенам в секунду, что сразу возвращает разговор из теории в практику. Самое интересное начинается в замерах. В режиме обычного чата локальные модели уже выглядят не как игрушка, а как рабочий компромисс.

Qwen3-Coder 30B A3B Instruct в MLX 4bit укладывалась примерно в 2 минуты 9 секунд на весь трёхэтапный сценарий и дошла до итоговой оценки 8,5 из 10. Gemma 4 26B A4B в GGUF показала один из лучших балансов: около 2 минут 23 секунд и итоговые 10 из 10. Более думающие модели давали лучший результат, но ценой времени: Qwen3.

5 35B A3B дошла до 10 из 10 примерно за 5 минут 43 секунды, а Qwen3.5 27B растянулась почти до получаса. Вывод из этой части трезвый: по скорости ответа локальные модели уже местами сравнимы с облачными, особенно без режима размышления, но за то же время чаще уступают им по качеству.

Зато свежие MoE-модели выглядят заметно практичнее плотных вариантов. В агентском режиме картина меняется резко. Там растёт контекст, увеличивается число вызовов, и секунды превращаются в минуты или даже десятки минут.

Aider с той же Qwen3-Coder MLX 4bit закончил сценарий за 2 минуты 50 секунд с оценкой 9,5, Open Code — за 7 минут 33 секунды с оценкой 9, а вот Kilo Code с этой же моделью занял 15 минут 5 секунд и добрался только до 6 баллов. С более тяжёлой Qwen3.5 35B A3B Kilo Code уже работал 57 минут 3 секунды, хотя финальное качество выросло до 9 из 10.

Claude Code с Gemma 4 26B завершил эксперимент с максимальной оценкой 10 из 10, но суммарно потратил 21 минуту 14 секунд, а связка Claude Code с Qwen3-Coder вообще падала из-за нехватки памяти под контекст. Параллельно ноутбук ощутимо страдал: GPU грелся примерно до 100 градусов, вентиляторы почти не замолкали, а swap в отдельных сценариях раздувался до 20 ГБ. На этом фоне облачные агенты выглядели банально удобнее: например, Kilo Code с Qwen3.

5 Plus дал 9 из 10 за 6 минут 53 секунды, а Claude Opus 4.6 — 10 из 10 за 12 минут 15 секунд, пусть и уже за деньги. Итог простой: локальные LLM уже можно всерьёз рассматривать для приватного чата, разовых задач по рефакторингу и простых сценариев, где важнее контроль над данными, чем абсолютная скорость.

Но если нужен постоянный агентский режим на рабочем ноутбуке, особенно рядом с IDE, браузером и Docker, локальный стек пока остаётся компромиссом. Самый разумный сценарий из этого опыта — брать свежие MoE-модели, использовать более простых агентов вроде Aider или Open Code, а при возможности выносить локальную модель на отдельную машину вроде Mac mini.

ЖХ

Hamidun News

AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Telegram-канал RSS hamidun.com