Habr AI→ оригинал

LM Studio و Qwen: كيف تتعامل نماذج اللغة الضخمة المحلية مع البرمجة على MacBook M4 Pro

يمكن الآن استخدام نماذج اللغة الضخمة المحلية للبرمجة بدون السحابة إذا كانت المهمة محادثات سريعة وتعديلات بسيطة. في تجربة MacBook M4 Pro، أظهرت النماذج عبر LM St

LM Studio و Qwen: كيف تتعامل نماذج اللغة الضخمة المحلية مع البرمجة على MacBook M4 Pro
Источник: Habr AI. Коллаж: Hamidun News.

Локальные языковые модели уже можно использовать для написания и правки кода без отправки исходников в облако, но комфорт такой работы пока сильно зависит от задачи и запаса железа. Эксперимент на MacBook Pro с M4 Pro и 48 ГБ памяти показывает, что связка LM Studio и современных моделей с открытыми весами уже даёт внятный результат в режиме чата, однако в режиме полноценных агентов быстро упирается в память, нагрев и время выполнения. Отправная точка здесь простая: облачные модели удобны, но у них есть лимиты, зависимость от сети и главный минус для многих разработчиков — данные, код и промпты уходят на удалённые серверы.

Локальный запуск обещает приватность и полный контроль, но требует понимания того, как модель ест RAM и VRAM, сколько памяти остаётся под контекст и чем отличаются форматы вроде GGUF и MLX. Тесты проводились на MacBook Pro с чипом M4 Pro и 48 ГБ unified memory, где CPU и GPU делят общий пул памяти. Это помогает уместить более крупные модели, но одновременно означает, что модель конкурирует за ресурсы с IDE, Docker и десятками вкладок в браузере.

Отдельная часть разбора посвящена выбору модели под железо. Автор советует смотреть не только на размер в миллиардах параметров, но и на специализацию, квантизацию, поддержку function calling и тип архитектуры. Для кодинга он взял Qwen3-Coder 30B A3B Instruct в MLX и GGUF-вариантах, а также сравнил её с Qwen3-Coder Next, Qwen3.

5, Nvidia Nemotron-3 Nano и Gemma 4 26B A4B. В статье хорошо объясняется практический смысл аббревиатур: например, A3B указывает на MoE-подход, когда из большой модели активируется только часть параметров, за счёт чего скорость ближе к маленьким моделям, а качество — к более крупным. В качестве среды запуска выбран LM Studio: через него модель легко скачать, поднять локальный сервер, включить CORS и подключить агентов вроде Claude Code, Open Code, Kilo Code и Aider.

Прогноз по производительности для Qwen3-Coder обещал около 150 токенов в секунду, но реальный замер в LM Studio оказался ближе к 82 токенам в секунду, что сразу возвращает разговор из теории в практику. Самое интересное начинается в замерах. В режиме обычного чата локальные модели уже выглядят не как игрушка, а как рабочий компромисс.

Qwen3-Coder 30B A3B Instruct в MLX 4bit укладывалась примерно в 2 минуты 9 секунд на весь трёхэтапный сценарий и дошла до итоговой оценки 8,5 из 10. Gemma 4 26B A4B в GGUF показала один из лучших балансов: около 2 минут 23 секунд и итоговые 10 из 10. Более думающие модели давали лучший результат, но ценой времени: Qwen3.

5 35B A3B дошла до 10 из 10 примерно за 5 минут 43 секунды, а Qwen3.5 27B растянулась почти до получаса. Вывод из этой части трезвый: по скорости ответа локальные модели уже местами сравнимы с облачными, особенно без режима размышления, но за то же время чаще уступают им по качеству.

Зато свежие MoE-модели выглядят заметно практичнее плотных вариантов. В агентском режиме картина меняется резко. Там растёт контекст, увеличивается число вызовов, и секунды превращаются в минуты или даже десятки минут.

Aider с той же Qwen3-Coder MLX 4bit закончил сценарий за 2 минуты 50 секунд с оценкой 9,5, Open Code — за 7 минут 33 секунды с оценкой 9, а вот Kilo Code с этой же моделью занял 15 минут 5 секунд и добрался только до 6 баллов. С более тяжёлой Qwen3.5 35B A3B Kilo Code уже работал 57 минут 3 секунды, хотя финальное качество выросло до 9 из 10.

Claude Code с Gemma 4 26B завершил эксперимент с максимальной оценкой 10 из 10, но суммарно потратил 21 минуту 14 секунд, а связка Claude Code с Qwen3-Coder вообще падала из-за нехватки памяти под контекст. Параллельно ноутбук ощутимо страдал: GPU грелся примерно до 100 градусов, вентиляторы почти не замолкали, а swap в отдельных сценариях раздувался до 20 ГБ. На этом фоне облачные агенты выглядели банально удобнее: например, Kilo Code с Qwen3.

5 Plus дал 9 из 10 за 6 минут 53 секунды, а Claude Opus 4.6 — 10 из 10 за 12 минут 15 секунд, пусть и уже за деньги. Итог простой: локальные LLM уже можно всерьёз рассматривать для приватного чата, разовых задач по рефакторингу и простых сценариев, где важнее контроль над данными, чем абсолютная скорость.

Но если нужен постоянный агентский режим на рабочем ноутбуке, особенно рядом с IDE, браузером и Docker, локальный стек пока остаётся компромиссом. Самый разумный сценарий из этого опыта — брать свежие MoE-модели, использовать более простых агентов вроде Aider или Open Code, а при возможности выносить локальную модель на отдельную машину вроде Mac mini.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…