MarkTechPost→ оригинал

Qwen 3.6-35B-A3B in practice: multimodality, MoE, and RAG in a single pipeline

Qwen 3.6-35B-A3B is a powerful multimodal MoE model, and there is now a detailed tutorial on how to use it in practice. It covers everything: adaptive GPU loadi

Qwen 3.6-35B-A3B in practice: multimodality, MoE, and RAG in a single pipeline
Источник: MarkTechPost. Коллаж: Hamidun News.

Qwen 3.6-35B-A3B — один из самых мощных открытых мультимодальных MoE-трансформеров на сегодняшний день. Команда MarkTechPost опубликовала подробный end-to-end туториал, показывающий, как реально использовать эту модель в продуктовых сценариях — не просто запустить inference, а выстроить полноценный рабочий пайплайн.

Архитектура Mixture-of-Experts (MoE) модели с активными параметрами 3.6 миллиарда при общем размере 35 миллиардов означает, что каждый запрос обрабатывается лишь частью весов. Это снижает вычислительную нагрузку без ощутимой потери качества — и ключевой вопрос практики как раз в том, как правильно оркестрировать маршрутизацию по экспертам и не потерять скорость.

Туториал охватывает несколько критичных для продакшена блоков. Первый — адаптивная загрузка модели в зависимости от доступной GPU-памяти: важно, если вы не работаете на восьми A100 и вынуждены оперировать реальным железом. Второй — управление режимом «мышления»: Qwen 3.

6 умеет как давать прямой ответ, так и выдавать развёрнутую цепочку рассуждений — авторы показывают, как переключаться между этими режимами программно. Третий — tool calling: подключение внешних функций, что превращает модель из чат-бота в агента, способного взаимодействовать с API и данными. Отдельный раздел посвящён RAG — retrieval-augmented generation.

Туториал демонстрирует, как подключить к Qwen внешнюю базу знаний и получать ответы с заземлением в реальных документах, а не в параметрической памяти. Финальная часть закрывает тему session persistence: как сохранять контекст диалога между запросами, что критично для ассистентов и агентов с долгим горизонтом задачи. Для разработчиков, которые присматриваются к Qwen как к альтернативе закрытым API, этот материал — практичная точка старта.

Открытые веса, реальный код и покрытие всех ключевых инженерных аспектов делают его ценным справочником при построении собственных AI-продуктов.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…