Together AI запустила MiniMax M3 с контекстом 1 млн токенов и мультимодальностью
Together AI стала официальным облачным партнёром MiniMax для запуска модели M3 — с контекстом до 1 млн токенов и нативной мультимодальностью. Команда…
AI-обработка оригинала Together AI Blog; редакция Hamidun News
Together AI объявила о партнёрстве с MiniMax и запустила в продакшн модель M3 — с контекстом до одного миллиона токенов, нативной мультимодальностью и ускорением инференса до 125%.
Что такое
MiniMax M3 MiniMax M3 — флагманская модель компании, созданная для реальных агентных задач: длинные документы, кодовые базы, изображения, вызовы инструментов — всё в одном контексте. Предыдущие модели буксовали на длинных контекстах из-за квадратичной сложности self-attention. M3 решает эту проблему принципиально иначе.
В основе архитектуры — MiniMax Sparse Attention (MSA), блочно-разреженный механизм внимания. Каждый токен запроса обращается только к ограниченному числу релевантных блоков KV-кеша, а не ко всей последовательности. Благодаря этому вычислительная сложность перестаёт расти квадратично с длиной контекста.
По сравнению с M2.7: ускорение на этапе префилинга — в 9 раз, на декодировании — в 15 раз. Ключевые характеристики M3: Контекстное окно — до 1 млн токенов Нативная мультимодальность: текст, код, изображения Поддержка агентных сценариев и вызовов инструментов Конкурентные результаты в задачах программирования ## Как Together AI готовила инфраструктуру Запустить такую модель в продакшн без потери эффективности — нетривиальная задача.
MSA предполагает два этапа при вычислении внимания: сначала расчёт релевантности для отбора KV-блоков, затем плотное внимание между токенами запроса и отобранными блоками. Стандартные реализации здесь не справляются. Инженерная команда Together AI написала четыре ключевые оптимизации: KV-Block-Major sparse attention kernel — CUDA-ядро для разреженного внимания по блокам KV-кеша с реорганизацией данных в памяти под специфику MSA Paged MSA decode — интеграция постраничного внимания для декодирования при миллионном контексте без фрагментации памяти Optimized index scoring kernel — ускоренный расчёт релевантности для отбора KV-блоков на каждом шаге декодирования Rust-based multimodal gateway — шлюз предобработки изображений и смешанных входных данных с минимальной латентностью В совокупности эти оптимизации дали прирост пропускной способности от 81% до 125% при разных уровнях нагрузки — замеры проводились на NVIDIA B200.
Что будет дальше MiniMax M3 уже доступна через Together AI как облачный сервис.
В ближайшие дни выйдут открытые веса — после этого модель можно будет развернуть самостоятельно или использовать как API-эндпоинт на платформе Together напрямую.
«Запуск M3 в продакшн подтверждает
Together AI как предпочтительную платформу для моделей, которые ставят реальные системные вызовы», — из официального блога компании.
Что это значит
Способность Together AI запустить модель с 1M-токенным контекстом на 81–125% эффективнее стандартного подхода — это конкурентный сигнал рынку. Для разработчиков он означает скорый доступ к мощному мультимодальному агенту через простой API без необходимости разбираться в архитектурных тонкостях MSA самостоятельно.
Хотите не читать про ИИ, а внедрить его?
«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.
Главное из мира ИИ — раз в неделю
7 ключевых событий недели, отобранных вручную. Без шума, репостов и пресс-релизов.
Готово! Проверьте почту — мы отправили подтверждение.