Together AI lança MiniMax M3 com contexto de 1 milhão de tokens e suporte multimodal
A Together AI tornou-se a parceira oficial de nuvem da MiniMax para o lançamento do M3, com contexto de até 1 milhão de tokens e multimodalidade nativa. A…
Processado por IA de Together AI Blog; editado por Hamidun News
Together AI объявила о партнёрстве с MiniMax и запустила в продакшн модель M3 — с контекстом до одного миллиона токенов, нативной мультимодальностью и ускорением инференса до 125%.
Что такое
MiniMax M3 MiniMax M3 — флагманская модель компании, созданная для реальных агентных задач: длинные документы, кодовые базы, изображения, вызовы инструментов — всё в одном контексте. Предыдущие модели буксовали на длинных контекстах из-за квадратичной сложности self-attention. M3 решает эту проблему принципиально иначе.
В основе архитектуры — MiniMax Sparse Attention (MSA), блочно-разреженный механизм внимания. Каждый токен запроса обращается только к ограниченному числу релевантных блоков KV-кеша, а не ко всей последовательности. Благодаря этому вычислительная сложность перестаёт расти квадратично с длиной контекста.
По сравнению с M2.7: ускорение на этапе префилинга — в 9 раз, на декодировании — в 15 раз. Ключевые характеристики M3: Контекстное окно — до 1 млн токенов Нативная мультимодальность: текст, код, изображения Поддержка агентных сценариев и вызовов инструментов Конкурентные результаты в задачах программирования ## Как Together AI готовила инфраструктуру Запустить такую модель в продакшн без потери эффективности — нетривиальная задача.
MSA предполагает два этапа при вычислении внимания: сначала расчёт релевантности для отбора KV-блоков, затем плотное внимание между токенами запроса и отобранными блоками. Стандартные реализации здесь не справляются. Инженерная команда Together AI написала четыре ключевые оптимизации: KV-Block-Major sparse attention kernel — CUDA-ядро для разреженного внимания по блокам KV-кеша с реорганизацией данных в памяти под специфику MSA Paged MSA decode — интеграция постраничного внимания для декодирования при миллионном контексте без фрагментации памяти Optimized index scoring kernel — ускоренный расчёт релевантности для отбора KV-блоков на каждом шаге декодирования Rust-based multimodal gateway — шлюз предобработки изображений и смешанных входных данных с минимальной латентностью В совокупности эти оптимизации дали прирост пропускной способности от 81% до 125% при разных уровнях нагрузки — замеры проводились на NVIDIA B200.
Что будет дальше MiniMax M3 уже доступна через Together AI как облачный сервис.
В ближайшие дни выйдут открытые веса — после этого модель можно будет развернуть самостоятельно или использовать как API-эндпоинт на платформе Together напрямую.
«Запуск M3 в продакшн подтверждает
Together AI как предпочтительную платформу для моделей, которые ставят реальные системные вызовы», — из официального блога компании.
Что это значит
Способность Together AI запустить модель с 1M-токенным контекстом на 81–125% эффективнее стандартного подхода — это конкурентный сигнал рынку. Для разработчиков он означает скорый доступ к мощному мультимодальному агенту через простой API без необходимости разбираться в архитектурных тонкостях MSA самостоятельно.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.
O essencial da IA — uma vez por semana
Sete histórias que realmente importaram, escolhidas a dedo. Sem ruído nem releases.
Pronto! Verifique seu e-mail para a confirmação.