Together AI lanza MiniMax M3 con contexto de 1 millón de tokens y soporte multimodal
Together AI se convirtió en el socio oficial en la nube de MiniMax para el lanzamiento de M3, con contexto de hasta 1 millón de tokens y multimodalidad…
Procesado por IA desde Together AI Blog; editado por Hamidun News
Together AI объявила о партнёрстве с MiniMax и запустила в продакшн модель M3 — с контекстом до одного миллиона токенов, нативной мультимодальностью и ускорением инференса до 125%.
Что такое
MiniMax M3 MiniMax M3 — флагманская модель компании, созданная для реальных агентных задач: длинные документы, кодовые базы, изображения, вызовы инструментов — всё в одном контексте. Предыдущие модели буксовали на длинных контекстах из-за квадратичной сложности self-attention. M3 решает эту проблему принципиально иначе.
В основе архитектуры — MiniMax Sparse Attention (MSA), блочно-разреженный механизм внимания. Каждый токен запроса обращается только к ограниченному числу релевантных блоков KV-кеша, а не ко всей последовательности. Благодаря этому вычислительная сложность перестаёт расти квадратично с длиной контекста.
По сравнению с M2.7: ускорение на этапе префилинга — в 9 раз, на декодировании — в 15 раз. Ключевые характеристики M3: Контекстное окно — до 1 млн токенов Нативная мультимодальность: текст, код, изображения Поддержка агентных сценариев и вызовов инструментов Конкурентные результаты в задачах программирования ## Как Together AI готовила инфраструктуру Запустить такую модель в продакшн без потери эффективности — нетривиальная задача.
MSA предполагает два этапа при вычислении внимания: сначала расчёт релевантности для отбора KV-блоков, затем плотное внимание между токенами запроса и отобранными блоками. Стандартные реализации здесь не справляются. Инженерная команда Together AI написала четыре ключевые оптимизации: KV-Block-Major sparse attention kernel — CUDA-ядро для разреженного внимания по блокам KV-кеша с реорганизацией данных в памяти под специфику MSA Paged MSA decode — интеграция постраничного внимания для декодирования при миллионном контексте без фрагментации памяти Optimized index scoring kernel — ускоренный расчёт релевантности для отбора KV-блоков на каждом шаге декодирования Rust-based multimodal gateway — шлюз предобработки изображений и смешанных входных данных с минимальной латентностью В совокупности эти оптимизации дали прирост пропускной способности от 81% до 125% при разных уровнях нагрузки — замеры проводились на NVIDIA B200.
Что будет дальше MiniMax M3 уже доступна через Together AI как облачный сервис.
В ближайшие дни выйдут открытые веса — после этого модель можно будет развернуть самостоятельно или использовать как API-эндпоинт на платформе Together напрямую.
«Запуск M3 в продакшн подтверждает
Together AI как предпочтительную платформу для моделей, которые ставят реальные системные вызовы», — из официального блога компании.
Что это значит
Способность Together AI запустить модель с 1M-токенным контекстом на 81–125% эффективнее стандартного подхода — это конкурентный сигнал рынку. Для разработчиков он означает скорый доступ к мощному мультимодальному агенту через простой API без необходимости разбираться в архитектурных тонкостях MSA самостоятельно.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.
Lo esencial de la IA — una vez por semana
Siete historias que de verdad importaron, elegidas a mano. Sin ruido ni notas de prensa.
¡Listo! Revisa tu correo para la confirmación.