Este artigo ainda não foi traduzido para o português — exibindo o original em russo.
Together AI Blog→ original

Together AI lança MiniMax M3 com contexto de 1 milhão de tokens e suporte multimodal

A Together AI tornou-se a parceira oficial de nuvem da MiniMax para o lançamento do M3, com contexto de até 1 milhão de tokens e multimodalidade nativa. A…

Processado por IA de Together AI Blog; editado por Hamidun News
Together AI lança MiniMax M3 com contexto de 1 milhão de tokens e suporte multimodal
Fonte: Together AI Blog. Colagem: Hamidun News.
◐ Ouvir artigo

Together AI объявила о партнёрстве с MiniMax и запустила в продакшн модель M3 — с контекстом до одного миллиона токенов, нативной мультимодальностью и ускорением инференса до 125%.

Что такое

MiniMax M3 MiniMax M3 — флагманская модель компании, созданная для реальных агентных задач: длинные документы, кодовые базы, изображения, вызовы инструментов — всё в одном контексте. Предыдущие модели буксовали на длинных контекстах из-за квадратичной сложности self-attention. M3 решает эту проблему принципиально иначе.

В основе архитектуры — MiniMax Sparse Attention (MSA), блочно-разреженный механизм внимания. Каждый токен запроса обращается только к ограниченному числу релевантных блоков KV-кеша, а не ко всей последовательности. Благодаря этому вычислительная сложность перестаёт расти квадратично с длиной контекста.

По сравнению с M2.7: ускорение на этапе префилинга — в 9 раз, на декодировании — в 15 раз. Ключевые характеристики M3: Контекстное окно — до 1 млн токенов Нативная мультимодальность: текст, код, изображения Поддержка агентных сценариев и вызовов инструментов Конкурентные результаты в задачах программирования ## Как Together AI готовила инфраструктуру Запустить такую модель в продакшн без потери эффективности — нетривиальная задача.

MSA предполагает два этапа при вычислении внимания: сначала расчёт релевантности для отбора KV-блоков, затем плотное внимание между токенами запроса и отобранными блоками. Стандартные реализации здесь не справляются. Инженерная команда Together AI написала четыре ключевые оптимизации: KV-Block-Major sparse attention kernel — CUDA-ядро для разреженного внимания по блокам KV-кеша с реорганизацией данных в памяти под специфику MSA Paged MSA decode — интеграция постраничного внимания для декодирования при миллионном контексте без фрагментации памяти Optimized index scoring kernel — ускоренный расчёт релевантности для отбора KV-блоков на каждом шаге декодирования Rust-based multimodal gateway — шлюз предобработки изображений и смешанных входных данных с минимальной латентностью В совокупности эти оптимизации дали прирост пропускной способности от 81% до 125% при разных уровнях нагрузки — замеры проводились на NVIDIA B200.

Что будет дальше MiniMax M3 уже доступна через Together AI как облачный сервис.

В ближайшие дни выйдут открытые веса — после этого модель можно будет развернуть самостоятельно или использовать как API-эндпоинт на платформе Together напрямую.

«Запуск M3 в продакшн подтверждает

Together AI как предпочтительную платформу для моделей, которые ставят реальные системные вызовы», — из официального блога компании.

Что это значит

Способность Together AI запустить модель с 1M-токенным контекстом на 81–125% эффективнее стандартного подхода — это конкурентный сигнал рынку. Для разработчиков он означает скорый доступ к мощному мультимодальному агенту через простой API без необходимости разбираться в архитектурных тонкостях MSA самостоятельно.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…