Este artículo aún no está traducido al español — se muestra el original en ruso.
Together AI Blog→ original

Together AI lanza MiniMax M3 con contexto de 1 millón de tokens y soporte multimodal

Together AI se convirtió en el socio oficial en la nube de MiniMax para el lanzamiento de M3, con contexto de hasta 1 millón de tokens y multimodalidad…

Procesado por IA desde Together AI Blog; editado por Hamidun News
Together AI lanza MiniMax M3 con contexto de 1 millón de tokens y soporte multimodal
Fuente: Together AI Blog. Collage: Hamidun News.
◐ Escuchar artículo

Together AI объявила о партнёрстве с MiniMax и запустила в продакшн модель M3 — с контекстом до одного миллиона токенов, нативной мультимодальностью и ускорением инференса до 125%.

Что такое

MiniMax M3 MiniMax M3 — флагманская модель компании, созданная для реальных агентных задач: длинные документы, кодовые базы, изображения, вызовы инструментов — всё в одном контексте. Предыдущие модели буксовали на длинных контекстах из-за квадратичной сложности self-attention. M3 решает эту проблему принципиально иначе.

В основе архитектуры — MiniMax Sparse Attention (MSA), блочно-разреженный механизм внимания. Каждый токен запроса обращается только к ограниченному числу релевантных блоков KV-кеша, а не ко всей последовательности. Благодаря этому вычислительная сложность перестаёт расти квадратично с длиной контекста.

По сравнению с M2.7: ускорение на этапе префилинга — в 9 раз, на декодировании — в 15 раз. Ключевые характеристики M3: Контекстное окно — до 1 млн токенов Нативная мультимодальность: текст, код, изображения Поддержка агентных сценариев и вызовов инструментов Конкурентные результаты в задачах программирования ## Как Together AI готовила инфраструктуру Запустить такую модель в продакшн без потери эффективности — нетривиальная задача.

MSA предполагает два этапа при вычислении внимания: сначала расчёт релевантности для отбора KV-блоков, затем плотное внимание между токенами запроса и отобранными блоками. Стандартные реализации здесь не справляются. Инженерная команда Together AI написала четыре ключевые оптимизации: KV-Block-Major sparse attention kernel — CUDA-ядро для разреженного внимания по блокам KV-кеша с реорганизацией данных в памяти под специфику MSA Paged MSA decode — интеграция постраничного внимания для декодирования при миллионном контексте без фрагментации памяти Optimized index scoring kernel — ускоренный расчёт релевантности для отбора KV-блоков на каждом шаге декодирования Rust-based multimodal gateway — шлюз предобработки изображений и смешанных входных данных с минимальной латентностью В совокупности эти оптимизации дали прирост пропускной способности от 81% до 125% при разных уровнях нагрузки — замеры проводились на NVIDIA B200.

Что будет дальше MiniMax M3 уже доступна через Together AI как облачный сервис.

В ближайшие дни выйдут открытые веса — после этого модель можно будет развернуть самостоятельно или использовать как API-эндпоинт на платформе Together напрямую.

«Запуск M3 в продакшн подтверждает

Together AI как предпочтительную платформу для моделей, которые ставят реальные системные вызовы», — из официального блога компании.

Что это значит

Способность Together AI запустить модель с 1M-токенным контекстом на 81–125% эффективнее стандартного подхода — это конкурентный сигнал рынку. Для разработчиков он означает скорый доступ к мощному мультимодальному агенту через простой API без необходимости разбираться в архитектурных тонкостях MSA самостоятельно.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…