MarkTechPost→ оригинал

Mistral a lancé Small 4 — un modèle MoE de 119 milliards de paramètres pour le reasoning, le code et la multimodalité

Mistral a présenté Small 4, un nouveau modèle MoE open-source de 119 milliards de paramètres qui réunit chat standard, reasoning, agentic coding et multimodalit

Mistral a lancé Small 4 — un modèle MoE de 119 milliards de paramètres pour le reasoning, le code et la multimodalité
Источник: MarkTechPost. Коллаж: Hamidun News.

Mistral AI представила Mistral Small 4 — новую открытую модель, которая должна заменить сразу несколько отдельных линеек компании одним универсальным endpoint. Вместо отдельного instruct-моделя, reasoning-моделя, vision-моделя и coding-агента разработчикам предлагают один MoE-чекпойнт с переключаемой глубиной рассуждения.

Один вместо четырех Главная идея релиза не в том, что Mistral просто нарастила число параметров.

Small 4 сводит в один продукт роли, которые раньше были распределены между Mistral Small для обычных инструкций, Magistral для сложного reasoning, Pixtral для мультимодального понимания и Devstral для агентного программирования. Для команд, которые строят продукты поверх LLM, это важнее очередного рекорда в таблице бенчмарков: меньше роутинга между моделями, проще инфраструктура, меньше шансов получить разный стиль ответов на соседних шагах одного сценария.

«Пользователям больше не нужно выбирать между быстрым instruct-режимом, reasoning и мультимодальным ассистентом», — говорится в анонсе Mistral.

По позиционированию Small 4 рассчитана сразу на несколько типов задач: обычный чат, работу с кодом, агентные workflow и анализ сложных документов или изображений. Mistral прямо подает модель как универсальный слой для enterprise-задач, где под одной API-поверхностью нужно совместить текстовые и визуальные запросы. Это особенно заметно на фоне рынка, где многие команды до сих пор держат отдельные модели для чата, отдельные для reasoning и отдельные для vision-задач.

Как устроена модель Архитектурно это Mixture-of-Experts-модель на 119 млрд параметров.

Внутри — 128 экспертов, из которых на каждый токен активируются только четыре, поэтому Mistral делает ставку не на максимальную плотность, а на эффективность при запуске. Компания также заявляет окно контекста 256k и нативную работу с текстом и изображениями. Релиз открыт по лицензии Apache 2.

0, то есть модель можно не только использовать через API, но и разворачивать и дообучать под свои сценарии. 119 млрд параметров в общей архитектуре 128 экспертов и 4 активных эксперта на токен Контекстное окно 256k Входы: текст и изображения * Лицензия Apache 2.0 и доступность для self-hosting Отдельный акцент Mistral делает на параметре reasoning_effort.

По сути это переключатель между быстрым ответом и более тяжелым режимом пошагового рассуждения. В режиме none модель должна вести себя ближе к Mistral Small 3.2 и отдавать более легкие ответы с низкой задержкой.

В режиме high — работать ближе к линейке Magistral, когда важнее не скорость, а качество reasoning на сложных задачах. Практический смысл простой: вместо связки из двух или трех моделей можно держать один deployment и менять поведение на уровне запроса.

Скорость и запуск В официальном анонсе

Mistral делает ставку не только на универсальность, но и на экономику инференса. Компания заявляет сокращение полного времени генерации на 40% в конфигурации, оптимизированной под задержку, и трехкратный рост числа запросов в секунду в сценарии, оптимизированном под throughput, по сравнению с Mistral Small 3. Отдельно Mistral подчеркивает, что Small 4 с включенным reasoning показывает сопоставимые или более высокие результаты, чем GPT-OSS 120B, на AA LCR, LiveCodeBench и AIME 2025, при этом генерируя более короткие ответы.

Эти сравнения опубликованы самой компанией, но сам фокус на «качество на токен» для продакшена действительно важен. Для запуска Mistral сразу перечисляет и практические опции. Модель доступна через Mistral API и AI Studio, выложена на Hugging Face и заявлена для стеков vLLM, llama.

cpp, SGLang и Transformers. Для self-hosting требования уже не «настольные»: минимальной конфигурацией названы 4x NVIDIA HGX H100, 2x HGX H200 или 1x DGX B200, а для лучшей производительности рекомендуются более мощные сборки. То есть Small 4 выглядит как открытая модель не для ноутбука, а скорее для серьезной серверной инфраструктуры и продуктовых команд, которым важны контроль, кастомизация и предсказуемая стоимость владения.

Что это значит

Mistral двигает open-source сегмент в сторону более универсальных моделей, где главное преимущество — не только качество, но и упрощение всей системы вокруг LLM. Если Small 4 подтвердит заявленную эффективность в реальных продакшен-нагрузках, компания получит сильный аргумент против зоопарка из отдельных reasoning-, vision- и coding-моделей. Для бизнеса это шанс сократить сложность orchestration-слоя, а для разработчиков — получить один настраиваемый базовый слой под широкий набор задач.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…