Mistral lanzó Small 4 — un modelo MoE de 119 mil millones de parámetros para reasoning, código y multimodalidad
Mistral presentó Small 4, un nuevo modelo MoE open-source de 119 mil millones de parámetros que combina chat convencional, reasoning, agentic coding y…
Procesado por IA desde MarkTechPost; editado por Hamidun News
Mistral AI presentó Mistral Small 4 — un nuevo modelo abierto que debería reemplazar varias líneas de productos separadas con un único endpoint universal. En lugar de un modelo instruct separado, un modelo reasoning separado, un modelo vision y un agente de coding, se ofrece a los desarrolladores un checkpoint MoE con profundidad de razonamiento conmutable.
Uno en lugar de cuatro
La idea principal del lanzamiento no es que Mistral simplemente aumentara el número de parámetros. Small 4 consolida en un único producto los roles que antes se distribuían entre Mistral Small para instrucciones regulares, Magistral para razonamiento complejo, Pixtral para comprensión multimodal y Devstral para programación agentic. Para equipos que construyen productos sobre LLMs, esto importa más que otro récord de puntuación en benchmarks: menos enrutamiento entre modelos, infraestructura más simple, menos posibilidades de obtener estilos de respuesta diferentes en pasos adyacentes de un único escenario.
"Los usuarios ya no necesitan elegir entre modo instruct rápido, razonamiento y un asistente multimodal," dice el anuncio de
Mistral.
En cuanto al posicionamiento, Small 4 apunta a varios tipos de tareas a la vez: chat regular, trabajo con código, flujos de trabajo agentic y análisis de documentos o imágenes complejos. Mistral posiciona directamente el modelo como una capa universal para tareas empresariales, donde una única superficie API necesita combinar solicitudes de texto y visuales. Esto es especialmente notable en un mercado donde muchos equipos aún mantienen modelos separados para chat, separados para razonamiento y separados para tareas vision.
Cómo se estructura el modelo
Arquitectónicamente, es un modelo Mixture-of-Experts con 119 mil millones de parámetros. Dentro — 128 expertos, de los cuales solo cuatro se activan por token, por lo que Mistral apuesta no por la máxima densidad, sino por la eficiencia en tiempo de ejecución. La empresa también afirma una ventana de contexto de 256k y soporte nativo para texto e imágenes.
El lanzamiento está abierto bajo la licencia Apache 2.0, lo que significa que el modelo no solo puede usarse a través de API, sino también implementarse y ajustarse para sus propios escenarios.
- 119 mil millones de parámetros en la arquitectura total
- 128 expertos y 4 expertos activos por token
- Ventana de contexto 256k
- Entradas: texto e imágenes
- Licencia Apache 2.0 y disponibilidad para auto-hospedaje
Mistral hace un énfasis particular en el parámetro reasoning_effort. Esencialmente es un conmutador entre una respuesta rápida y un modo más pesado de razonamiento paso a paso. En modo none, el modelo debería comportarse más como Mistral Small 3.2 y entregar respuestas más ligeras con baja latencia. En modo high — funcionar más como la línea Magistral, donde la calidad del razonamiento en tareas complejas importa más que la velocidad. El sentido práctico es simple: en lugar de un paquete de dos o tres modelos, puede mantener una implementación y cambiar el comportamiento a nivel de solicitud.
Velocidad y lanzamiento
En el anuncio oficial, Mistral apuesta no solo por la universalidad, sino también por la economía de la inferencia. La empresa afirma una reducción del 40% en el tiempo total de generación en una configuración optimizada para latencia y un aumento triple en solicitudes por segundo en un escenario optimizado para throughput, en comparación con Mistral Small 3. Por separado, Mistral enfatiza que Small 4 con razonamiento habilitado muestra resultados comparables o superiores a GPT-OSS 120B en AA LCR, LiveCodeBench y AIME 2025, mientras genera respuestas más cortas. Estas comparaciones son publicadas por la propia empresa, pero el enfoque en "calidad por token" para producción es realmente importante.
Para el lanzamiento, Mistral enumera inmediatamente las opciones prácticas. El modelo está disponible a través de Mistral API y AI Studio, cargado en Hugging Face y anunciado para pilas vLLM, llama.cpp, SGLang y Transformers. Para auto-hospedaje, los requisitos ya no son "de escritorio": la configuración mínima se enumera como 4x NVIDIA HGX H100, 2x HGX H200 o 1x DGX B200, con configuraciones más potentes recomendadas para mejor rendimiento. Entonces Small 4 parece un modelo abierto no para una laptop, sino para infraestructura de servidor seria y equipos de productos para los que importan el control, la personalización y el costo predecible de propiedad.
Qué significa esto
Mistral está moviendo el segmento de código abierto hacia modelos más universales, donde la ventaja principal no es solo la calidad, sino también la simplificación de todo el sistema alrededor de LLMs. Si Small 4 confirma su eficiencia alegada en cargas de trabajo de producción reales, la empresa ganará un argumento sólido contra un zoo de modelos de razonamiento, vision y coding separados. Para el negocio, es una oportunidad de reducir la complejidad de la capa de orquestación, y para los desarrolladores — obtener una capa base personalizable para una amplia gama de tarefas.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.