Mistral AI presenta Mistral 3: nueva serie de modelos con Mistral Large 3
Mistral AI lanzó la serie Mistral 3, que va desde modelos compactos Ministral (3B, 8B, 14B) para uso local en portátiles, robots y dispositivos IoT, hasta el…
Procesado por IA desde Mistral AI News; editado por Hamidun News
Mistral AI presentó Mistral 3, una nueva serie de modelos de lenguaje abiertos de diferentes tamaños. La familia incluye modelos compactos Ministral 3 (3B, 8B, 14B) para uso local y el potente Mistral Large 3 (675B parámetros) para tareas complejas. Todos los modelos fueron lanzados bajo Apache 2.0 y soportan trabajo con texto, imágenes y consultas multilingües.
Mistral Large 3: nueva frontera
Mistral Large 3 es el buque insignia de la serie, entrenado desde cero en 3000 GPU NVIDIA H200. Es el primer modelo de Mistral con arquitectura sparse mixture-of-experts (MoE) con 41B parámetros activos de un total de 675B. En las pruebas de LMArena, Mistral Large 3 ocupa el segundo lugar entre los modelos de lenguaje abiertos y demuestra resultados comparables con los mejores modelos ajustados por instrucción del mercado.
La característica clave de la arquitectura MoE es que el modelo no utiliza todos los parámetros simultáneamente. En cambio, diferentes partes de la red se activan para diferentes tipos de consultas, lo que hace que la inferencia sea más rápida y económica que usar los 675B parámetros completos. Este enfoque permite escalar modelos sin aumentar proporcionalmente los requisitos de recursos computacionales.
El modelo muestra resultados particularmente fuertes en tareas multilingües y comprensión de imágenes. La empresa promete lanzar pronto una versión con capacidades mejoradas de razonamiento lógico y análisis más profundo de problemas complejos.
Asociación con NVIDIA para velocidad y escalabilidad
Mistral trabajó con NVIDIA, vLLM y Red Hat para optimizar la inferencia y el despliegue de modelos. Todos los modelos Mistral 3 fueron entrenados en GPU NVIDIA Hopper, lo que permitió utilizar memoria de alto ancho de banda HBM3e, un componente crítico para trabajar con redes neuronales tan masivas. NVIDIA creó optimizaciones especializadas en TensorRT-LLM y SGLang para una ejecución eficiente de instrucciones.
Para Mistral Large 3 se agregó soporte para núcleos eficientes Blackwell y se mejoró la arquitectura attention/MoE para contextos largos en sistemas GB200 NVL72. Esto permite servir cargas de alto rendimiento con latencia mínima.
Los modelos compactos Ministral se pueden desplegar fácilmente en máquinas locales:
- En DGX Spark para soluciones empresariales
- En PC RTX y portátiles para desarrollo
- En dispositivos Jetson para IoT y robótica
- Soporte de despliegue desde infraestructura en la nube hasta dispositivos edge
Esta integración vertical significa que los desarrolladores obtienen una ruta única para ejecutar los mismos modelos desde el centro de datos hasta dispositivos edge locales sin reescribir código.
Ministral 3: una herramienta poderosa para edge
Para computación edge y uso local, Mistral lanzó Ministral 3 en tres tamaños: 3B, 8B y 14B parámetros. Cada tamaño está disponible en tres variantes: modelo base, versión ajustada por instrucción para la ejecución de instrucciones, y versión con capacidades mejoradas de razonamiento lógico. Todas las variantes soportan trabajo con imágenes y texto en más de 30 idiomas, incluidos idiomas túrquicos y ruso.
A pesar de su tamaño compacto, Ministral 3 proporciona el mejor equilibrio de rendimiento y costo en la industria entre los modelos abiertos. Esto es crítico para las empresas que desean ejecutar IA localmente sin servicios en la nube.
Qué significa esto para la industria de IA
Los modelos de lenguaje abiertos se están volviendo más prácticos y accesibles. Con la licencia Apache 2.0, cualquiera puede usar, modificar y desarrollar modelos Mistral en proyectos comerciales sin restricciones. Para los desarrolladores, esto significa más flexibilidad en la elección del stack; para las empresas, una reducción en los costos de infraestructura de IA y menor dependencia de los proveedores en la nube. Mistral 3 podría ser un punto de inflexión en el movimiento hacia sistemas de IA independientes y gestionados localmente.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.