Mistral AI News→ original

Mistral AI a présenté Mistral 3 : une nouvelle série de modèles avec Mistral Large 3

Mistral AI a lancé la série Mistral 3 — allant des Ministral compacts (3B, 8B, 14B) pour une utilisation locale sur les ordinateurs portables, les robots et…

Traité par IA depuis Mistral AI News ; édité par Hamidun News
Mistral AI a présenté Mistral 3 : une nouvelle série de modèles avec Mistral Large 3
Source : Mistral AI News. Collage: Hamidun News.
◐ Écouter l'article

Mistral AI a présenté Mistral 3 — une nouvelle série de modèles de langage ouverts de différentes tailles. La famille comprend les Ministral 3 compacts (3B, 8B, 14B) pour une utilisation locale et le puissant Mistral Large 3 (675 milliards de paramètres) pour les tâches complexes. Tous les modèles sont publiés sous Apache 2.0 et prennent en charge le texte, les images et les requêtes multilingues.

Mistral Large 3 : une nouvelle frontière

Mistral Large 3 — le navire amiral de la série, entraîné à partir de zéro sur 3 000 GPU NVIDIA H200. C'est le premier modèle Mistral utilisant une architecture sparse mixture-of-experts (MoE) avec 41 milliards de paramètres actifs sur 675 milliards au total. Dans les tests LMArena, Mistral Large 3 occupe la deuxième place parmi les modèles de langage ouverts et démontre des résultats comparables aux meilleurs modèles affinés par instruction disponibles sur le marché.

La distinction clé de l'architecture MoE est que le modèle n'utilise pas tous les paramètres simultanément. Au lieu de cela, différentes parties du réseau s'activent pour différents types de requêtes — cela rend l'inférence plus rapide et moins chère que d'utiliser pleinement les 675 milliards de paramètres. Cette approche permet de mettre à l'échelle les modèles sans augmentation proportionnelle des ressources informatiques requises.

Le modèle démontre des résultats particulièrement solides dans les tâches multilingues et la compréhension d'images. L'entreprise promet de bientôt publier une version avec des capacités améliorées de raisonnement logique et une analyse plus approfondie des problèmes complexes.

Partenariat avec NVIDIA pour la vitesse et la scalabilité

Mistral a travaillé avec NVIDIA, vLLM et Red Hat pour optimiser l'inférence et le déploiement des modèles. Tous les modèles Mistral 3 ont été entraînés sur les GPU NVIDIA Hopper, ce qui a permis d'utiliser la mémoire large bande HBM3e — un composant critique pour travailler avec de si vastes réseaux de neurones. NVIDIA a créé des optimisations spécialisées dans TensorRT-LLM et SGLang pour une exécution efficace des instructions.

Pour Mistral Large 3, la prise en charge des noyaux Blackwell efficaces a été ajoutée et l'architecture attention/MoE a été améliorée pour les longs contextes sur les systèmes GB200 NVL72. Cela permet de servir des charges de travail haute performance avec une latence minimale.

Les modèles Ministral compacts sont faciles à déployer sur des machines locales :

  • Sur DGX Spark pour les solutions d'entreprise
  • Sur les PC RTX et ordinateurs portables pour le développement
  • Sur les appareils Jetson pour l'IoT et la robotique
  • Support du déploiement de l'infrastructure cloud aux appareils edge

Cette intégration verticale signifie que les développeurs obtiennent un chemin unifié pour exécuter les mêmes modèles du centre de données aux appareils edge locaux sans réécrire le code.

Ministral 3 : un outil puissant pour l'edge

Pour l'informatique edge et l'utilisation locale, Mistral a lancé Ministral 3 en trois tailles : 3B, 8B et 14B paramètres. Chaque taille est disponible en trois variantes : le modèle de base, une version affinée par instruction pour l'exécution d'instructions et une version avec des capacités améliorées de raisonnement logique.

Toutes les variantes prennent en charge les images et le texte dans plus de 30 langues, y compris les langues turques et le russe. Malgré sa compacité, Ministral 3 offre le meilleur équilibre performance-coût de l'industrie parmi les modèles ouverts. C'est critique pour les entreprises qui veulent exécuter l'IA localement sans services cloud.

Ce que cela signifie pour l'industrie de l'IA

Les modèles de langage ouverts deviennent plus pratiques et accessibles. Avec la licence Apache 2.0, n'importe qui peut utiliser, modifier et développer les modèles Mistral dans des projets commerciaux sans restrictions. Pour les développeurs, cela signifie plus de flexibilité dans le choix de la pile, pour les entreprises, une réduction des coûts d'infrastructure IA et moins de dépendance envers les fournisseurs de cloud.

Mistral 3 pourrait être un moment charnière dans le mouvement vers des systèmes IA indépendants et gérés localement.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…