3DNews AI→ original

Ollama accélère l’AI en local sur Apple M5 : il faut un Mac avec au moins 32 Go de mémoire

Ollama a publié la version 0.19 avec une accélération matérielle pour Apple M5, M5 Pro et M5 Max. Grâce à MLX et aux nouveaux accélérateurs, les modèles…

Traité par IA depuis 3DNews AI ; édité par Hamidun News
Ollama accélère l’AI en local sur Apple M5 : il faut un Mac avec au moins 32 Go de mémoire
Source : 3DNews AI. Collage: Hamidun News.
◐ Écouter l'article

Ollama a ajouté une accélération matérielle pour Apple M5, M5 Pro et M5 Max, pour que les modèles d'IA locaux sur macOS s'exécutent notablement plus vite. Le nouveau schéma fonctionne en mode preview et nécessite un minimum de 32 Go de mémoire unifiée.

Ce qui a Changé

Ollama est l'un des outils les plus importants pour exécuter des modèles de langage volumineux localement sur Windows, Linux et macOS. Dans la version 0.19, les développeurs ont déplacé les opérations d'Apple Silicon vers un nouveau mode basé sur MLX — le framework ML propriétaire d'Apple, qui utilise mieux la mémoire unifiée de la puce et ses blocs de calcul. Pour les utilisateurs, cela signifie des démarrages de réponse plus rapides et des vitesses de génération plus élevées sans aller vers le cloud et sans transmettre de données à un service externe.

Le point clé est que l'accélération est actuellement liée spécifiquement à la famille Apple M5. Selon Ollama, l'application a appris à accéder aux nouveaux GPU Neural Accelerators dans les puces M5, M5 Pro et M5 Max. Ce sont eux qui fournissent l'amélioration à la fois dans le temps jusqu'au premier token et dans la vitesse globale de sortie. C'est particulièrement important pour les scénarios où le modèle ne fait pas que répondre dans une interface de chat, mais reçoit continuellement un contexte long, des outils et un historique d'actions.

Où l'Amélioration est Visible

Sur les chiffres, la mise à jour semble tout à fait pratique. Dans le test officiel d'Ollama, l'entreprise a comparé la version 0.19 avec 0.18 sur le modèle Qwen3.5-35B-A3B : la vitesse de prefill a augmenté de 1154 à 1810 tokens par seconde, et decode de 58 à 112 tokens par seconde. Pour la quantification int4, les développeurs promettent des chiffres encore plus élevés — jusqu'à 1851 tokens par seconde en prefill et jusqu'à 134 en decode. C'est déjà une différence notable non seulement dans les benchmarks, mais aussi dans le travail quotidien.

"C'est la manière la plus rapide d'exécuter

Ollama sur Apple Silicon", écrivent les développeurs dans l'annonce de lancement preview.

Des performances plus rapides sont attendues non seulement pour les chats locaux ordinaires, mais aussi pour les outils où le modèle traite continuellement le code, les commandes et les longs prompts :

  • des assistants personnels comme OpenClaw
  • des agents de code comme Claude Code, OpenCode et Codex
  • des sessions longues avec des prompts de système partagés et des ramifications de dialogue
  • des scénarios locaux où la confidentialité et la faible latence importent

De plus, Ollama a mis à jour le mécanisme de cache. Maintenant l'application peut réutiliser le cache entre différentes conversations, le sauvegarder aux points de prompt réussis et conserver des préfixes communs plus longtemps en mémoire. Pour les scénarios de code et d'agents, c'est plus important que cela ne semble : quand un outil revient fréquemment au même contexte de système, la réduction du retraitement inutile du prompt accélère directement les réponses.

Limitations et Détails

La limitation principale est simple : vous avez besoin d'un Mac avec au moins 32 Go de mémoire unifiée. Pour l'IA locale, c'est critique car sur Apple Silicon, la mémoire est partagée entre le CPU, le GPU et d'autres accélérateurs, et les modèles volumineux consomment rapidement la capacité disponible. En d'autres termes, la nouvelle concerne non pas n'importe quel Mac M5, mais seulement les configurations suffisamment chères où il y a assez de mémoire pour le modèle lui-même, le cache et la charge de travail.

Il y a une deuxième limitation : pour l'instant, il s'agit d'une implémentation preview et d'un ensemble initial plutôt étroit. Dans l'annonce, Ollama a spécifiquement noté que la version accélère d'abord le nouveau modèle Qwen3.5-35B-A3B avec des paramètres pour les tâches de codage. Le support d'autres architectures et l'importation plus pratique de modèles personnalisés sont toujours en cours. C'est-à-dire que ce n'est pas une accélération instantanée de « tout à la fois », mais la première étape vers une optimisation plus approfondie de l'IA locale pour les nouveaux Macs.

Séparément, il vaut la peine de noter le support de NVFP4 et les améliorations qui rapprochent l'exécution locale des environnements de production. NVFP4 réduit les exigences de mémoire et de bande passante sans perte de qualité importante, ce qui signifie que les utilisateurs peuvent obtenir des résultats plus proches de ce que les fournisseurs d'inférence modernes offrent. Combiné avec MLX, cela transforme Ollama d'un simple wrapper de modèle pratique en une plateforme locale plus sérieuse pour le développement et l'expérimentation.

Ce que Cela Signifie

Pour le marché de l'IA locale, c'est un signal important : Mac se transforme de plus en plus en machine de travail non seulement pour exécuter de petits modèles avec des poids ouverts, mais aussi pour des scénarios d'agents complets. Pour les développeurs et utilisateurs avancés, l'avantage est clair — moins de latence, plus de confidentialité, moins de dépendance au cloud. Mais cette histoire ne deviendra pas grand public pour l'instant : le coût d'entrée reste élevé en raison de l'exigence d'Apple M5 et de 32 Go de mémoire.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…