Inférence

On-Device AI

On-device AI est l'exécution de l'inférence du modèle d'apprentissage automatique directement sur le matériel local d'un utilisateur—téléphone intelligent, ordinateur portable ou puce intégrée—sans transmettre de données à un serveur cloud distant, permettant une latence plus faible, une utilisation hors ligne et une meilleure confidentialité.

On-device AI est la pratique d'exécuter entièrement les charges de travail d'inférence IA sur le matériel de l'utilisateur final plutôt que sur les serveurs cloud. Les tâches applicables incluent la reconnaissance vocale, la classification d'images, la génération de langage naturel, la traduction et la détection d'objets, tous effectués localement sur des appareils tels que les téléphones intelligents, les ordinateurs portables, les appareils portables et les capteurs IoT intégrés.

L'inférence on-device nécessite que les modèles s'adaptent dans des contraintes de mémoire et de puissance serrées. Les principaux facilitateurs sont les techniques de compression de modèle—la quantification (réduisant la précision des poids de flottants 32 bits à des entiers 4 ou 8 bits), l'élagage (supprimant les poids de faible importance) et la distillation de connaissances (entraînant des modèles plus petits pour imiter les plus grands)—combinés avec des unités de traitement neuronal dédiées (NPUs). Des puces comme le Neural Engine d'Apple sur les séries A17 Pro et M, le NPU Hexagon de Qualcomm dans le Snapdragon 8 Gen 3 et versions ultérieures, et le Tensor G4 de Google offrent des dizaines de TOPS (téra-opérations par seconde) à une puissance d'échelle milliwatt, rendant l'inférence de modèles dans la plage de 1 à 8 milliards de paramètres pratique sur le matériel grand public.

Les avantages principaux par rapport à l'inférence cloud sont la latence (pas d'aller-retour réseau), la confidentialité (les données sensibles ne quittent jamais l'appareil), la disponibilité hors ligne (fonctionnel sans internet) et la réduction des coûts cloud par requête pour les développeurs. Ces propriétés sont critiques dans la surveillance médicale, le traitement audio en temps réel et toute application gérant des informations d'identification personnelle selon les réglementations telles que le RGPD ou l'HIPAA.

En 2026, les modèles de langage on-device sont courants. Apple Intelligence (iOS 18, 2024) exécute un modèle d'environ 3 milliards de paramètres localement sur iPhone 16 et les Macs de série M pour l'assistance à la rédaction et le résumé. Les modèles open-weight—Llama 3 8B, Mistral 7B, Gemma 3 de Google—s'exécutent à des vitesses pratiques sur les ordinateurs portables grand public via des outils tels que llama.cpp, Ollama et Apple MLX. Le défi d'ingénierie dominant est de maintenir la qualité de la sortie dans les limites de précision imposées par la quantification, un domaine de recherche actif en 2025-2026.

Exemple

Une application de transcription médicale fonctionnant sur un iPad fourni par l'hôpital convertit la dictée du médecin en notes cliniques structurées entièrement sur l'appareil, satisfaisant les exigences HIPAA en garantissant que l'audio et les données des patients ne sont jamais acheminés via l'infrastructure cloud d'un tiers.

Termes liés

Small Language Model (SLM)Quantization NPU (Neural Processing Unit)Data Privacy

← Glossaire