KDnuggets→ original

5 petits modèles ouverts avec tool calling : des agents qui n'ont pas besoin du cloud

Les petits modèles de langage ont acquis la capacité d'invoquer des fonctions et d'utiliser des outils — une étape clé vers des agents d'AI décentralisés. Au li

5 petits modèles ouverts avec tool calling : des agents qui n'ont pas besoin du cloud
Source : KDnuggets. Collage: Hamidun News.
◐ Écouter l'article

Les petits modèles de langage ont longtemps eu du mal à rivaliser avec les services cloud dans une capacité clé : la gestion des outils via le tool calling. Cela change maintenant. Une nouvelle génération de modèles compacts et ouverts a émergé qui non seulement supporte les appels de fonction structurés, mais reste également suffisamment légers pour un déploiement local.

Qu'est-ce que le Tool Calling et Pourquoi Cela Fonctionne

Le tool calling est la capacité du modèle à invoquer directement des fonctions externes, des scripts ou des APIs, au lieu de simplement écrire du code en réponse. Le modèle voit une liste de fonctions disponibles avec des descriptions, leurs paramètres et types de données, et décide indépendamment quelle fonction appeler et avec quels arguments.

Ceci est essentiel pour les agents d'IA : ils peuvent gérer les bases de données, télécharger des fichiers, envoyer des e-mails, programmer des réunions—tout sans intervention humaine directe.

La sortie structurée (réponses au format JSON) est une garantie que le modèle retournera des résultats dans le format correct et prévisible qu'un programme peut analyser et utiliser.

Jusqu'à récemment, seuls les grands modèles (GPT-4, Claude 3) pouvaient le faire de manière fiable. Maintenant, les petits modèles ont aussi appris à générer du JSON structuré sans défauts.

Pourquoi les Petits Modèles Sont Maintenant Compétitifs

Les petits modèles (paramètres 7B-13B) ont plusieurs avantages sur les grands. Ils sont moins chers à développer et à faire fonctionner en inférence, plus privés par défaut (n'envoient pas de données au cloud) et plus rapides à répondre.

Ils ne nécessitent pas de services cloud ni de matériel informatique puissant—une GPU de milieu de gamme ou même un CPU décent suffit. Ajoutez le support du tool calling à un tel petit modèle et vous obtenez un agent d'IA entièrement fonctionnel qui peut s'exécuter sur votre propre serveur, ordinateur portable ou même un smartphone sans internet.

Ceci ouvre la voie aux agents privés d'entreprise avec garanties de confidentialité des données. Une entreprise peut exécuter un agent dans son propre réseau sécurisé sans envoyer une seule demande au cloud.

De plus, il y a une flexibilité de licence : tous ces modèles sont open source et peuvent être utilisés à des fins commerciales sans demander de permission.

5 Modèles Prêts à l'Emploi

Voici cinq petits modèles qui supportent déjà le tool calling complet aujourd'hui :

  • Llama 3.1 (Meta) — version de base 8B avec une bonne documentation et des exemples de tool calling ; la plus testée et stable de la liste
  • Mistral 7B — compacte, très rapide, bon rapport qualité-taille ; populaire dans les environnements d'entreprise
  • PhiLM 3 (Microsoft) — optimisée spécifiquement pour la sortie structurée et les tâches d'ingénierie ; exigences mémoire minimales
  • OpenChat 3.5 — axée sur les fonctions et la gestion des outils ; benchmarks solides dans les tests de tool-calling
  • Neural Hermes 2.5 (finetuned Mistral) — gère mieux les chaînes d'appels complexes multi-étapes et la récupération d'erreurs

Les cinq peuvent être téléchargés depuis Hugging Face en quelques minutes et exécutés localement sans internet. Le temps d'inférence (réponse à une requête) varie de 50 à 200 millisecondes sur les GPU modernes ou les CPU rapides.

Ce Que Cela Signifie pour l'Industrie

L'ère du monopole du cloud sur les agents d'IA est terminée. Maintenant, même les petites startups et les corporations peuvent construire des agents d'IA privés et entièrement fonctionnels qui fonctionnent ni plus lentement ni moins intelligemment que les alternatives cloud comme OpenAI API ou Claude via cloud.

Cela signifie que toute l'infrastructure d'IA se déplace progressivement du cloud vers on-premise. Dans les prochains mois, nous nous attendons à une augmentation des outils et frameworks pour le déploiement local d'agents (comme LM Studio, Ollama, mais avec un vrai support du tool calling).

Pour les développeurs, cela ouvre un marché entièrement nouveau : les agents d'IA privés pour les grandes corporations, les agences gouvernementales, la santé et la fintech. Partout où l'utilisation du cloud est interdite pour des raisons politiques ou juridiques, les modèles locaux sont la seule voie.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.
Qu'en pensez-vous ?
Chargement des commentaires…