Habr AI→ original

Une stack open source de 6 modèles et 9 agents a montré comment constituer une équipe d’AI sur un seul serveur

Un seul serveur GPU, six modèles open source et neuf agents — voilà à quoi ressemble une équipe autonome d’AI qui conçoit, écrit, teste et déploie de…

Traité par IA depuis Habr AI ; édité par Hamidun News
Une stack open source de 6 modèles et 9 agents a montré comment constituer une équipe d’AI sur un seul serveur
Source : Habr AI. Collage: Hamidun News.
◐ Écouter l'article

Une équipe autonome de neuf agents d'IA peut concevoir, écrire, tester et déployer de nouveaux agents sans intervention humaine. Cela ne nécessite pas un ensemble d'API fermées : le schéma est construit sur six modèles open-source et dans sa version basique s'adapte à un seul serveur avec GPU.

Comment l'équipe est structurée

Au lieu d'un modèle « universel », l'auteur a assemblé un pipeline de neuf rôles. Certains agents gèrent la formulation des tâches et l'architecture, d'autres l'écriture de code, la vérification de la qualité, les tests et le déploiement. Le résultat n'est pas un grand assistant, mais une petite organisation d'ingénierie où chaque participant effectue une part étroite du travail. Cette approche réduit le chaos : un agent n'a pas besoin de planifier simultanément le système, d'écrire des modules, d'exécuter des tests et d'évaluer ses propres erreurs.

L'idée clé est que l'autonomie est réalisée non par la magie, mais en divisant le processus en étapes. Si un agent ne comprend que sa propre part et reçoit une tâche déjà structurée en entrée, les exigences du modèle deviennent plus claires. L'orchestrateur doit être capable de raisonner et de maintenir le contexte, le constructeur doit générer du code de manière stable, le critique doit voir les problèmes dans l'utilisation des outils et les scénarios d'exécution. C'est pourquoi le gain provient non pas d'un super-modèle, mais d'un assemblage précis des rôles dans un pipeline fonctionnel.

Rôles et benchmarks

L'auteur rejette directement l'idée d'un « meilleur modèle en général ». Au lieu de cela, les rôles sont sélectionnés en fonction de ce que confirment les benchmarks. Pour l'orchestrateur, le raisonnement est important, donc le benchmark est GPQA à 88,4 %. Pour le constructeur, la génération de code est critique, et HumanEval à 92,7 % est utilisé ici. Pour le critique, il est plus important de comprendre l'utilisation des outils et le comportement des agents dans les tâches, donc tau-bench à 87,4 % est utilisé.

C'est précisément à cause de cette spécialisation qu'au lieu d'un modèle GPT-class pour tous les cas, six modèles open-source différents sont utilisés.

  • Orchestrateur — raisonnement fort, priorisation et décomposition des tâches
  • Constructeur — génération de code et changements d'ingénierie rapides
  • Critique — vérification de l'utilisation des outils, qualité des solutions et faiblesses du pipeline
  • Autres rôles — tests, déploiement et étapes auxiliaires où les instances communes peuvent être réutilisées

En même temps, neuf agents ne signifient pas neuf modèles complets en mémoire simultanément. Une astuce pratique est le partage d'instances : plusieurs rôles partagent le même modèle si leurs charges et profils de tâches sont similaires. En conséquence, un système de neuf agents peut s'exécuter sur seulement trois ou quatre instances de modèle. Cela réduit considérablement la consommation de VRAM, simplifie la maintenance et rapproche l'architecture de la production réelle plutôt que d'une démonstration avec un budget illimité.

Matériel et lancement

Séparément intéressante est la part infrastructure. L'auteur décrit trois configurations de déploiement : d'une seule RTX 4090 avec 24 Go de mémoire à un cluster A100 avec un total de 211 Go. Entre ces extrêmes, vous pouvez choisir un équilibre entre vitesse, qualité et parallélisme. Pour réduire les coûts, la quantification, une infrastructure d'inférence bien conçue et un tableau de bord interactif qui aide à suivre les rôles, la charge et la progression des tâches sont utilisés.

C'est-à-dire qu'il ne s'agit pas seulement de sélectionner des modèles, mais aussi d'un environnement opérationnel approprié pour eux. La conclusion pratique est simple : l'agentivité open-source cesse d'être un jouet pour le laboratoire. Si de tels schémas étaient auparavant associés à des API coûteuses ou à des clusters lourds, une approche plus réaliste pour démarrer est montrée ici. Une petite équipe peut commencer avec un seul serveur, vérifier la viabilité du pipeline, puis le mettre à l'échelle à mesure que les tâches augmentent. Le coût de la question ressemble déjà à un choix d'ingénierie, pas une barrière qui filtre immédiatement la plupart des équipes.

Ce que cela signifie

Le marché se déplace de l'idée d'un modèle « magique » vers des systèmes orientés rôles, où la composition correcte est plus importante qu'un nom d'API bruyant. Pour les entreprises, c'est un signal : les équipes d'IA autonomes peuvent être assemblées à partir de composants open-source dès maintenant, si vous les traitez comme une infrastructure et un processus, et non comme une simple fenêtre de chat.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…