MarkTechPost→ original

Poolside a lancé Laguna XS.2 et M.1 — des modèles ouverts pour la programmation multi-agents

Poolside a lancé deux modèles pour la programmation multi-agents — Laguna XS.2 et M.1. Le XS.2 a reçu des poids ouverts sous Apache 2.0, s'exécute localement…

Traité par IA depuis MarkTechPost ; édité par Hamidun News
Poolside a lancé Laguna XS.2 et M.1 — des modèles ouverts pour la programmation multi-agents
Source : MarkTechPost. Collage: Hamidun News.
◐ Écouter l'article

Poolside a lancé les premiers modèles de la famille Laguna — XS.2 et M.1 — et parie non pas sur l'IA ordinaire pour l'autocomplétion, mais sur des agents de code qui peuvent mener des tâches longtemps et séquentiellement sans perte constante de contexte. L'idée est que le modèle ne doit pas simplement écrire un fragment de code, mais lire un référentiel, apporter des modifications, exécuter des tests, analyser les erreurs et mener le changement à un état fonctionnel en un seul cycle de travail.

Ce que Poolside a présenté

La sortie comprenait deux modèles et un environnement d'agent sur lequel l'entreprise entraîne ses propres systèmes. Le Laguna M.1 phare est un grand modèle MoE avec 225 milliards de paramètres et 23 milliards de paramètres actifs par token.

Laguna XS.2 est notablement plus compact : 33 milliards de paramètres totaux et 3 milliards actifs. Pour le marché, c'est un signal important : Poolside lance non seulement un modèle serveur pour les charges lourdes, mais aussi une version allégée pour une utilisation locale.

XS.2 est devenu le premier modèle open-weight de l'entreprise. Poolside le distribue sous la licence Apache 2.

0 et souligne spécifiquement que le modèle peut s'exécuter sur Mac avec 36 GB de RAM via Ollama. Avec les modèles, l'entreprise a ouvert un aperçu de recherche de l'agent terminal pool et d'un client ACP avec serveur. C'est le même environnement que Poolside utilise en interne pour l'entraînement RL et les tests de résolution de tâches d'ingénierie réelles étape par étape par l'agent.

Résultats sur les benchmarks

L'argument principal de la sortie concerne les résultats sur les tests de développement appliqués. Laguna M.1 a obtenu 72,5 % sur SWE-bench Verified, 67,3 % sur SWE-bench Multilingual, 46,9 % sur SWE-bench Pro et 40,7 % sur Terminal-Bench 2.

0. XS.2 obtient des résultats légèrement inférieur, mais semble très solide dans sa catégorie de poids : 68,2 %, 62,4 %, 44,5 % et 30,1 % respectivement.

Pour un modèle open-weight compact, c'est déjà un niveau que de nombreux agents de codage locaux viseront. Ces chiffres sont importants non seulement en eux-mêmes. SWE-bench Verified et Pro vérifient si le modèle peut corriger les vrais bogues dans les référentiels existants, tandis que Terminal-Bench se rapproche du comportement de l'agent dans le terminal, où vous devez travailler avec des fichiers et des commandes.

Poolside qualifie directement les deux modèles Laguna de modèles pour les tâches à long horizon : lorsque vous avez besoin de maintenir le contexte, de planifier une série d'étapes et de ne pas s'effondrer après une longue chaîne d'appels d'outils et de vérifications intermédiaires.

  • Laguna XS.2 est le premier modèle open-weight de Poolside
  • Les poids XS.2 sont disponibles sous la licence Apache 2.0
  • La fenêtre de contexte XS.2 est de 131 072 tokens
  • XS.2 peut s'exécuter localement sur Mac avec 36 GB de RAM
  • Les deux modèles ont été entraînés sur plus de 30 billions de tokens

Comment les modèles ont été créés

Les deux modèles Laguna ont été entraînés à partir de zéro sur la propre infrastructure de Poolside, sans s'appuyer sur un autre modèle de base. Pour M.1, l'entreprise a utilisé 6 144 GPU NVIDIA Hopper interconnectés.

La famille est basée sur Mixture of Experts : à chaque étape, seule une partie des « experts » est activée, donc le modèle peut être volumineux en nombre total de paramètres mais pas aussi coûteux à exécuter que les modèles denses d'une échelle comparable. C'est particulièrement important pour les scénarios d'agents où les appels de modèle sont fréquents. Pour XS.

2, Poolside décrit séparément un ensemble de solutions d'efficacité : mélange de Sliding Window Attention et d'attention globale, quantification du cache KV en FP8 et une architecture avec 256 experts. En résultat, le modèle a obtenu une fenêtre de contexte de 131k tokens et la prise en charge du raisonnement natif entre les appels d'outils. Si vous enlevez le marketing, le sens est simple : un agent peut alterner entre réfléchir, travailler avec le terminal et les étapes suivantes sans une rupture forte entre ces phases et avec une consommation mémoire réduite.

Un accent séparé dans l'annonce porte sur l'entraînement des agents, pas seulement du modèle de langage lui-même. Poolside a construit un système RL asynchrone où les acteurs lancent des bacs à sable, exécutent des tâches, collectent des trajectoires et transmettent presque continuellement au formateur. L'entreprise affirme également que l'optimiseur Muon a permis d'obtenir la même perte d'entraînement en environ 15 % d'étapes en moins par rapport à AdamW.

Cela ne fait pas de Laguna un leader automatique sur toutes les métriques, mais montre la maturité de toute la pile, pas seulement d'un point de contrôle réussi.

Ce que cela signifie

Le marché dispose désormais de plus que simplement des « modèles de code », mais de systèmes conçus pour une programmation d'agent à part entière. Pour les développeurs, cela signifie l'émergence d'une autre base open-weight forte qui peut être ajustée, quantifiée et exécutée localement. Pour l'industrie dans son ensemble, la sortie de Laguna montre un changement du scénario « le modèle écrit une fonction » à un format où l'IA mène une longue tâche d'ingénierie dans son intégralité — et c'est exactement autour de cela que se construit la prochaine vague de compétition maintenant.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…