Poolside lançou Laguna XS.2 e M.1 — modelos abertos para programação com agentes
Poolside lançou dois modelos para programação com agentes — Laguna XS.2 e M.1. O XS.2 recebeu pesos abertos sob Apache 2.0, é executado localmente e atinge…
Processado por IA de MarkTechPost; editado por Hamidun News
A Poolside lançou os primeiros modelos da família Laguna — XS.2 e M.1 — e está apostando não em IA comum para autocompletar, mas em agentes de código que podem realizar tarefas por longos períodos e sequencialmente sem perda constante de contexto. A ideia é que o modelo não apenas escreva um trecho de código, mas leia um repositório, faça alterações, execute testes, analise erros e leve a mudança para um estado funcional em um único ciclo de trabalho.
O que a Poolside Apresentou
O lançamento incluiu dois modelos e um ambiente de agentes no qual a empresa treina seus próprios sistemas. O Laguna M.1 de ponta é um grande modelo MoE com 225 bilhões de parâmetros e 23 bilhões de parâmetros ativos por token.
Laguna XS.2 é notavelmente mais compacto: 33 bilhões de parâmetros totais e 3 bilhões ativos. Para o mercado, este é um sinal importante: Poolside está lançando não apenas um modelo para lado do servidor para cargas pesadas, mas também uma versão leve para uso local.
XS.2 se tornou o primeiro modelo open-weight da empresa. Poolside o distribui sob a licença Apache 2.
0 e enfatiza especificamente que o modelo pode rodar em Mac com 36 GB de RAM através de Ollama. Junto com os modelos, a empresa abriu uma prévia de pesquisa do agente de terminal pool e um cliente ACP com servidor. Este é o mesmo ambiente que Poolside usa internamente para treinamento RL e teste de como o agente resolve tarefas de engenharia reais passo a passo.
Resultados em Benchmarks
O principal argumento do lançamento são os resultados em testes de desenvolvimento aplicados. Laguna M.1 obteve 72,5% em SWE-bench Verified, 67,3% em SWE-bench Multilingual, 46,9% em SWE-bench Pro e 40,7% em Terminal-Bench 2.
0. XS.2 fica um pouco abaixo, mas parece muito forte em sua categoria de peso: 68,2%, 62,4%, 44,5% e 30,1% respectivamente.
Para um modelo open-weight compacto, este é já um nível que muitos agentes de codificação locais procurarão. Esses números são importantes não apenas por si só. SWE-bench Verified e Pro verificam se o modelo pode corrigir bugs reais em repositórios existentes, enquanto Terminal-Bench é mais próximo ao comportamento de agente no terminal, onde você precisa trabalhar com arquivos e comandos.
Poolside chama diretamente ambos os modelos Laguna de modelos para tarefas de longo horizonte: quando você precisa manter contexto, planejar uma série de etapas e não se desintegrar após uma longa cadeia de chamadas de ferramentas e verificações intermediárias.
- Laguna XS.2 é o primeiro modelo open-weight da Poolside
- Os pesos de XS.2 estão disponíveis sob a licença Apache 2.0
- A janela de contexto de XS.2 é de 131.072 tokens
- XS.2 pode rodar localmente em Mac com 36 GB RAM
- Ambos os modelos foram treinados em mais de 30 trilhões de tokens
Como os Modelos Foram Feitos
Ambos os modelos Laguna foram treinados do zero na própria infraestrutura da Poolside, sem depender de outro modelo base. Para M.1, a empresa usou 6.
144 GPUs NVIDIA Hopper interconectadas. A família é baseada em Mixture of Experts: a cada etapa, apenas parte dos "especialistas" é ativada, então o modelo pode ser grande em parâmetros totais mas não tão caro de executar quanto modelos densos de escala comparável. Isso é especialmente importante para cenários de agentes onde chamadas de modelo são frequentes.
Para XS.2, Poolside descreve separadamente um conjunto de soluções de eficiência: mistura de Sliding Window Attention e atenção global, quantização de KV-cache para FP8 e uma arquitetura com 256 especialistas. Como resultado, o modelo obteve uma janela de contexto de 131k tokens e suporte para raciocínio nativo entre chamadas de ferramentas.
Se você tirar o marketing, o significado é simples: um agente pode alternar entre pensar, trabalhar com o terminal e próximas etapas sem uma quebra severa entre essas fases e com custos de memória menores. Um destaque separado no anúncio é no treinamento de agentes, não apenas no modelo de linguagem. Poolside construiu um sistema RL assíncrono onde atores ativam sandboxes, executam tarefas, coletam trajetórias e quase continuamente as passam para o treinador.
A empresa também afirma que o otimizador Muon permitiu alcançar a mesma perda de treinamento em aproximadamente 15% menos etapas em comparação com AdamW. Isso não torna Laguna um líder automático em todas as métricas, mas mostra a maturidade de toda a pilha, não apenas um checkpoint bem-sucedido.
O Que Isso Significa
O mercado agora tem mais do que apenas "modelos de código", mas sistemas projetados para programação de agentes de pleno direito. Para desenvolvedores, isso significa o surgimento de outra base open-weight forte que pode ser ajustada, quantizada e executada localmente. Para a indústria como um todo, o lançamento de Laguna mostra uma mudança do cenário "modelo escreve uma função" para um formato onde IA conduz uma longa tarefa de engenharia por completo — e é exatamente isso em torno do que a próxima onda de competição está sendo construída agora.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.