Um stack open source de 6 modelos e 9 agentes mostrou como montar uma equipe de AI em um único servidor

Q: Qual é a fonte?

Publicado originalmente em Habr AI. O Hamidun News processa e adapta os materiais com IA.

Q: Quando foi publicado?

30 de abr. de 2026. Tempo de leitura: 3 min.

Um único servidor com GPU, seis modelos open source e nove agentes — essa é a configuração de uma equipe autônoma de AI que projeta, escreve, testa e…

Redação da Hamidun News

Monitoramento de AI · Habr AI

30 de abr. de 2026· 3 min

Processado por IA de Habr AI; editado por Hamidun News

Um stack open source de 6 modelos e 9 agentes mostrou como montar uma equipe de AI em um único servidor — Fonte: Habr AI. Colagem: Hamidun News.

◐ Ouvir artigo

Uma equipe autônoma de nove agentes de IA pode projetar, escrever, testar e implementar novos agentes sem participação humana. Para isso, não é necessário um conjunto de APIs fechadas: o esquema é construído em seis modelos de código aberto e na versão básica cabe em um único servidor com GPU.

Como a equipe é estruturada

Em vez de um modelo "universal", o autor montou um pipeline de nove funções. Alguns agentes lidam com formulação de tarefas e arquitetura, outros com escrita de código, verificação de qualidade, testes e implantação. O resultado não é um grande assistente, mas uma pequena organização de engenharia onde cada participante faz uma parte estreita do trabalho. Essa abordagem reduz o caos: um agente não precisa simultaneamente planejar o sistema, escrever módulos, executar testes e avaliar seus próprios erros.

A ideia-chave é que a autonomia é alcançada não por magia, mas pela divisão do processo em etapas. Se um agente compreende apenas sua própria parte e recebe uma tarefa já estruturada como entrada, os requisitos para o modelo se tornam mais claros. O orquestrador deve ser capaz de raciocinar e manter contexto, o construtor deve gerar código de forma estável, o crítico deve ver problemas no uso de ferramentas e cenários de execução. É por isso que o ganho vem não de um super-modelo, mas da montagem precisa de funções em um pipeline funcional.

Funções e benchmarks

O autor rejeita diretamente a ideia de um "melhor modelo absoluto". Em vez disso, as funções são selecionadas com base no que os benchmarks confirmam. Para o orquestrador, o raciocínio é importante, então o benchmark é GPQA em 88,4%. Para o construtor, a geração de código é crítica e o HumanEval em 92,7% é usado aqui. Para o crítico, entender o uso de ferramentas e o comportamento dos agentes em tarefas é mais importante, então o tau-bench em 87,4% é usado.

É precisamente por causa dessa especialização que, em vez de um modelo GPT-class para todos os casos, seis modelos de código aberto diferentes são usados.

Orquestrador — raciocínio forte, priorização e decomposição de tarefas
Construtor — geração de código e mudanças rápidas de engenharia
Crítico — verificação de uso de ferramentas, qualidade de soluções e fraquezas do pipeline
Outras funções — testes, implantação e etapas auxiliares onde instâncias comuns podem ser reutilizadas

Ao mesmo tempo, nove agentes não significam nove modelos completos na memória simultaneamente. Um truque prático é o compartilhamento de instâncias: várias funções compartilham o mesmo modelo se suas cargas e perfis de tarefas forem semelhantes. Como resultado, um sistema de nove agentes pode rodar em apenas três ou quatro instâncias de modelo. Isso reduz drasticamente o consumo de VRAM, simplifica a manutenção e aproxima a arquitetura da produção real, em vez de uma demonstração com orçamento ilimitado.

Hardware e inicialização

Separadamente interessante é a parte de infraestrutura. O autor descreve três configurações de implantação: de um único RTX 4090 com 24 GB de memória a um cluster A100 com um total de 211 GB. Entre esses extremos, você pode escolher um equilíbrio entre velocidade, qualidade e paralelismo. Para reduzir custos, quantização, infraestrutura de inferência bem projetada e um painel interativo que ajuda a rastrear funções, carga e progresso das tarefas são usados.

Ou seja, não se trata apenas de selecionar modelos, mas também de um ambiente operacional adequado para eles. A conclusão prática é simples: a agência de código aberto deixa de ser um brinquedo para o laboratório. Se tais esquemas eram anteriormente associados a APIs caras ou clusters pesados, aqui é mostrado um caminho mais realista para iniciar. Uma pequena equipe pode começar com um único servidor, verificar a viabilidade do pipeline e depois escalá-lo conforme as tarefas crescem. O custo da questão já parece uma escolha de engenharia, não uma barreira que imediatamente filtra a maioria das equipes.

O que isso significa

O mercado está se movimentando da ideia de um modelo "mágico" para sistemas orientados por função, onde a composição correta importa mais do que um nome de API badalado. Para os negócios, este é um sinal: equipes de IA autônomas podem ser montadas a partir de componentes de código aberto agora mesmo, se você as tratar como infraestrutura e processo, não como uma única janela de bate-papo.

Hamidun News

Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Canal do Telegram RSS hamidun.com

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

🎓 Academy — 7 dias grátis Consultoria grátis