Un stack open source de 6 modelos y 9 agentes mostró cómo montar un equipo de AI en un solo servidor
Un solo servidor con GPU, seis modelos open source y nueve agentes: así es un equipo autónomo de AI que diseña, escribe, prueba y despliega nuevos agentes por s

Автономная команда из девяти ИИ-агентов может проектировать, писать, тестировать и деплоить новых агентов без участия человека. Для этого не нужен набор закрытых API: схема строится на шести open-source-моделях и в базовом варианте помещается на один GPU-сервер.
Как устроена команда Вместо одной «универсальной» модели автор собрал конвейер из девяти ролей.
Одни агенты отвечают за постановку задачи и архитектуру, другие — за написание кода, проверку качества, тестирование и выкладку. В результате получается не один большой ассистент, а маленькая инженерная организация, где каждый участник делает узкий кусок работы. Такой подход снижает хаос: агенту не нужно одновременно планировать систему, писать модули, запускать тесты и оценивать собственные ошибки.
Ключевая идея в том, что автономность достигается не магией, а разбиением процесса на этапы. Если агент понимает только свой участок и получает на вход уже структурированную задачу, требования к модели становятся понятнее. Оркестратор должен уметь рассуждать и держать контекст, билдер — стабильно генерировать код, критик — видеть проблемы в использовании инструментов и сценариях выполнения.
Поэтому выигрыш здесь дает не одна сверхмодель, а точная сборка ролей в рабочий пайплайн.
Роли и бенчмарки Автор прямо отвергает идею «лучшей модели вообще».
Вместо этого роли подбираются по тому, что подтверждают бенчмарки. Для оркестратора важен reasoning, поэтому ориентиром служит результат GPQA на уровне 88,4%. Для билдера критична кодогенерация, и здесь смотрят на HumanEval с показателем 92,7%. Для критика важнее понимание tool use и поведения агентов в задачах, поэтому в расчет берут tau-bench с результатом 87,4%. Именно из-за такой специализации вместо одного GPT-класса на все случаи используются шесть разных open-source-моделей.
- Оркестратор — сильное рассуждение, приоритизация и декомпозиция задач Билдер — генерация кода и быстрый проход по инженерным изменениям Критик — проверка tool use, качества решений и слабых мест пайплайна * Остальные роли — тесты, деплой и служебные этапы, где можно переиспользовать общие инстансы При этом девять агентов не означают девять полноценных моделей в памяти одновременно. Один из практичных трюков — шаринг инстансов: несколько ролей делят одну и ту же модель, если их нагрузки и профиль задач похожи. В итоге система из девяти агентов может работать всего на трех-четырех модельных инстансах. Это резко снижает расход VRAM, упрощает обслуживание и делает архитектуру ближе к реальному продакшену, а не к демонстрации на безлимитном бюджете.
Железо и запуск Отдельно интересна инфраструктурная часть.
Автор описывает три конфигурации развертывания: от одной RTX 4090 с 24 ГБ памяти до кластера на A100 с суммарными 211 ГБ. Между этими крайностями можно выбирать баланс между скоростью, качеством и параллелизмом. Для удешевления используются квантизация, продуманная инфраструктура инференса и интерактивный дашборд, который помогает следить за ролями, нагрузкой и ходом задач.
То есть речь идет не только о подборе моделей, но и о нормальной операционной среде для них. Практический вывод простой: open-source-агентность перестает быть игрушкой для лаборатории. Если раньше подобные схемы ассоциировались либо с дорогими API, либо с тяжелыми кластерами, то здесь показан более приземленный путь старта.
Небольшая команда может начать с одного сервера, проверить жизнеспособность пайплайна, а затем масштабировать его по мере роста задач. Цена вопроса уже выглядит как инженерный выбор, а не как барьер, который сразу отсеивает большинство команд.
Что это значит
Рынок двигается от идеи одной «магической» модели к роли-ориентированным системам, где важнее правильная компоновка, чем громкое имя в API. Для бизнеса это сигнал: автономные AI-команды можно собирать из open-source-компонентов уже сейчас, если относиться к ним как к инфраструктуре и процессу, а не как к одному чат-окну.