Un stack open source de 6 modelos y 9 agentes mostró cómo montar un equipo de AI en un solo servidor
Un solo servidor con GPU, seis modelos open source y nueve agentes: así es un equipo autónomo de AI que diseña, escribe, prueba y despliega nuevos agentes…
Procesado por IA desde Habr AI; editado por Hamidun News
Un equipo autónomo de nueve agentes de IA puede diseñar, escribir, probar e implementar nuevos agentes sin participación humana. Para esto no se necesita un conjunto de API cerradas: el esquema se construye en seis modelos de código abierto y en la versión básica cabe en un único servidor con GPU.
Cómo está estructurado el equipo
En lugar de un modelo "universal", el autor ensambló un pipeline de nueve funciones. Algunos agentes se encargan de la formulación de tareas y arquitectura, otros de la escritura de código, verificación de calidad, pruebas e implementación. El resultado no es un asistente grande, sino una pequeña organización de ingeniería donde cada participante realiza una parte estrecha del trabajo. Este enfoque reduce el caos: un agente no necesita simultáneamente planificar el sistema, escribir módulos, ejecutar pruebas y evaluar sus propios errores.
La idea clave es que la autonomía se logra no por magia, sino dividiendo el proceso en etapas. Si un agente entiende solo su parte y recibe una tarea ya estructurada como entrada, los requisitos para el modelo se vuelven más claros. El orquestrador debe ser capaz de razonar y mantener contexto, el constructor debe generar código de manera estable, el crítico debe ver problemas en el uso de herramientas y escenarios de ejecución. Por eso la ganancia proviene no de un super-modelo, sino del ensamblaje preciso de funciones en un pipeline funcional.
Funciones y benchmarks
El autor rechaza directamente la idea de un "mejor modelo en general". En su lugar, las funciones se seleccionan en función de lo que confirman los benchmarks. Para el orquestrador, el razonamiento es importante, así que el benchmark es GPQA en 88,4%. Para el constructor, la generación de código es crítica, y aquí se utiliza HumanEval en 92,7%. Para el crítico, es más importante entender el uso de herramientas y el comportamiento de los agentes en tareas, así que se utiliza tau-bench en 87,4%.
Es precisamente por esta especialización que en lugar de un modelo GPT-class para todos los casos, se utilizan seis modelos de código abierto diferentes.
- Orquestrador — razonamiento fuerte, priorización y descomposición de tareas
- Constructor — generación de código y cambios de ingeniería rápidos
- Crítico — verificación de uso de herramientas, calidad de soluciones y debilidades del pipeline
- Otras funciones — pruebas, implementación y etapas auxiliares donde se pueden reutilizar instancias comunes
Al mismo tiempo, nueve agentes no significan nueve modelos completos en memoria simultáneamente. Un truco práctico es compartir instancias: varias funciones comparten el mismo modelo si sus cargas y perfiles de tareas son similares. Como resultado, un sistema de nueve agentes puede ejecutarse en solo tres o cuatro instancias de modelo. Esto reduce drásticamente el consumo de VRAM, simplifica el mantenimiento y acerca la arquitectura a la producción real, en lugar de una demostración con presupuesto ilimitado.
Hardware e inicio
Separadamente interesante es la parte de infraestructura. El autor describe tres configuraciones de implementación: desde una sola RTX 4090 con 24 GB de memoria hasta un clúster A100 con un total de 211 GB. Entre estos extremos, puedes elegir un equilibrio entre velocidad, calidad y paralelismo. Para reducir costos, se utilizan cuantización, infraestructura de inferencia bien diseñada y un panel interactivo que ayuda a rastrear funciones, carga y progreso de tareas.
Es decir, no se trata solo de seleccionar modelos, sino también de un entorno operativo adecuado para ellos. La conclusión práctica es simple: la agencia de código abierto deja de ser un juguete para el laboratorio. Si tales esquemas estaban previamente asociados con API costosas o clústeres pesados, aquí se muestra un camino más realista para iniciar. Un pequeño equipo puede comenzar con un único servidor, verificar la viabilidad del pipeline y luego escalarlo a medida que crecen las tareas. El costo del problema ya se ve como una opción de ingeniería, no como una barrera que inmediatamente filtra la mayoría de los equipos.
Lo que significa
El mercado se está moviendo de la idea de un modelo "mágico" a sistemas orientados por funciones, donde la composición correcta importa más que un nombre de API ruidoso. Para los negocios, esta es una señal: los equipos de IA autónomos pueden ensamblarse a partir de componentes de código abierto ahora, si los tratas como infraestructura y proceso, no como una única ventana de chat.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.