Machine Learning Mastery lanzó una guía sobre ingeniería de contexto para agentes de IA confiables
Machine Learning Mastery lanzó una guía práctica sobre ingeniería de contexto — una disciplina que determina qué datos ve un agente de IA en cada momento…
Procesado por IA desde Machine Learning Mastery; editado por Hamidun News
Machine Learning Mastery lanzó una guía práctica sobre context engineering para agentes de IA — una disciplina que determina qué datos ve el modelo en cada momento de operación. La tesis principal del artículo: los problemas en producción en sistemas de agentes están más frecuentemente relacionados no con la calidad del modelo, sino con cómo los desarrolladores gestionan el contexto, el historial y los tokens.
Por qué los agentes se rompen
El autor sugiere ver la ventana de contexto como un recurso computacional limitado, no como un detalle técnico que se pueda ignorar. Los tokens tienen no solo un coste monetario, porque cada llamada al modelo se cobra, sino también un coste cognitivo: una entrada larga y mal estructurada reduce la calidad del razonamiento. El modelo presta más atención al principio y al final del contexto, mientras que el medio a menudo pierde influencia, incluso si formalmente todo cabe dentro del límite.
La ventana de contexto no es una limitación que se pueda evitar, sino
el parámetro principal de diseño de un sistema de agentes.
De ahí el escenario de fallo típico: al agente simplesmente se le "pega" todo — respuestas antiguas, salidas de herramientas brutas, fragmentos duplicados de recuperación y soluciones obsoletas. Como resultado, crece la latencia y el coste, mientras que la señal útil se ahoga en ruido. El artículo compara esto con la RAM: la memoria rápida es potente, pero finita. Todo lo que el agente no necesita ahora debe almacenarse en memoria externa y entrar en el contexto solo bajo demanda.
Cómo ensamblar el contexto
La idea arquitectónica más útil de la guía es separar estrictamente el contexto estático y dinámico. La parte estática incluye instrucciones del sistema, rol del agente, reglas, descripciones de herramientas y formato de respuesta. Estos datos apenas cambian, por lo que se pueden cachear como prefijo. La parte dinámica es la consulta actual del usuario, resultados frescos de herramientas, los pasos más recientes del agente y documentos que son realmente necesarios en esta etapa.
Antes de ensamblar el prompt, el autor sugiere hacer una auditoría de todas las capas que típicamente llenan la ventana de contexto:
- instrucciones del sistema y ejemplos few-shot;
- historial de diálogo, respuestas del agente y resultados de llamadas de herramientas;
- datos externos de bases de conocimiento, archivos o búsqueda;
- estado de trabajo: conclusiones intermedias, plan, próximos pasos.
La conclusión práctica es simple: no necesitas minimizar cada capa a cualquier coste; solo necesitas eliminar lo que no ayuda al paso actual. Un esquema de dos pasadas parece útil. Primero, el sistema levanta el marco permanente: prompt del sistema, reglas cacheables, resumen de larga duración. Luego carga la parte variable: estado de tarea relevante, recuperación fresca y una cola corta y relevante del historial. Este ensamblaje también simplifica la depuración, porque puedes ver inmediatamente si el problema está en la configuración o en los datos de la sesión actual.
Cómo controlar la calidad
Una sección separada del artículo está dedicada a dos áreas donde los agentes se degradan más rápidamente: historial de diálogo y recuperación. La simple acumulación de toda la conversación infla rápidamente el contexto y cementa los errores del modelo como si fueran hechos. El autor recomienda alejarse del historial bruto hacia resumen continuo o incluso estado de sesión estructurado, donde la intención del usuario, las decisiones tomadas, las acciones completadas y los próximos pasos se registran por separado. Esto le da al agente memoria sin crecimiento infinito de tokens.
La lógica con recuperación es similar: cada lote de datos encontrado consume presupuesto, por lo que no se puede considerar gratuito. El artículo recomienda filtrar resultados antes de insertarlos en el prompt, usar semantic chunking en lugar de corte de tamaño fijo, y donde sea necesario, combinar búsqueda semántica con filtros de palabras clave o metadatos. Para sistemas maduros, la recuperación controlada por agente se considera una opción más fuerte — el propio agente llama a la búsqueda solo en el momento en que realmente se necesita, no automáticamente en cada movimiento.
Para producción, el autor sugiere medir no solo la respuesta final, sino también la calidad del propio contexto. Entre las métricas útiles están la utilización del presupuesto de tokens, la tasa de compresión después del resumen, la precisión de recuperación y señales de desvío de contexto, cuando el agente comienza a releer archivos ya procesados o se desvía de la tarea original.
Otra técnica práctica es la evaluación basada en sondas: después de la compresión o recuperación, se hacen al sistema preguntas de control para verificar que se preserven los hechos necesarios, los artefactos y la capacidad de continuar una tarea de múltiples pasos desde el mismo punto.
Qué significa esto
La guía de Machine Learning Mastery hace un buen trabajo capturando el cambio en el desarrollo de agentes: la calidad de un agente de IA ahora depende no solo de la elección del modelo, sino también de cómo se organizan disciplinadamente la memoria, recuperación y presupuesto de tokens. Para equipos que despliegan agentes en producción, esta es una señal directa para diseñar el contexto como una capa separada de la arquitectura, no como una cola del prompt.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.