Inferencia

Ventana de Contexto

Una ventana de contexto es el número máximo de tokens que un modelo de lenguaje puede procesar en una única llamada de inferencia, cubriendo tanto el prompt de entrada como la salida generada. Excederla causa truncamiento de entrada o un error de API; ventanas más grandes permiten análisis de documentos completos sin sistemas de recuperación externos.

La ventana de contexto define el límite superior de la longitud de secuencia a la que un modelo de lenguaje basado en transformador puede atender en un paso adelante. Su tamaño se determina en tiempo de entrenamiento por el esquema de codificación posicional y las longitudes de secuencia en las que se entrenó el modelo. Todo lo que el modelo puede ver simultáneamente —el prompt del sistema, el historial de conversación, los documentos recuperados, los resultados de llamadas de herramientas y la respuesta generada en progreso— debe caber dentro de este límite, medido en tokens.

Los transformadores calculan la atención sobre todos los tokens en el contexto, por lo que la computación y la memoria se escalan cuadráticamente con la longitud del contexto en la implementación ingenua. Técnicas como atención dispersa, atención de ventana deslizante (utilizada en Mistral 7B), Flash Attention 2 y 3 y atención de anillo han hecho que contextos muy largos sean prácticos. Las codificaciones posicionales (RoPE, ALiBi y otras) comunican la posición de cada token en la secuencia; los modelos entrenados con RoPE a menudo pueden extrapolarse más allá de su longitud de entrenamiento mediante técnicas de fine-tuning como YaRN, que extendió el contexto nativo de 4k de LLaMA 2 a 128k en modelos comunitarios. La memoria de KV-cache crece linealmente con la longitud del contexto, haciendo que contextos muy largos sean intensivos en memoria GPU en tiempo de inferencia.

El tamaño de la ventana de contexto determina directamente qué tareas puede realizar un modelo sin aumentación de recuperación. Una ventana de 4.096 tokens no puede contener un artículo de investigación completo; una ventana de 1.000.000 de tokens puede ingerir un repositorio de software completo o un documento de cientos de páginas, habilitando respuestas a preguntas en contexto sin una base de datos vectorial externa. Los contextos más largos también permiten retener historial de conversación completo, eliminando la necesidad de resumición con pérdida entre turnos.

Las ventanas de contexto se expandieron rápidamente entre 2023 y 2026. GPT-4 se lanzó en 2023 con 8k tokens (32k en una variante separada); en 2026, Claude 3.5/4 admite hasta 200k tokens, Gemini 1.5 Pro estableció 1M de tokens como capacidad de producción en 2024, y Gemini 2.0 Flash admite 1M de tokens. Una limitación práctica persistente es el efecto «lost in the middle»: los modelos tienden a prestar más atención al principio y al final de contextos largos, causando que la información en el medio de secuencias muy largas tenga menos peso a pesar de estar técnicamente dentro de la ventana.

Ejemplo

Un equipo legal utiliza un modelo de 200.000 tokens para ingerir un acuerdo de fusión de 600 páginas completo en una única llamada de API, haciendo preguntas específicas sobre cláusulas de indemnización sin primero fragmentar el documento o construir un índice de recuperación.

Términos relacionados

Token KV-Cache Prompt Caching RAG (Retrieval-Augmented Generation)

Últimas noticias sobre el tema

La ventana de contexto no es memoria: qué deben entender los desarrolladores de agentes AI2026-06-29 Ventana de Contexto de LLM: Por Qué las Redes Neurales Olvidan Partes de Tu Conversación2026-06-15 Por qué ChatGPT Olvida: Explicación de la Ventana de Contexto en Modelos de Lenguaje2026-06-15 DeepSeek prepara V4: un modelo multimodal con una ventana de contexto de hasta 1 millón de tokens2026-05-02 Anthropic presenta Claude 4.6 Sonnet con una ventana de contexto de 1 millón de tokens2026-02-18

← Glosario