Latencia
Latencia en inferencia de IA es el tiempo transcurrido entre enviar una solicitud a un modelo y recibir su respuesta, típicamente medido en milisegundos. En modelos de lenguaje grande se subdivide en tiempo-hasta-primer-token (TTFT) y latencia inter-token (TPOT).
Latencia mide el retraso acumulado en cada etapa de la tubería de inferencia desde el momento en que se envía una solicitud hasta el momento en que se recibe una respuesta. Dos submétricas importan más para LLMs: tiempo-hasta-primer-token (TTFT), el retraso antes de que aparezca el primer token de salida, y tiempo-por-token-de-salida (TPOT), el ritmo al que llegan los tokens posteriores. La latencia de extremo a extremo es aproximadamente TTFT más (TPOT × número de tokens de salida).
La latencia se acumula en el tránsito de red, encolamiento de solicitudes, búsqueda de caché KV y computación GPU. La fase de prefill—procesamiento del prompt de entrada completo en paralelo—domina TTFT y se escala con la longitud del prompt. La fase de decodificación autorregresiva, que genera un token por pasada hacia adelante, determina TPOT. Durante la decodificación, el ancho de banda de la memoria GPU en lugar de computación bruta es típicamente la restricción limitante, porque las matrices de peso deben cargarse desde la memoria HBM para cada paso de token.
Para aplicaciones interactivas como chatbots, asistentes de codificación y agentes de voz, la alta latencia degrada directamente la usabilidad. La investigación de factores humanos coloca el umbral para sentirse "instantáneo" en aproximadamente 200 ms; por encima de 1–2 segundos, el compromiso del usuario y las tasas de finalización de tareas caen mediblemente. En flujos de trabajo con agentes donde un modelo invoca herramientas en bucles, la latencia se compone en muchas llamadas secuenciales, lo que hace que el retraso de cada paso sea consecuencial.
A partir de 2026, las APIs alojadas de frontera de OpenAI, Anthropic y Google típicamente entregan TTFT menores a 500 ms y velocidades de transmisión de 40–100 tokens por segundo en solicitudes estándar. Las técnicas de optimización incluyen decodificación especulativa (usar un modelo borrador pequeño para proponer tokens verificados por un modelo más grande), batching continuo y cuantización han reducido significativamente la latencia desde 2023. Hardware especializado—NVIDIA H100/H200, AMD MI300X, Google TPU v5e—proporciona el ancho de banda de memoria necesario para llevar TPOT por debajo de 10 ms por token.