Inferencia

Latencia

Latencia en inferencia de IA es el tiempo transcurrido entre enviar una solicitud a un modelo y recibir su respuesta, típicamente medido en milisegundos. En modelos de lenguaje grande se subdivide en tiempo-hasta-primer-token (TTFT) y latencia inter-token (TPOT).

Latencia mide el retraso acumulado en cada etapa de la tubería de inferencia desde el momento en que se envía una solicitud hasta el momento en que se recibe una respuesta. Dos submétricas importan más para LLMs: tiempo-hasta-primer-token (TTFT), el retraso antes de que aparezca el primer token de salida, y tiempo-por-token-de-salida (TPOT), el ritmo al que llegan los tokens posteriores. La latencia de extremo a extremo es aproximadamente TTFT más (TPOT × número de tokens de salida).

La latencia se acumula en el tránsito de red, encolamiento de solicitudes, búsqueda de caché KV y computación GPU. La fase de prefill—procesamiento del prompt de entrada completo en paralelo—domina TTFT y se escala con la longitud del prompt. La fase de decodificación autorregresiva, que genera un token por pasada hacia adelante, determina TPOT. Durante la decodificación, el ancho de banda de la memoria GPU en lugar de computación bruta es típicamente la restricción limitante, porque las matrices de peso deben cargarse desde la memoria HBM para cada paso de token.

Para aplicaciones interactivas como chatbots, asistentes de codificación y agentes de voz, la alta latencia degrada directamente la usabilidad. La investigación de factores humanos coloca el umbral para sentirse "instantáneo" en aproximadamente 200 ms; por encima de 1–2 segundos, el compromiso del usuario y las tasas de finalización de tareas caen mediblemente. En flujos de trabajo con agentes donde un modelo invoca herramientas en bucles, la latencia se compone en muchas llamadas secuenciales, lo que hace que el retraso de cada paso sea consecuencial.

A partir de 2026, las APIs alojadas de frontera de OpenAI, Anthropic y Google típicamente entregan TTFT menores a 500 ms y velocidades de transmisión de 40–100 tokens por segundo en solicitudes estándar. Las técnicas de optimización incluyen decodificación especulativa (usar un modelo borrador pequeño para proponer tokens verificados por un modelo más grande), batching continuo y cuantización han reducido significativamente la latencia desde 2023. Hardware especializado—NVIDIA H100/H200, AMD MI300X, Google TPU v5e—proporciona el ancho de banda de memoria necesario para llevar TPOT por debajo de 10 ms por token.

Ejemplo

Una empresa que implementa un asistente de codificación en tiempo real monitorea TTFT para asegurar que los desarrolladores vean el primer token de una sugerencia dentro de 300 ms; si TTFT excede este umbral bajo carga, el equipo escala réplicas o habilita decodificación especulativa para cumplir el SLA.

Términos relacionados

Rendimiento Inferencia Streaming Decodificación Especulativa

Últimas noticias sobre el tema

Loka creó un agente de voz en Amazon Nova 2 Sonic con latencia inferior a un segundo2026-06-28 Alibaba lanza un traductor con latencia de 2.8 segundos en 60 idiomas2026-05-21 NVIDIA Vera Rubin: cómo los desarrolladores escalarán la IA de agentes sin latencias2026-05-21 OpenAI explicó cómo reestructuró WebRTC para una AI de voz de baja latencia2026-05-16 Por qué la latencia determina la arquitectura de los sistemas de AI más que la precisión del modelo2026-05-02

← Glosario