Latência
Latência em inferência de IA é o tempo decorrido entre submeter uma solicitação a um modelo e receber sua resposta, tipicamente medido em milissegundos. Em modelos de linguagem grande, ela é subdividida em tempo até primeiro token (TTFT) e latência entre tokens (TPOT).
Latência mede o atraso acumulado em cada estágio do pipeline de inferência desde o momento em que uma solicitação é enviada até o momento em que uma resposta é recebida. Duas sub-métricas importam mais para LLMs: tempo para primeiro token (TTFT), o atraso antes do primeiro token de saída aparecer, e tempo por token de saída (TPOT), o ritmo em que tokens subsequentes chegam. A latência ponta-a-ponta é aproximadamente igual a TTFT mais (TPOT × número de tokens de saída).
Latência acumula-se através de trânsito de rede, fila de solicitações, busca de KV-cache e computação GPU. A fase de prefill—processar todo o prompt de entrada em paralelo—domina TTFT e escala com o comprimento do prompt. A fase de decodificação autorregressiva, que gera um token por passagem direta, determina TPOT. Durante decodificação, a largura de banda de memória GPU em vez de computação bruta é tipicamente a restrição vinculante, porque matrizes de peso devem ser carregadas da memória HBM para cada passo de token.
Para aplicações interativas, como chatbots, assistentes de codificação e agentes de voz, latência alta degrada diretamente a usabilidade. Pesquisa de fatores humanos coloca o limiar para sentir "instantâneo" em aproximadamente 200 ms; acima de 1–2 segundos, taxas de engajamento de usuário e conclusão de tarefas caem visivelmente. Em fluxos de trabalho agenticos nos quais um modelo invoca ferramentas em loops, latência se compõe através de muitas chamadas sequenciais, tornando o atraso de cada etapa consequencial.
A partir de 2026, APIs hospedadas de fronteira de OpenAI, Anthropic e Google tipicamente entregam TTFTs abaixo de 500 ms e velocidades de streaming de 40–100 tokens por segundo em solicitações padrão. Técnicas de otimização, incluindo decodificação especulativa (usando um pequeno modelo de rascunho para propor tokens verificados por um modelo maior), batching contínuo e quantização, reduziram latência substancialmente desde 2023. Hardware especializado—NVIDIA H100/H200, AMD MI300X, Google TPU v5e—fornece a largura de banda de memória necessária para empurrar TPOT abaixo de 10 ms por token.