Inferência

Latência

Latência em inferência de IA é o tempo decorrido entre submeter uma solicitação a um modelo e receber sua resposta, tipicamente medido em milissegundos. Em modelos de linguagem grande, ela é subdividida em tempo até primeiro token (TTFT) e latência entre tokens (TPOT).

Latência mede o atraso acumulado em cada estágio do pipeline de inferência desde o momento em que uma solicitação é enviada até o momento em que uma resposta é recebida. Duas sub-métricas importam mais para LLMs: tempo para primeiro token (TTFT), o atraso antes do primeiro token de saída aparecer, e tempo por token de saída (TPOT), o ritmo em que tokens subsequentes chegam. A latência ponta-a-ponta é aproximadamente igual a TTFT mais (TPOT × número de tokens de saída).

Latência acumula-se através de trânsito de rede, fila de solicitações, busca de KV-cache e computação GPU. A fase de prefill—processar todo o prompt de entrada em paralelo—domina TTFT e escala com o comprimento do prompt. A fase de decodificação autorregressiva, que gera um token por passagem direta, determina TPOT. Durante decodificação, a largura de banda de memória GPU em vez de computação bruta é tipicamente a restrição vinculante, porque matrizes de peso devem ser carregadas da memória HBM para cada passo de token.

Para aplicações interativas, como chatbots, assistentes de codificação e agentes de voz, latência alta degrada diretamente a usabilidade. Pesquisa de fatores humanos coloca o limiar para sentir "instantâneo" em aproximadamente 200 ms; acima de 1–2 segundos, taxas de engajamento de usuário e conclusão de tarefas caem visivelmente. Em fluxos de trabalho agenticos nos quais um modelo invoca ferramentas em loops, latência se compõe através de muitas chamadas sequenciais, tornando o atraso de cada etapa consequencial.

A partir de 2026, APIs hospedadas de fronteira de OpenAI, Anthropic e Google tipicamente entregam TTFTs abaixo de 500 ms e velocidades de streaming de 40–100 tokens por segundo em solicitações padrão. Técnicas de otimização, incluindo decodificação especulativa (usando um pequeno modelo de rascunho para propor tokens verificados por um modelo maior), batching contínuo e quantização, reduziram latência substancialmente desde 2023. Hardware especializado—NVIDIA H100/H200, AMD MI300X, Google TPU v5e—fornece a largura de banda de memória necessária para empurrar TPOT abaixo de 10 ms por token.

Exemplo

Uma empresa implantando um assistente de codificação em tempo real monitora TTFT para garantir que desenvolvedores vejam o primeiro token de uma sugestão dentro de 300 ms; se TTFT exceder esse limiar sob carga, a equipe escala replicas ou habilita decodificação especulativa para atender ao SLA.

Termos relacionados

Vazão Inferência Streaming Speculative Decoding

Últimas notícias sobre o tema

Loka criou um agente de voz no Amazon Nova 2 Sonic com latência inferior a um segundo2026-06-28 Alibaba lança tradutor com latência de 2.8 segundos em 60 idiomas2026-05-21 NVIDIA Vera Rubin: como os desenvolvedores dimensionarão IA de agentes sem latências2026-05-21 OpenAI explicou como reestruturou o WebRTC para AI de voz de baixa latência2026-05-16 Por que a latência determina a arquitetura de sistemas de AI mais do que a precisão do modelo2026-05-02

← Glossário