Vazão
Vazão em inferência de IA é o volume de trabalho que um sistema de disponibilização de modelo processa por unidade de tempo, comumente expressa como tokens de saída por segundo ou solicitações completas por segundo entre todos os usuários concorrentes. Ela reflete a capacidade total do sistema em vez de velocidade de uma única solicitação.
Vazão quantifica a taxa de saída produtiva agregada de uma implantação de inferência—quantos tokens são gerados ou quantas solicitações são completas entre todas as sessões concorrentes em uma determinada janela de tempo. É a contrapartida em nível de sistema para latência: enquanto latência descreve a experiência de um usuário, vazão descreve a capacidade de processamento geral do sistema. As duas métricas estão vinculadas mas se compensam; aumentar tamanho de lote aumenta vazão enquanto aumenta latência por solicitação.
Vazão escala com contagem de GPU, tamanho de lote e otimizações de modelo. Batching contínuo processa tokens de múltiplas solicitações em andamento em uma única passagem direta, aumentando utilização de GPU. Paralelismo de tensor distribui pesos de modelo através de múltiplas GPUs, habilitando lotes maiores do que a memória de uma única GPU permite. Quantização—reduzindo precisão de peso de FP16 para INT8 ou INT4—diminui pegada de memória, cabendo mais sequências concorrentes. Paralelismo de pipeline através de nós estende ainda mais capacidade para modelos muito grandes.
Para implantações de alto tráfego—bots de suporte ao cliente, aumentação de pesquisa, processamento de documentos em larga escala—vazão determina custo por token e a carga máxima de usuário concorrente que a infraestrutura pode sustentar sem atrasos de fila. Dobrar vazão em hardware constante reduz pela metade o custo de inferência por unidade, o que na escala de bilhões de tokens diários representa despesa operacional significativa.
Em 2025–2026, stacks de disponibilização otimizados de código aberto, como vLLM, SGLang e TensorRT-LLM, demonstraram vazões de vários milhares de tokens de saída por segundo por GPU H100 para modelos no intervalo de parâmetros 7B–70B. Provedores de nuvem publicam benchmarks de vazão sob carga sustentada para ajudar clientes a dimensionar clusters para seus padrões de tráfego. Pesquisa em prefill dividido, prefill/decodificação desagregada e execução especulativa continua empurrando vazão mais alta enquanto mantém latência de cauda limitada.