Inferência

Streaming

Streaming em inferência de IA é a entrega de tokens de saída do modelo um a um ao cliente conforme cada token é gerado, em vez de aguardar a resposta completa antes de transmitir qualquer coisa. Reduz a latência percebida para aproximadamente o time-to-first-token e permite a renderização progressiva de respostas longas.

Streaming envia cada token gerado — ou um pequeno buffer de tokens — ao cliente imediatamente após ser produzido, por uma conexão persistente que permanece aberta durante toda a geração. Os dois mecanismos de transporte padrão são Server-Sent Events (SSE) sobre HTTP/1.1, onde o servidor envia chunks JSON delimitados por quebra de linha, e streams bidirecionais gRPC. O cliente lê os chunks que chegam e os anexa à exibição em tempo real, produzindo a saída estilo máquina de escrever familiar do ChatGPT, Claude e Gemini.

Do ponto de vista do modelo, a computação é idêntica seja o streaming habilitado ou não: o decodificador autorregressivo produz um token por passe direto independentemente. A diferença é puramente na entrega — sem streaming, o servidor armazena todos os tokens e os descarrega em um único corpo de resposta HTTP após a geração ser concluída; com streaming, cada token ou micro-lote dispara uma escrita no socket aberto. Isso impõe uma sobrecarga de servidor negligenciável enquanto fundamentalmente muda a experiência de latência do usuário.

Para respostas de comprimento moderado a longo, a entrega sem streaming requer que o usuário aguarde o tempo de geração completo — potencialmente 10–30 segundos para saídas multi-parágrafo — antes de ver qualquer coisa. Streaming reduz a espera subjetiva para o time-to-first-token, tipicamente abaixo de um segundo em sistemas otimizados. Também permite early stopping: um usuário pode interromper a geração uma vez que tenha informação suficiente, economizando computação do servidor que seria gasta completando uma resposta indesejada. Em pipelines de voz e loops de agentes, streaming é essencial arquiteturalmente: a síntese de texto em fala pode começar consumindo a primeira frase enquanto o modelo ainda está gerando parágrafos posteriores, reduzindo segundos da latência de resposta de voz.

Streaming é o modo de entrega padrão para todas as principais APIs de LLM a partir de 2026, incluindo as de OpenAI, Anthropic, Google, Mistral e Cohere. O formato de chunk SSE do OpenAI — `data: {"choices":[{"delta":{"content":"token"}}]}` terminado por `data: [DONE]` — tornou-se um padrão de facto adotado por vLLM, Ollama, LiteLLM e muitos outros servidores compatíveis de código aberto, simplificando a integração de clientes entre provedores.

Exemplo

Um assistente de pesquisa jurídica envia em streaming uma análise de caso de 1.200 tokens para o navegador do advogado token por token; o advogado começa a ler e anotar o parágrafo de abertura em 350 ms enquanto o servidor ainda está gerando as seções finais, reduzindo o tempo de espera percebido total de 18 segundos para menos de um segundo.

Termos relacionados

Últimas notícias sobre o tema

← Glossário