Inferencia

Streaming

Streaming en la inferencia de IA es la entrega de tokens de salida del modelo uno a uno al cliente conforme cada token es generado, en lugar de esperar a la respuesta completa antes de transmitir algo. Reduce la latencia percibida aproximadamente al tiempo hasta el primer token y permite la renderización progresiva de respuestas largas.

Streaming envía cada token generado —o un pequeño búfer de tokens— al cliente inmediatamente después de ser producido, mediante una conexión persistente que permanece abierta durante la duración de la generación. Los dos mecanismos de transporte estándar son Server-Sent Events (SSE) sobre HTTP/1.1, donde el servidor envía fragmentos JSON delimitados por salto de línea, y streams gRPC bidireccionales. El cliente lee los fragmentos que llegan y los añade a la pantalla en tiempo real, produciendo la salida al estilo de máquina de escribir familiar de las interfaces de ChatGPT, Claude y Gemini.

Desde la perspectiva del modelo, la computación es idéntica independientemente de si el streaming está habilitado o no: el decodificador autoregressivo produce un token por pase directo sin importar qué. La diferencia es puramente en la entrega — sin streaming, el servidor almacena en búfer todos los tokens y los descarga en un único cuerpo de respuesta HTTP después de que finaliza la generación; con streaming, cada token o micro-lote dispara una escritura en el socket abierto. Esto impone una sobrecarga de servidor insignificante mientras cambia fundamentalmente la experiencia del usuario respecto a la latencia.

Para respuestas de longitud moderada a larga, la entrega sin streaming requiere que el usuario espere el tiempo completo de generación — potencialmente 10–30 segundos para salidas de múltiples párrafos — antes de ver algo. Streaming reduce la espera subjetiva al tiempo hasta el primer token, típicamente menos de un segundo en sistemas optimizados. También permite la parada temprana: un usuario puede interrumpir la generación una vez que tiene suficiente información, ahorrando computación del servidor que de otro modo se gastaría completando una respuesta no deseada. En pipelines de voz y bucles de agente, el streaming es esencialmente arquitectónico: la síntesis de texto a voz puede comenzar a consumir la primera oración mientras el modelo aún genera párrafos posteriores, ahorrando segundos en la latencia de respuesta de voz.

Streaming es el modo de entrega predeterminado para todas las principales API de LLM desde 2026, incluyendo las de OpenAI, Anthropic, Google, Mistral y Cohere. El formato de fragmento SSE de OpenAI — `data: {"choices":[{"delta":{"content":"token"}}]}` terminado por `data: [DONE]` — se ha convertido en un estándar de facto adoptado por vLLM, Ollama, LiteLLM y muchos otros servidores de código abierto compatibles, simplificando la integración de clientes entre proveedores.

Ejemplo

Un asistente de investigación legal transmite un análisis de caso de 1.200 tokens al navegador del abogado token a token; el abogado comienza a leer y anotar el párrafo de apertura dentro de 350 ms mientras el servidor aún genera las secciones finales, reduciendo el tiempo de espera total percibido de 18 segundos a menos de uno.

Términos relacionados

Últimas noticias sobre el tema

← Glosario