Inferencia

Rendimiento

Rendimiento en inferencia de IA es el volumen de trabajo que un sistema de servicio de modelo procesa por unidad de tiempo, comúnmente expresado como tokens de salida por segundo o solicitudes completadas por segundo en todos los usuarios concurrentes. Refleja la capacidad total del sistema más que la velocidad de una solicitud individual.

El rendimiento cuantifica la tasa de salida productiva agregada de un despliegue de inferencia—cuántos tokens se generan o cuántas solicitudes se completan en todas las sesiones concurrentes en una ventana de tiempo dada. Es el contraparte a nivel de sistema de latencia: mientras que latencia describe la experiencia de un usuario, el rendimiento describe la capacidad de procesamiento general del sistema. Las dos métricas están vinculadas pero se intercambian; aumentar el tamaño del lote aumenta el rendimiento mientras aumenta la latencia por solicitud.

El rendimiento se escala con la cantidad de GPU, el tamaño del lote y las optimizaciones del modelo. El batching continuo procesa tokens de múltiples solicitudes en vuelo en una sola pasada hacia adelante, elevando la utilización de GPU. El paralelismo de tensor distribuye pesos del modelo en múltiples GPUs, permitiendo lotes más grandes de los que permite la memoria de una sola GPU. Cuantización—reducir la precisión del peso de FP16 a INT8 o INT4—reduce la huella de memoria, ajustando más secuencias concurrentes. El paralelismo de pipeline en los nodos extiende aún más la capacidad para modelos muy grandes.

Para despliegues de alto tráfico—bots de soporte al cliente, aumento de búsqueda, procesamiento de documentos a gran escala—el rendimiento determina el costo por token y la carga máxima de usuarios concurrentes que la infraestructura puede sostener sin retrasos de encolamiento. Duplicar el rendimiento a hardware constante reduce a la mitad el costo de inferencia unitario, que a la escala de miles de millones de tokens diarios representa un gasto operativo significativo.

En 2025–2026, pilas de servicio de código abierto optimizadas como vLLM, SGLang y TensorRT-LLM han demostrado rendimientos de varios miles de tokens de salida por segundo por GPU H100 para modelos en el rango de parámetros 7B–70B. Los proveedores de nube publican benchmarks de rendimiento bajo carga sostenida para ayudar a los clientes a dimensionar clusters para sus patrones de tráfico. La investigación sobre prefill fragmentado, prefill/decode desagregado y ejecución especulativa continúa empujando el rendimiento más alto mientras mantiene la latencia de cola acotada.

Ejemplo

Una empresa que ejecuta una tubería de resumen de documentos nocturna configura batching continuo en un nodo de cuatro GPU para sostener 6,000 tokens de salida por segundo en 200 trabajos concurrentes, completando la cola completa dentro de una ventana de procesamiento de dos horas.

Términos relacionados

Últimas noticias sobre el tema

← Glosario