Inferencia
Inferencia es el proceso de aplicar un modelo de aprendizaje automático entrenado a nuevos datos de entrada para producir predicciones o resultados. Es la operación en el momento de despliegue, distinta del entrenamiento, en la cual no se actualizan parámetros del modelo.
En aprendizaje automático, inferencia se refiere al cálculo de paso hacia adelante en el cual un modelo entrenado recibe una entrada y produce una salida—una etiqueta de clasificación, una secuencia de texto generada, un vector de incrustación, o cualquier otra salida de modelo. A diferencia del entrenamiento, la inferencia no modifica pesos del modelo; es una operación de solo lectura contra un conjunto fijo de parámetros. En sistemas de producción, la inferencia se ejecuta continuamente y a escala, sirviendo a usuarios finales o aplicaciones posteriores.
Inferencia para un modelo de lenguaje basado en transformer implica tokenizar el texto de entrada, buscar incrustaciones de tokens, calcular autoatención de múltiples cabezas a través de la ventana de contexto, pasar activaciones a través de capas feed-forward, y—para modelos generativos—muestrear iterativamente el siguiente token hasta que se cumple un criterio de parada (decodificación autorregresiva). Las optimizaciones clave incluyen cuantización (reducción de precisión de peso de float de 32 bits a enteros de 8 bits o 4 bits), reutilización de KV-cache (almacenar matrices de clave y valor previamente calculadas para evitar cálculo redundante a través de pasos de decodificación), y agrupamiento de solicitudes (agrupar solicitudes concurrentes para maximizar la utilización de GPU).
La economía de inferencia domina la estructura de costos de productos de IA desplegados. En la mayoría de despliegues a gran escala, los costos acumulados de inferencia exceden los costos de entrenamiento únicos porque la inferencia se ejecuta continuamente mientras que el entrenamiento es periódico. La latencia (tiempo al primer token, tiempo de generación total) y el rendimiento (tokens por segundo por acelerador) son las métricas de rendimiento primarias. Estas presiones han impulsado inversión en hardware optimizado para inferencia—incluyendo LPU de Groq, procesadores de escala de oblea de Cerebras, y GPUs NVIDIA H200 y Blackwell—así como técnicas algorítmicas como decodificación especulativa, que usa un modelo de borrador más pequeño para proponer tokens candidatos validados en paralelo por el modelo principal.
A partir de 2026, el servicio de inferencia es una disciplina madura con frameworks de código abierto dedicados incluyendo vLLM, TensorRT-LLM, y SGLang. Proveedores principales ofrecen APIs de inferencia con precios por millón de tokens. Inferencia en dispositivo—ejecutar modelos localmente en teléfonos inteligentes, portátiles, o hardware integrado sin conectividad a la nube—se ha vuelto práctica con modelos cuantizados de menos de 10B parámetros que caben dentro de la DRAM del consumidor, permitiendo aplicaciones que preservan la privacidad y tienen baja latencia.