Inferencia — Glosario de IA

Inferencia

Inferencia es el proceso de aplicar un modelo de aprendizaje automático entrenado a nuevos datos de entrada para producir predicciones o resultados. Es la operación en el momento de despliegue, distinta del entrenamiento, en la cual no se actualizan parámetros del modelo.

En aprendizaje automático, inferencia se refiere al cálculo de paso hacia adelante en el cual un modelo entrenado recibe una entrada y produce una salida—una etiqueta de clasificación, una secuencia de texto generada, un vector de incrustación, o cualquier otra salida de modelo. A diferencia del entrenamiento, la inferencia no modifica pesos del modelo; es una operación de solo lectura contra un conjunto fijo de parámetros. En sistemas de producción, la inferencia se ejecuta continuamente y a escala, sirviendo a usuarios finales o aplicaciones posteriores.

Inferencia para un modelo de lenguaje basado en transformer implica tokenizar el texto de entrada, buscar incrustaciones de tokens, calcular autoatención de múltiples cabezas a través de la ventana de contexto, pasar activaciones a través de capas feed-forward, y—para modelos generativos—muestrear iterativamente el siguiente token hasta que se cumple un criterio de parada (decodificación autorregresiva). Las optimizaciones clave incluyen cuantización (reducción de precisión de peso de float de 32 bits a enteros de 8 bits o 4 bits), reutilización de KV-cache (almacenar matrices de clave y valor previamente calculadas para evitar cálculo redundante a través de pasos de decodificación), y agrupamiento de solicitudes (agrupar solicitudes concurrentes para maximizar la utilización de GPU).

La economía de inferencia domina la estructura de costos de productos de IA desplegados. En la mayoría de despliegues a gran escala, los costos acumulados de inferencia exceden los costos de entrenamiento únicos porque la inferencia se ejecuta continuamente mientras que el entrenamiento es periódico. La latencia (tiempo al primer token, tiempo de generación total) y el rendimiento (tokens por segundo por acelerador) son las métricas de rendimiento primarias. Estas presiones han impulsado inversión en hardware optimizado para inferencia—incluyendo LPU de Groq, procesadores de escala de oblea de Cerebras, y GPUs NVIDIA H200 y Blackwell—así como técnicas algorítmicas como decodificación especulativa, que usa un modelo de borrador más pequeño para proponer tokens candidatos validados en paralelo por el modelo principal.

A partir de 2026, el servicio de inferencia es una disciplina madura con frameworks de código abierto dedicados incluyendo vLLM, TensorRT-LLM, y SGLang. Proveedores principales ofrecen APIs de inferencia con precios por millón de tokens. Inferencia en dispositivo—ejecutar modelos localmente en teléfonos inteligentes, portátiles, o hardware integrado sin conectividad a la nube—se ha vuelto práctica con modelos cuantizados de menos de 10B parámetros que caben dentro de la DRAM del consumidor, permitiendo aplicaciones que preservan la privacidad y tienen baja latencia.

Ejemplo

Cuando un usuario envía un prompt a una API de modelo de lenguaje alojada en la nube, la solicitud se enruta a un servidor GPU que ejecuta inferencia: el prompt tokenizado pasa a través de las capas transformer del modelo, y los tokens de salida se transmiten al cliente a medida que se generan.

Términos relacionados

Token Latencia Rendimiento Servicio de Modelos Cuantización

Últimas noticias sobre el tema

NVIDIA TensorRT convierte checkpoints FP8 en motores para inferencia rápida2026-06-30 Amazon SageMaker AI añade soporte para P-EAGLE para acelerar la inferencia de LLMs en paralelo2026-06-29 NVIDIA TensorRT ahora escala la inferencia de AI generativa en múltiples GPU2026-06-29 NVIDIA acelera la inferencia en Blackwell hasta 15 veces con DFlash Speculative Decoding2026-06-28 Robo de AI-inferencias: cómo los hackers se enriquecen en Vercel a través de proxies residenciales2026-05-31

← Glosario