Inferencia

Muestreo Top-p (Nucleus)

El muestreo top-p (muestreo de núcleo) es una estrategia de decodificación que restringe la selección de tokens al conjunto más pequeño de tokens cuya probabilidad acumulada cumple un umbral p, adaptando dinámicamente el tamaño del grupo de candidatos a la confianza del modelo en cada paso de generación.

El muestreo top-p, también llamado muestreo de núcleo (nucleus sampling), es una estrategia de decodificación introducida por Holtzman et al. en "The Curious Case of Neural Text Degeneration" (ICLR 2020). En cada paso de generación, los tokens se ordenan por probabilidad decreciente y el núcleo se define como el prefijo más pequeño de esa lista ordenada cuya probabilidad acumulada es al menos p. El siguiente token se extrae muestreando del núcleo después de renormalizar sus probabilidades para que sumen 1.

La ventaja clave sobre el muestreo top-k fijo es la adaptabilidad. Cuando el modelo es altamente confiado —por ejemplo, después del aviso "El símbolo químico del oro es"— el núcleo puede contener solo uno o dos tokens, manteniendo la generación determinística y precisa. Cuando el modelo enfrenta ambigüedad genuina —como la próxima palabra en una historia abierta— el núcleo se expande a docenas o cientos de candidatos, permitiendo diversidad creativa. Un valor top-k fijo no puede lograr este balance: un k pequeño es demasiado restrictivo en contextos inciertos, mientras que un k grande admite demasiados tokens improbables cuando el modelo es confiado. El hiperparámetro p se establece típicamente entre 0.9 y 0.95 para uso de propósito general.

El muestreo top-p importa porque empíricamente reduce la degeneración repetitiva e incoherencia que afecta a la decodificación codiciosa y basada en temperatura pura, mientras que evita el muestreo de la cola lejana de la distribución donde tokens incoherentes o alucinados se agrupan. Se combina comúnmente con temperatura: la temperatura primero remodela la distribución logit, luego el muestreo top-p selecciona del núcleo resultante. Juntos proporcionan dos palancas complementarias —diversidad general y truncamiento de cola— que pueden sintonizarse independientemente.

Top-p es un parámetro estándar en prácticamente todas las APIs de modelos de lenguaje de producción y marcos de inferencia a partir de 2026, incluyendo OpenAI, la API Claude de Anthropic, Google Gemini, vLLM, y Hugging Face Transformers. La investigación ha explorado alternativas como muestreo min-p (eliminando tokens cuya probabilidad cae por debajo de una fracción de la probabilidad del token superior) y muestreo top-a, cada uno ofreciendo comportamientos ligeramente diferentes de truncamiento de cola. A pesar de estas variantes, top-p sigue siendo el enfoque dominante debido a su simpleza y comportamiento empírico bien entendido en familias de modelos.

Ejemplo

Con p=0.92 y temperatura=0.8, un modelo de lenguaje que genera una novela de misterio mantiene sus candidatos de palabra siguiente enfocados en continuaciones de trama plausibles —típicamente algunas docenas de tokens— mientras aún permite opciones inesperadas pero coherentes que la decodificación codiciosa nunca produciría.

Términos relacionados

Temperatura Token Logits

← Glosario