Inferencia

Perplexity

Perplexity es una métrica de evaluación de modelos de lenguaje definida como la exponencial del promedio negativo de log-likelihood por token en un corpus de texto; menor perplexity significa que el modelo asigna mayor probabilidad a la secuencia de tokens observada y se considera un mejor ajuste.

Perplexity (PP) es la métrica intrínseca estándar para evaluar qué tan bien un modelo de lenguaje predice un corpus de texto retenido. Se define como PP = exp(−(1/N) × Σ log P(wᵢ | w₁, …, wᵢ₋₁)), donde N es el número de tokens en el conjunto de evaluación y P es la probabilidad que el modelo asigna a cada token dado su contexto izquierdo. Intuitivamente, perplexity representa el factor de ramificación promedio del modelo en cada paso: una perplexity de 20 significa que el modelo es, en promedio, tan incierto como si tuviera que elegir uniformemente entre 20 opciones igualmente probables.

Menor perplexity indica un mejor ajuste del modelo: el modelo asigna consistentemente alta probabilidad a los tokens que realmente aparecen en el corpus. Dado que perplexity es la exponencial de la pérdida de entropía cruzada promedio—el objetivo de entrenamiento estándar—sirve como un complemento de evaluación natural a la señal de entrenamiento. Típicamente se calcula en benchmarks estandarizados retenidos como Penn Treebank, WikiText-103, o subconjuntos de The Pile. Una advertencia importante es la sensibilidad de tokenización: los valores de perplexity solo son directamente comparables entre modelos que utilizan el mismo tokenizador; se utilizan métricas de bits-por-carácter o bits-por-byte al comparar entre esquemas de tokenización.

Perplexity importa porque proporciona una medida rápida, reproducible y teóricamente fundamentada de la calidad del modelo sin requerir evaluación humana costosa. Correlaciona razonablemente bien con el desempeño de tareas posteriores en muchos benchmarks de comprensión del lenguaje, lo que la hace útil para estudios de ablación, comparaciones de arquitectura y selección de puntos de control de entrenamiento. Sin embargo, perplexity tiene limitaciones conocidas: no captura precisión factual, capacidad de razonamiento o coherencia semántica. Un modelo puede lograr baja perplexity mientras sigue alucinando hechos o produciendo texto gramaticalmente fluido pero lógicamente inválido. Por lo tanto, se usa junto con benchmarks específicos de tareas como MMLU y HumanEval, y evaluaciones de preferencia humana, en lugar de como un indicador de calidad única.

La trayectoria de las puntuaciones de perplexity en dos décadas de investigación es dramática. Los modelos de lenguaje N-gramas de la era anterior al aprendizaje profundo obtuvieron puntuaciones por encima de 100 en la perplexity a nivel de palabra de Penn Treebank; los modelos basados en LSTM redujeron esto a aproximadamente 60–80 a mediados de la década de 2010, con el AWD-LSTM alcanzando alrededor de 58 en 2017; los modelos basados en transformer y sus sucesores llevaron la métrica a las decenas en el mismo benchmark. Perplexity también cumple roles prácticos en tuberías de datos: filtrar corpus de entrenamiento por perplexity bajo un modelo de referencia elimina texto de baja calidad o fuera de distribución, y la investigación de marcas de agua basada en perplexity explota propiedades estadísticas de distribuciones de probabilidad de tokens para distinguir texto generado por IA del texto escrito por humanos.

Ejemplo

Un equipo de investigación entrena tres arquitecturas de transformer con datos idénticos y selecciona la que tiene la perplexity más baja en una división de validación retenida de WikiText-103 antes de comprometerse con una ejecución de entrenamiento a escala completa, ahorrando recursos computacionales significativos.

Términos relacionados

Últimas noticias sobre el tema

← Glosario