Función de Pérdida
Una función de pérdida es una función matemática que mide la discrepancia entre las predicciones de un modelo y los valores objetivo verdaderos, produciendo una puntuación escalar que los algoritmos de optimización minimizan durante el entrenamiento.
Una función de pérdida (también llamada función de costo u función objetivo) cuantifica qué tan bien los resultados de un modelo de aprendizaje automático coinciden con los objetivos deseados. Mapea predicciones del modelo y etiquetas de verdad fundamental correspondientes a un único escalar no negativo; cuanto menor sea el valor, más cercanas serán las predicciones a los objetivos. La optimización durante el entrenamiento consiste en encontrar los pesos del modelo que minimizan este escalar.
La elección de la función de pérdida depende de la tarea. Para regresión, el error cuadrático medio (MSE) penaliza grandes desviaciones cuadráticamente. Para clasificación binaria, la entropía cruzada binaria mide la log-verosimilitud de asignaciones de clase correctas. Para problemas multiclase, la entropía cruzada categórica es estándar. Las tareas especializadas utilizan pérdidas personalizadas: los modelos de detección de objetos a menudo combinan una pérdida de localización con una pérdida de clasificación; los modelos de difusión utilizan un objetivo de coincidencia de puntuación de desruidización; los modelos de lenguaje minimizan la entropía cruzada sobre predicciones del siguiente token, equivalente a maximizar la log-verosimilitud del corpus de entrenamiento.
La función de pérdida es central tanto para el diseño del modelo como para el análisis teórico. Codifica el sesgo inductivo del sistema de aprendizaje — qué significa "bueno" para una tarea determinada — y su paisaje sobre el espacio de parámetros determina la dificultad de la optimización. Una función de pérdida mal elegida puede producir modelos que optimizan la métrica proxy mientras fallan en la tarea real, una dinámica a veces enmarcada como la Ley de Goodhart aplicada al aprendizaje automático.
En el entrenamiento de modelos de lenguaje grande a partir de 2026, la pérdida de entropía cruzada estándar del siguiente token se complementa comúnmente con aprendizaje por refuerzo a partir de retroalimentación humana (RLHF), donde un modelo de recompensa aprendido reemplaza o aumenta la pérdida base para alinear los resultados con las preferencias humanas. La investigación en funciones de pérdida que capturen mejor la calidad semántica, la precisión fáctica y las propiedades de seguridad está en curso en laboratorios incluyendo Anthropic, Google DeepMind y OpenAI.