Inferencia

Temperatura

Temperatura es un hiperparámetro escalar que divide los logits de un modelo de lenguaje antes del paso softmax, controlando la aleatoriedad de salida: valores por debajo de 1.0 concentran la distribución hacia tokens de alta probabilidad; valores por encima de 1.0 la aplanan, aumentando la diversidad.

La temperatura es un parámetro de control utilizado durante el muestreo de tokens en modelos de lenguaje. Se aplica dividiendo todas las puntuaciones logit por el valor de temperatura T antes de que la función softmax las convierta en una distribución de probabilidad sobre el vocabulario. Cuando T = 1.0, el modelo muestrea de acuerdo con su distribución aprendida sin modificación. Cuando T < 1.0, la distribución se vuelve más acentuada, concentrando la masa de probabilidad en los tokens más probables. Cuando T > 1.0, la distribución se aplana, dando a los tokens de menor probabilidad una mayor oportunidad de ser seleccionados.

El efecto matemático es directo: dado un vector logit z, el softmax escalado por temperatura se calcula como softmax(z / T). Cuando T se aproxima a 0, la distribución se colapsa a un vector one-hot en el argmax —equivalente a decodificación codiciosa (greedy decoding), siempre seleccionando el único token más probable. Cuando T aumenta hacia infinito, la distribución converge a uniforme en todo el vocabulario. En la práctica, temperaturas entre 0.0 y 2.0 cubren casi todo comportamiento útil; valores por encima de 1.5 tienden a producir salida léxicamente incoherente para la mayoría de familias de modelos actuales.

La temperatura importa porque el mismo modelo subyacente puede servir casos de uso cualitativamente diferentes a través de este parámetro único. La generación de código y respuestas a preguntas factuales se benefician de temperaturas bajas (0.0–0.3) para maximizar precisión y reproducibilidad. La escritura creativa, lluvia de ideas y diálogo abierto se benefician de temperaturas más altas (0.7–1.2) para producir salidas variadas y sorprendentes. Establecer la temperatura demasiado alta introduce incoherencia; establecerla demasiado baja produce texto repetitivo, demasiado conservador que no refleja el rango completo de conocimiento del modelo.

Cada API de modelo de lenguaje principal —OpenAI, Anthropic, Google, Mistral, Meta— expone la temperatura como un parámetro de primera clase. La investigación publicada en 2024–2025 examinó la interacción entre temperatura y razonamiento chain-of-thought, encontrando que tareas lógicas de múltiples pasos se benefician de temperatura muy baja para mantener consistencia, mientras que métodos basados en conjunto como auto-consistencia deliberadamente muestrean múltiples finalizaciones de temperatura alta y las agregan. Algunos marcos de inferencia también implementan recocido de temperatura (temperature annealing) dentro de una única generación, reduciendo gradualmente la temperatura conforme la salida progresa hacia una conclusión.

Ejemplo

Un chatbot de servicio al cliente se implementa con temperatura=0.1 para producir respuestas precisas y predecibles a preguntas de política, mientras que el mismo modelo base que potencia una herramienta de escritura creativa funciona a temperatura=1.1 para generar continuaciones de historias variadas e inventivas.

Términos relacionados

Muestreo Top-p (Nucleus)Alucinación Token Logits

Últimas noticias sobre el tema

Cómo funciona la selección de tokens en redes neuronales: logits, temperatura y top-p2026-05-29 Google Home actualiza Gemini: la casa inteligente ahora entiende 'color océano' y temperaturas precisas2026-04-22

← Glosario