Machine Learning Mastery→ original

Cómo funciona la selección de tokens en redes neuronales: logits, temperatura y top-p

La red neuronal elige la siguiente palabra a través de logits y softmax. La temperatura controla la aleatoriedad: baja genera respuestas precisas, alta…

Procesado por IA desde Machine Learning Mastery; editado por Hamidun News
Cómo funciona la selección de tokens en redes neuronales: logits, temperatura y top-p
Fuente: Machine Learning Mastery. Collage: Hamidun News.
◐ Escuchar artículo

Cuando un modelo de lenguaje genera texto, enfrenta una tarea fundamental: elegir la siguiente palabra de entre miles de candidatos. Esta selección no es aleatoria, sino controlada por mecanismos probabilísticos. Entender logits, temperatura y top-p es la clave para controlar el comportamiento de los LLM.

Qué son logits y softmax

La red neuronal calcula para cada token posible una puntuación numérica: el logit. Este es una señal sin procesar del último nivel de la red. La palabra "creatividad" podría obtener un logit de 5.2, mientras que "teléfono" podría obtener 2.1. La función softmax convierte estos números en probabilidades (de 0 a 1) que suman 1.

Imagina: el modelo procesa "aprendizaje automático es". Calcula logits para todas las palabras del vocabulario. Después de softmax, obtiene una distribución: "ciencia" = 35%, "arte" = 8%, "pingüino" = 0.001%. El modelo selecciona aleatoriamente de esta distribución: elige más frecuentemente variantes probables, raramente variantes improbables.

Temperatura: regulador de comportamiento

La temperatura es un multiplicador para logits antes de softmax. Las matemáticas son simples, pero el efecto es poderoso:

  • T < 1 (por ejemplo, 0.3) — coloca el modelo en el lado "congelado". La distribución se agudiza, las variantes poco probables reciben probabilidades insignificantes. El modelo elige casi de manera determinista, las respuestas son predecibles y precisas. Ideal para código, hechos, instrucciones.
  • T = 1 — comportamiento estándar, los logits se utilizan tal como están
  • T > 1 (por ejemplo, 1.5–2.0) — coloca el lado "ardiente". La distribución se vuelve más uniforme, las variantes poco probables tienen una oportunidad. El modelo elige más aleatoriamente. Ideal para escritura creativa, pero corre el riesgo de generar errores o alucinaciones. La temperatura alta hace que el modelo sea aventurero, la baja lo hace conservador.

Top-P: muestreo inteligente

Top-p (nucleus sampling) resuelve un problema: ¿cómo evitar que el modelo genere tonterías totales pero dejarle libertad creativa? El algoritmo ordena los tokens por probabilidad y toma tantos tokens principales hasta que su probabilidad acumulada alcance p (generalmente 0.9).

Ejemplo: si top-p = 0.9 y la distribución es:

  • "ciencia" = 40%
  • "camino" = 30%
  • "conocimiento" = 15%
  • "libertad" = 10%
  • "pingüino" = 5%

El modelo tomará los primeros cuatro variantes (40+30+15+10=95%) y descartará el "pingüino".

Top-p es dinámico: en un contexto puede seleccionar 5 variantes, en otro puede seleccionar 200.

Qué significa esto

Estos tres parámetros no son magia, sino herramientas de control. El desarrollador elige la temperatura y top-p dependiendo de la tarea: la generación de código requiere baja temperatura (la confiabilidad es más importante que la creatividad), mientras que escribir una historia requiere temperatura alta (variedad). Entender estos mecanismos convierte el trabajo con LLM de una caja negra en una tarea de ingeniería.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…