Inferencia

Decodificación Especulativa

La decodificación especulativa es una técnica de inferencia que utiliza un modelo borrador pequeño para proponer múltiples tokens en paralelo, luego los verifica con el modelo objetivo grande en un único pase hacia adelante, reduciendo la latencia en 2–4× sin cambiar la calidad de salida.

La decodificación especulativa es un método para acelerar la inferencia de modelos de lenguaje autorregresivos. En la generación estándar, un modelo grande produce un token a la vez a través de pases hacia adelante secuenciales, cada uno computacionalmente caro. La decodificación especulativa rompe este cuello de botella intercalando un modelo borrador rápido con el modelo objetivo para explotar el hecho de que la atención del transformer sobre una secuencia de longitud fija puede ser calculada en un único pase paralelo.

El mecanismo funciona en dos etapas. Un modelo borrador ligero —por ejemplo, un modelo de 7B de parámetros actuando como borrador para un objetivo de 70B— genera K tokens candidatos en K pases secuenciales económicos. El modelo objetivo grande luego evalúa todas las posiciones K+1 simultáneamente en un pase hacia adelante, verificando cada token propuesto contra su propia distribución. Los tokens aceptados se mantienen; en el primer token rechazado, el proceso retrocede y sustituye la corrección del modelo objetivo. Crucialmente, la distribución de tokens aceptados es matemáticamente idéntica a lo que el modelo grande hubiera generado por sí solo, por lo que la calidad de salida es matemáticamente sin cambios.

La técnica importa porque reduce la latencia de extremo a extremo en aproximadamente 2–4× en hardware típico sin ningún compromiso de precisión. Esto es especialmente valioso para aplicaciones interactivas donde la velocidad de transmisión y el tiempo hasta el primer token afectan directamente la experiencia del usuario. El aumento de velocidad depende de la tasa de aceptación de borradores: un borrador bien emparejado que está de acuerdo con el objetivo en la mayoría de tokens produce las ganancias más grandes, y el beneficio disminuye cuando los dos modelos divergen significativamente en estilo o dominio.

Para 2025–2026, la decodificación especulativa se implementa en producción por Google para inferencia de Gemini, Anthropic para Claude, y proveedores de inferencia principales incluyendo Together AI y Groq. Variantes como Medusa (múltiples cabezas de borrador paralelo adjuntas a un único modelo), EAGLE (una cabeza especulativa entrenada usando entradas de nivel de características del objetivo), y decodificación auto-especulativa (utilizando capas transformer anteriores como el borrador) han extendido la aplicabilidad de la técnica y reducido la necesidad de un modelo borrador entrenado por separado.

Ejemplo

Una API de producción que sirve a un modelo de 70B de parámetros coloca un modelo borrador de 7B en co-ubicación; con una tasa de aceptación de tokens del 75%, la latencia de transmisión cae de aproximadamente 120 ms a menos de 45 ms por token decodificado sin ningún cambio en las salidas del modelo.

Términos relacionados

Inferencia Latencia Small Language Model (SLM)Token

Últimas noticias sobre el tema

EAGLE 3.1: Cómo corregir la inestabilidad de la decodificación especulativa en LLM2026-05-29 AWS muestra cómo la decodificación especulativa en Trainium2 acelera la generación en vLLM2026-04-28

← Glosario