Inferencia

Test-Time Compute

Test-time compute (TTC) es el presupuesto computacional — ciclos de procesamiento, memoria y tiempo — que un modelo gasta durante la inferencia en lugar de durante el entrenamiento, permitiéndole dedicar más esfuerzo a problemas más difíciles sin ningún cambio a sus pesos.

Test-time compute (TTC) es la computación que una red neuronal usa en tiempo de inferencia, es decir, mientras genera salidas para una entrada dada, en distinción de la computación fija gastada durante el entrenamiento. A diferencia del costo de entrenamiento, que es un gasto único, TTC puede ser escalado dinámicamente por consulta: solicitudes fáciles reciben computación mínima, mientras que las difíciles reciben sustancialmente más, permitiendo asignación de recursos adaptativa sin reentrenamiento.

Los modelos aprovechan computación adicional en tiempo de prueba mediante varios mecanismos. El muestreo best-of-N genera múltiples respuestas candidatas y selecciona la de puntuación más alta usando un modelo de recompensa. Los bucles de auto-refinamiento iterativo permiten que un modelo critique y revise su propio borrador. Más prominentemente, el razonamiento de cadena de pensamiento extendida produce largas trazas de razonamiento interno — a veces miles de tokens — antes de emitir una respuesta final. Los modelos o1 de OpenAI (lanzados en septiembre de 2024) y o3 son los ejemplos más citados de arquitecturas explícitamente optimizadas para escalar TTC mediante razonamiento aprendido con refuerzo.

La idea central es que el rendimiento en tareas de razonamiento difícil — matemáticas de competencia, generación de código complejo, planificación multi-paso — escala predeciblemente con computación en tiempo de prueba, similar a cómo el rendimiento del entrenamiento escala con computación de entrenamiento. Esto desplaza una palanca de diseño clave de la fase de entrenamiento (cara, poco frecuente) a la fase de inferencia (bajo demanda, preciable por consulta), y permite a los proveedores ofrecer calidad escalonada a costo escalonado.

Para 2026, el escalado de TTC se ha convertido en un eje de diseño convencional entre los laboratorios fronterizos. Gemini 2.0 Flash Thinking de Google, DeepSeek-R1 y Claude 3.7 Sonnet de Anthropic con pensamiento extendido todos exponen presupuestos explícitos de tokens de razonamiento. La investigación se enfoca en estrategias de búsqueda eficientes — como Monte Carlo Tree Search aplicada a la generación de tokens y modelos de recompensa de proceso que puntúan pasos intermedios — para maximizar la calidad de salida por unidad de computación gastada.

Ejemplo

Cuando se le asigna probar una identidad de combinatoria no trivial, un modelo configurado con un presupuesto TTC alto genera más de 800 tokens de razonamiento intermedio — explorando múltiples estrategias de prueba y verificando contradicciones — antes de comprometerse con una respuesta final verificada, logrando precisión en puntos de referencia de nivel de competencia que una respuesta de pase único directo no puede igualar.

Términos relacionados

Reasoning Model Chain-of-Thought (CoT)Inferencia Leyes de Escalado

← Glosario