Google propone pensar con más profundidad, no durante más tiempo — y reduce a la mitad los costos de inferencia
Un estudio conjunto de Google y la Universidad de Virginia pone en duda el principal dogma de los últimos años: cuanto más larga sea la cadena de…
Procesado por IA desde MarkTechPost; editado por Hamidun News
Durante los últimos años, la industria de los grandes modelos de lenguaje ha vivido por una regla no dicha: si quieres una respuesta más precisa de un modelo sobre una pregunta compleja, hazlo pensar más tiempo. La técnica Chain-of-Thought, donde un modelo construye una cadena de razonamiento paso a paso antes de la respuesta final, se convirtió en el estándar de oro. Los desarrolladores alargaban estas cadenas, expandían ventanas de contexto, gastaban más recursos computacionales en cada solicitud. Pero una nueva investigación realizada conjuntamente por la Universidad de Virginia y Google argumenta: hemos estado confundiendo verbosidad con inteligencia todo este tiempo.
La idea subyacente en el trabajo es engañosamente simple. Los investigadores se preguntaron: ¿realmente cada token adicional en una cadena de razonamiento acerca el modelo a la respuesta correcta? ¿O una parte significativa de estos tokens es ruido informativo, repetición y marcado del terreno? Para responder esta pregunta, el equipo introdujo una nueva métrica — Deep-Thinking Ratio, o coeficiente de pensamiento profundo. En lugar de medir la longitud del razonamiento en tokens, esta métrica evalúa qué fracción del razonamiento realmente contiene pasos lógicos productivos — aquellos que conducen a resolver el problema en lugar de simplemente llenar espacio.
Los resultados fueron contundentes. El análisis mostró que en cadenas de razonamiento largas típicas de LLMs modernos, una enorme porción de pasos intermedios no lleva carga semántica real. Un modelo puede reformular el mismo pensamiento docenas de veces, volver a etapas ya cubiertas, generar explicaciones redundantes — y todo esto cuesta dinero real. Cada token extra en la etapa de inferencia — esto es tiempo de GPU, electricidad y latencia para el usuario final. A la escala de grandes servicios que procesan miles de millones de solicitudes, estamos hablando de sumas colosales.
El logro clave de la investigación es que, al optimizar el proceso de razonamiento considerando la Deep-Thinking Ratio, lograron conseguir dos cosas simultáneamente que generalmente se consideran mutuamente excluyentes. La precisión de las respuestas del modelo mejoró — porque eliminar pasos improductivos reduce la probabilidad de que el modelo se "pierda" en su propio razonamiento y llegue a una conclusión errónea. Y los costos generales de inferencia se redujeron aproximadamente a la mitad — porque el modelo genera significativamente menos tokens por solicitud. Esto no es un compromiso entre calidad y costo, sino un caso raro donde optimizar un parámetro mejora ambos.
Para entender la escala de este descubrimiento, vale la pena recordar el contexto. El costo de inferencia es uno de los principales dolores de cabeza de la industria. OpenAI, Google, Anthropic y otras empresas gastan miles de millones de dólares en infraestructura computacional, y una parte significativa de estos gastos recae en generar respuestas para usuarios. Modelos como o1 y o3 de OpenAI, así como Gemini con pensamiento extendido de Google, fueron específicamente diseñados para cadenas largas de razonamiento. Si resulta que la mitad de estos razonamientos se puede eliminar sin problemas — o más precisamente, enseñar al modelo a no generarlos en primer lugar — el efecto económico se medirá en cientos de millones de dólares anuales.
También hay un aspecto teórico más profundo. La investigación efectivamente cuestiona el paradigma mismo de escalamiento de inferencia que dominó en 2024-2025. Si "pensar más tiempo" no equivale a "pensar mejor," entonces la carrera por expandir ventanas de contexto e incrementar presupuestos computacionales para razonamiento es un camino sin salida. En su lugar, la industria quizás debería concentrarse en la calidad de cada paso de razonamiento en lugar de su cantidad. Esto se hace eco de cómo funciona el pensamiento humano: un experto resuelve un problema no porque piensa más tiempo que un principiante, sino porque cada paso de su pensamiento es más deliberado.
Las consecuencias prácticas para desarrolladores y usuarios pueden manifestarse bastante rápidamente. Deep-Thinking Ratio es una métrica relativamente sencilla de integrar en los pipelines existentes de entrenamiento y evaluación de modelos. Se puede esperar que laboratorios principales comiencen a usar enfoques similares durante el fine-tuning, y los proveedores de nube los usen para optimizar los costos de las llamadas API. Para usuarios finales, esto significa respuestas más rápidas y precisas al mismo precio o menor.
La investigación de Google y la Universidad de Virginia recuerda a la industria una verdad importante que es fácil olvidar en la carrera por la escala: la eficiencia no es sobre "más," sino sobre "más preciso." Los modelos del futuro probablemente no serán aquellos que piensan más tiempo, sino aquellos que saben pensar sustancialmente.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.