Habr AI→ original

Por qué ChatGPT y otros LLMs se volvieron mucho más poderosos que la simple "predicción de palabras"

Los LLMs siguen prediciendo el siguiente token, pero los avances clave de los últimos años se construyeron sobre ese mecanismo. Los modelos aprendieron a…

Procesado por IA desde Habr AI; editado por Hamidun News
Por qué ChatGPT y otros LLMs se volvieron mucho más poderosos que la simple "predicción de palabras"
Fuente: Habr AI. Collage: Hamidun News.
◐ Escuchar artículo

Los grandes modelos de lenguaje siguen construyendo su respuesta como predicción del siguiente token, pero este mecanismo aparentemente simple resultó ser mucho más productivo de lo que esperaban incluso muchos investigadores. El fuerte crecimiento en la calidad de los LLM se explica no solo por la escala, sino por cómo se añadieron autocrítica, herramientas y razonamiento de múltiples pasos sobre el modelo base.

De Dónde Vino el Escepticismo

Incluso en 2024, una explicación popular sonaba así: los LLM son autocompletadores de texto gigantes que no entienden el significado, sino que simplemente continúan secuencias de tokens. De esto se derivaba una conclusión directa: si la base es tan primitiva, entonces el techo de calidad para tales sistemas debería ser bajo. Las alucinaciones, respuestas genéricas y mal desempeño en tareas que requieren datos frescos solo reforzaban esta visión.

Un ejemplo típico—una pregunta con detalles específicos del mundo real, como si es más barato volar de Londres a Barcelona o tomar un tren el próximo viernes. Los modelos iniciales respondían con generalidades: los aviones son generalmente más rápidos y baratos, los trenes son más cómodos y ecológicos. Tal respuesta podría soar plausible, pero no ayudaba a tomar una decisión.

Es por eso que muchos pensaban que solo la escala no era suficiente: lo que se necesitaba no era un autocompletador más grande, sino un nivel diferente de comportamiento.

Qué Se Añadió Encima

La primera capa importante sobre el modelo base fue la capacidad de reconocer su propia incertidumbre. En lugar de afirmaciones seguras, los LLM modernos cada vez más pueden decir que no tienen acceso a datos en tiempo real, carecen de contexto o es mejor consultar una fuente externa. Esto parece una mejora cosmética, pero en realidad aumenta drásticamente la utilidad: el modelo deja de enmascarar lagunas de conocimiento y comienza a marcar correctamente los límites de su competencia.

La segunda capa es la invocación de herramientas. Desde el punto de vista arquitectónico, el modelo sigue generando tokens, pero ahora el entorno interpreta ciertos tokens como comandos: hacer una búsqueda en la web, llamar a una API, acceder a una base de datos o ejecutar un pequeño script. Como resultado, el LLM ya no tiene que recordarlo todo dentro de sus pesos: puede obtener hechos faltantes directamente durante la generación de respuesta y continuar el razonamiento basándose en ellos.

  • Verificar precios actuales, clima u horarios mediante búsqueda en la web
  • Acceder a bases de conocimiento corporativas o APIs externas
  • Ejecutar scripts de Python para cálculos y comparaciones
  • Reintentar consultas si los resultados iniciales parecen desactualizados o contradictorios

Por Qué Funcionó

Pero el salto más inesperado en calidad no vino solo de las herramientas, sino del entrenamiento en razonamiento. Al principio parecía como un tipo de indicación de "piensa paso a paso", que ayudaba al modelo a analizar tareas más cuidadosamente. Luego entró en juego el aprendizaje por refuerzo, y después—enfoques con recompensa verificable, donde la corrección de una respuesta de matemáticas o código se puede verificar automáticamente. El modelo comenzó no solo a dar respuestas, sino cada vez más a elegir trayectorias que realmente conducen a soluciones correctas.

"El aprendizaje por refuerzo siempre está orientado a un resultado.

En este caso, ese resultado se convirtió en razonamiento."

De aquí surgió otra idea: si el modelo ya sabe cómo pensar paso a paso, puede tener más tiempo para razonar. Los tokens adicionales durante la generación de respuesta se convierten no en charla vacía, sino en exploración de alternativas, autoverificación y retroceso de hipótesis fallidas. Esencialmente, parte de la inteligencia ahora se determina no solo por lo que se memorizó durante el entrenamiento, sino por cuánta computación gasta el sistema en el momento de la consulta.

Es precisamente la combinación de razonamiento y herramientas lo que hace que los LLM modernos sean mucho más fuertes que las versiones anteriores. En la tarea del tren y el avión, un buen modelo primero entiende qué datos le faltan, luego busca precios, compara conexiones y duración de la ruta, calcula resultados a través de código si es necesario, y luego verifica que los resultados no se hayan quedado obsoletos. Esto ya no es solo una hermosa respuesta de texto, sino un ciclo de toma de decisiones funcional construido sobre el mismo mecanismo de predicción del siguiente token.

Qué Significa Esto

El éxito de los LLM ahora se explica no por magia y no solo por escala, sino por ingeniería sobrepuesta a un principio básico. Los modelos aún pueden cometer errores, quedar atrapados en bucles y alucinar, pero la combinación de autocrítica, herramientas y razonamiento con RL transformó "autocompletado de texto" en un sistema que genuinamente ayuda a resolver problemas prácticos.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…