¿Pueden realmente razonar las redes neuronales? Estudio de errores estructurales en la lógica de los LLMs
Un estudio sistemático de las capacidades cognitivas de los grandes modelos de lenguaje (LLMs) reveló su incapacidad para realizar una inferencia lógica…
Procesado por IA desde Jiqizhixin (机器之心); editado por Hamidun News
¿Saben realmente razonar las redes neuronales? Un estudio de los errores estructurales en la lógica de LLMs
Cuando GPT-4 resuelve un problema matemático o Claude analiza un documento legal complejo, el observador externo naturalmente se pregunta: ¿es este un verdadero pensamiento o una ilusión ingeniosa? Un nuevo estudio sistemático de las capacidades cognitivas de los grandes modelos de lenguaje proporciona una respuesta incómoda: muy probablemente la última. Los científicos han identificado lo que llaman "fallos estructurales"—lapsos predecibles y reproducibles en la lógica que exponen la diferencia fundamental entre simular razonamiento y razonar realmente.
En los últimos dos años, los modelos de lenguaje han logrado resultados impresionantes en benchmarks académicos, lo que ha generado un optimismo generalizado sobre sus capacidades intelectuales. Las empresas comenzaron a desplegar LLMs en medicina, derecho, análisis financiero—dominios donde el costo de un error se mide no solo en reputación sino en vidas humanas. Fue precisamente esta brecha entre las afirmaciones públicas sobre sistemas "inteligentes" y sus capacidades reales la que impulsó a los investigadores a llevar a cabo un estudio metódico y sistemático de cómo realmente los modelos manejan tareas que requieren inferencia lógica secuencial.
La esencia del descubrimiento es esta: los LLMs no construyen cadenas de razonamiento—buscan continuaciones de texto estadísticamente plausibles. Esta distinción puede parecer sutil, pero en la práctica es crítica. Cuando un modelo enfrenta una tarea similar a las presentes en sus datos de entrenamiento, produce una respuesta convincente. Pero si cambia las condiciones incluso ligeramente—reformula la pregunta, agrega un paso intermedio o requiere razonamiento en dirección inversa—el sistema comienza a fallar no aleatoriamente, sino sistemáticamente. Los investigadores llamaron a estos fallos "estructurales" porque surgen no de la falta de datos, sino de limitaciones arquitectónicas del propio enfoque.
Los experimentos con tareas de múltiples pasos son particularmente reveladores. Los modelos demuestran algo parecido a una "degradación de profundidad": cuanto más larga es la cadena de razonamiento requerida, mayor es la probabilidad de un error en algún eslabón intermedio. Además, el modelo raramente reconoce su propio fallo—continúa generando texto seguro y gramaticalmente impecable que parece una respuesta correcta pero contiene contradicciones lógicas. Justamente esta excesiva confianza hace que los errores estructurales sean especialmente peligrosos: el usuario no recibe ninguna señal de que algo salió mal.
El estudio también cuestiona la interpretación popular del éxito de los modelos en las pruebas. Las puntuaciones altas en benchmarks estándar pueden explicarse no por el desarrollo de capacidades lógicas, sino por una "calibración" cada vez más precisa a los patrones presentes en los conjuntos de prueba. En otras palabras, el modelo aprende a responder correctamente a un cierto tipo de pregunta sin adquirir comprensión transferible. Esta es la diferencia fundamental entre memorización y comprensión—y explica por qué los LLMs pueden simultáneamente resolver problemas de nivel de doctorado y tropezar con acertijos elementales formulados de manera no convencional.
Para la industria, estos hallazgos tienen consecuencias prácticas concretas. El despliegue de modelos de lenguaje en infraestructuras críticas—diagnóstico médico, análisis legal, gestión de riesgos—requiere replanteamiento. Las empresas que construyen productos asumiendo que los LLMs son capaces de inferencia lógica confiable están asumiendo riesgos que son difíciles de cuantificar por adelantado. Los investigadores no están pidiendo abandonar estas tecnologías, pero insisten en estándares de verificación más rigurosos: cada aplicación debe acompañarse de parámetros claros sobre dónde funciona el modelo de forma predecible y dónde no.
La pregunta fundamental que plantea este estudio va más allá de lo técnico: ¿qué estamos realmente creando? Si los modelos de lenguaje son sistemas altamente precisos para predecir el siguiente token, en lugar de sistemas de comprensión, entonces todo el relato sobre "inteligencia artificial" necesita reformulación. La simulación convincente del razonamiento puede ser una herramienta útil, pero no es lo mismo que razonar. Entender esta frontera no es pesimismo, sino una condición necesaria para construir algo verdaderamente confiable sobre la base de los LLMs.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.