Habr AI→ original

Las redes neuronales siguen siendo débiles en la multiplicación: por qué la AI escribe código, pero se equivoca en aritmética

Los grandes modelos de lenguaje impresionan en código y texto, pero todavía se equivocan con frecuencia en la multiplicación. La razón es simple: un LLM…

Procesado por IA desde Habr AI; editado por Hamidun News
Las redes neuronales siguen siendo débiles en la multiplicación: por qué la AI escribe código, pero se equivoca en aritmética
Fuente: Habr AI. Collage: Hamidun News.
◐ Escuchar artículo

Los grandes modelos de lenguaje pueden escribir código, traducir textos y mantener conversaciones largas, pero aún tienen una debilidad sistémica con la multiplicación. El problema es que la mayoría de las redes neuronales no "calculan" números paso a paso, sino que predicen la secuencia más probable de símbolos — y esto rápidamente se hace evidente en la aritmética.

Por Qué Sucede Esto

Para los humanos, la multiplicación es un algoritmo: dividir números en dígitos, multiplicar las partes, llevar las decenas y sumar los resultados intermedios. Para un modelo de lenguaje, una expresión como 37 × 48 es ante todo una plantilla de texto, similar a millones de otras secuencias que vio durante el entrenamiento. No ejecuta una "calculadora" incorporada por defecto, sino que intenta continuar la secuencia de una manera estadísticamente plausible. En ejemplos cortos y frecuentes, este enfoque a veces da la respuesta correcta, pero no es lo mismo que la computación confiable.

"No cuentan de la forma en que lo entendemos, sino que recuerdan y

aproximan respuestas."

Por esto, un modelo puede parecer muy inteligente en tareas donde se acepta alguna variación en la formulación, pero tropieza donde se necesita un resultado único y preciso. El texto, el código e incluso los resúmenes de artículos a menudo perdonan pequeñas desviaciones: el significado puede transmitirse de diferentes formas. En la aritmética, no hay tal lujo. Un error en un solo dígito convierte una respuesta correcta en incorrecta, y una explicación hermosa no ayuda. Esta es precisamente la razón por la que el contraste entre "escribe poesía" y "se confunde con la tabla de multiplicar" parece tan marcado.

Dónde los Modelos Fallan

Esto se ve mejor en tareas que requieren una adhesión estricta paso a paso, en lugar de reconocimiento de patrones. Si un ejemplo apareció muchas veces, el modelo puede reproducir la respuesta casi sin errores. Pero cuanto más largos sean los números y más llevadas haya entre dígitos, mayor será la probabilidad de que comience a improvisar. Agregue algo de texto extra al problema, un formato inusual o varias operaciones seguidas — y la probabilidad de fallo aumenta notablemente.

  • Multiplicación de números de varios dígitos con múltiples llevadas
  • Combinaciones raras que casi no estaban presentes en los datos de entrenamiento
  • Tareas donde los números se mezclan con texto, unidades de medida o condiciones
  • Cadenas de cálculos donde un error inicial rompe toda la respuesta posterior
  • Verificar su propio resultado sin una herramienta externa

La paradoja es que escribir código suele ser más fácil para el modelo que hacer aritmética. En programación, se basa en un vasto corpus de estructuras repetitivas: sintaxis, funciones típicas, bibliotecas conocidas, patrones de solución. Si se le pide no que calcule por sí solo, sino que escriba un programa corto para realizar el cálculo, el resultado es a menudo más confiable. En otras palabras, el modelo puede describir exitosamente un procedimiento o generar una herramienta que resuelva el problema, pero no siempre ejecuta ese procedimiento de manera confiable en su propia "mente."

Cómo Se Supera

Esta es precisamente la razón por la que los sistemas de IA prácticos se complementan cada vez más con herramientas externas. Si un producto necesita matemáticas precisas, el modelo no debe adivinar la respuesta de la memoria: es mejor dirigirlo a una calculadora, intérprete de Python, motor SQL o módulo de computación especializado. Este enfoque ya se ha convertido en estándar en sistemas de agentes y escenarios corporativos donde el costo del error es demasiado alto.

También hay intentos más profundos de resolver el problema a nivel de arquitectura. Los investigadores están experimentando con modelos que funcionan mejor con reglas simbólicas, mantienen estados intermedios o se entrenan con más precisión para ejecutar operaciones paso a paso. Las técnicas como chain-of-thought también ayudan, donde el modelo expone la solución paso a paso, pero esto no es magia: si el mecanismo subyacente aún se basa en la predicción de tokens, una larga cadena de razonamiento también puede llevar cuidadosamente al número incorrecto. La confiabilidad no viene de una explicación hermosa, sino de un bucle computacional verificable.

Qué Significa Esto

La conclusión principal es simple: el lenguaje impresionante no es igual al cálculo preciso. A medida que la IA transita cada vez más del papel de compañero conversacional al papel de herramienta de trabajo, es cada vez más importante separar las tareas de "generar una respuesta plausible" y las tareas de "obtener un resultado garantizado correcto" — y usar mecanismos separados de verificación y cálculo para la segunda clase.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…