Habr AI→ original

Por qué los modelos de OpenAI, Google y Anthropic se vuelven más convincentes pero cometen más errores

Los modelos de razonamiento de grandes laboratorios suenan más inteligentes, pero eso no los hace más precisos. OpenAI, Google y Anthropic aumentan la…

Procesado por IA desde Habr AI; editado por Hamidun News
Por qué los modelos de OpenAI, Google y Anthropic se vuelven más convincentes pero cometen más errores
Fuente: Habr AI. Collage: Hamidun News.
◐ Escuchar artículo

El principal problema para los mayores laboratorios de IA ahora no es que sus modelos no suenen lo suficientemente convincentes, sino que la entrega confiada cada vez más oculta errores de nivel superior. OpenAI, Google y Anthropic han pasado los últimos dos años intentando resolver esto aumentando el procesamiento durante la inferencia: añadiendo cadenas de razonamiento, búsqueda en múltiples caminos, auto-verificación y más tokens por solicitud. Desde el exterior, esto parece progreso.

Pero si el modelo base no se ha vuelto más preciso, el "pensamiento" adicional solo hace que sus concepciones erróneas sean más coherentes y plausibles. La idea de escalar la inferencia parece lógica. Si se da más tiempo y más pasos a los modelos para resolver una tarea, deberían cometer menos errores.

En la práctica, este enfoque realmente ha eliminado algunas fallas superficiales: menos errores fácticos absurdos, menos respuestas que se derrumban en la primera revisión, menos fracasos demostrables obvios. Por eso los modelos de razonamiento causan una impresión tan fuerte: hablan de forma más consistente, estructuran mejor las respuestas e imitan un proceso de análisis cuidadoso. El problema es que la coherencia textual y la precisión del resultado no son lo mismo.

La diferencia es especialmente marcada entre alucinaciones simples y profundas. Una alucinación simple es una fecha fabricada, un nombre confundido o una referencia inexistente. Aún se puede notar rápidamente.

Un error estructural profundo es más peligroso: el modelo toma una premisa falsa, construye una larga cadena lógica sobre ella, añade un tono confiado y entrega una respuesta completa y convincente. El usuario no ve caos, sino mentira cuidadosamente empaquetada. Para tareas como análisis, preparación de documentos, programación, medicina o consultoría legal, este tipo de error es mucho más arriesgado que una falla aleatoria típica.

En este contexto, los números parecen alarmantes. En una comparación reciente de grandes modelos OpenAI en el benchmark SimpleQA, se citaron tasas de alucinación alrededor del 50%. Si cada segunda respuesta a preguntas factuales simples resulta falsa o fabricada, ya no es un defecto cosmético sino una vulnerabilidad sistémica.

Sí, todo benchmark tiene limitaciones: mucho depende de la formulación, la metodología de evaluación y la versión específica del modelo. Pero la tendencia en sí es reveladora. Los lanzamientos se vuelven más elocuentes y computacionalmente costosos, mientras que la confiabilidad fundamental no crece al mismo ritmo—y a veces parece estar empeorando.

Para escenarios corporativos, esto es suficiente para que los errores se cuelen en presentaciones, informes o bases de código sin ser detectados. La razón puede estar en el enfoque mismo. Procesamiento adicional en la fase de inferencia no crea nuevo conocimiento ni corrige debilidades en los datos de entrenamiento.

Solo hace que el modelo busque más tiempo respuestas dentro del espacio de representación ya existente. Si la visión subyacente del mundo del modelo está distorsionada, una larga cadena de razonamiento no necesariamente la llevará a la verdad. Al contrario, puede amplificar el efecto de auto-confirmación: el modelo puede verificar la misma hipótesis incorrecta varias veces en diferentes palabras, haciendo el error aún más convincente.

Surge una paradoja: más procesamiento reduce la probabilidad de un error estúpido pero aumenta el riesgo de un error hermoso. Cuanto más confiada suena la respuesta, menor es la probabilidad de que el usuario se detenga a tiempo y verifique la base del razonamiento. Esto apunta a una conclusión más amplia para el mercado.

La amenaza a los líderes de IA puede no venir solo de un nuevo "super modelo", sino de equipos que logren construir sistemas más confiables sobre los modelos: con recuperación de calidad, atribución de fuentes, calibración de confianza, verificación rigurosa de hechos y evaluación no solo de fluidez sino de veracidad. El ganador no será quien genera la respuesta más larga, sino quien su respuesta sea digna de confianza en el trabajo real. Si la industria sigue confundiendo persuasión con inteligencia, la ventana de oportunidades para nuevos jugadores realmente ya se ha abierto.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…