AWS Machine Learning Blog→ original

AWS y Artificial Genius demostraron forma de reducir alucinaciones de LLM en finanzas y medicina

AWS y Artificial Genius propusieron un esquema para bancos, medicina y otras industrias reguladas donde LLM no genera una respuesta sino que la extrae o…

Procesado por IA desde AWS Machine Learning Blog; editado por Hamidun News
AWS y Artificial Genius demostraron forma de reducir alucinaciones de LLM en finanzas y medicina
Fuente: AWS Machine Learning Blog. Collage: Hamidun News.
◐ Escuchar artículo

AWS, junto con su socio Artificial Genius, ha demostrado cómo adaptar grandes modelos de lenguaje para tareas donde el error es inaceptable. El enfoque se construye sobre Amazon Nova y SageMaker, pero la idea clave no está en un nuevo tamaño de modelo, sino en usar su comprensión del lenguaje sin generación libre de respuestas.

Por Qué Esto Es un Problema

Para servicios financieros, medicina, seguros y procesos legales, los LLMs ordinarios siguen pareciendo arriesgados. Escriben, resumen y explican bien, pero por naturaleza siguen siendo sistemas probabilísticos: el modelo predice el siguiente token en lugar de extraer un hecho garantizado correcto. Esto lleva a alucinaciones—respuestas que suenan convincentes pero no están respaldadas por los datos originales. En un entorno donde importan la auditoría, la reproducibilidad y la responsabilidad, este modo de operación es incompatible con la producción.

Los autores del artículo sugieren ver la evolución de la IA en tres pasos. La primera ola se construyó sobre lógica simbólica y reglas rígidas: tales sistemas eran deterministas pero demasiado inflexibles. La segunda ola, que incluye transformadores modernos, proporcionó un gran salto en fluidez y comprensión del lenguaje, pero trajo consigo impredictibilidad. Artificial Genius llama a su enfoque la tercera generación: el modelo sigue comprendiendo el lenguaje natural como un LLM moderno, pero la respuesta final pasa por lógica determinista y no debe exceder lo que realmente existe en el contexto de entrada.

Cómo Funciona el Esquema

La tesis principal de AWS y Artificial Genius es así: un modelo generativo puede usarse de manera estrictamente no-generativa. Es decir, no "adivina" la respuesta basándose en la probabilidad del siguiente token, sino que verifica si puede extraerse del documento, y si no—se niega a responder. Tal modo es especialmente útil para preguntas como fechas, montos, nombres, extractos de informes o confirmación de un hecho específico.

En el artículo, esto se formula muy directamente:

"Si la pregunta no puede responderse a partir del documento, el modelo

debe responder: 'Unknown'."

  • como modelo base, eligieron Amazon Nova Lite, porque es más adecuado para respuestas cortas y claras sin verbosidad innecesaria;
  • el fine-tuning se realiza en SageMaker mediante supervised fine-tuning, para que el modelo siga una regla del sistema—no inventar cosas;
  • para el entrenamiento, utilizan un conjunto sintético de preguntas y respuestas, con consultas respondibles e intencionalmente no-respondibles;
  • en lugar del RAG clásico, que sigue siendo generativo de todas formas, el énfasis está en una conexión más estrecha entre el texto del documento y una pregunta específica;
  • encima de esto, se empaqueta en una plataforma de agentes, donde una consulta libre puede traducirse en una especificación más estricta, y la única verificación manual permanece en la etapa de esa traducción.

Un detalle importante: los autores contrastan por separado su método con el consejo familiar "establezca la temperatura en cero." Según ellos, esto no resuelve el problema raíz porque el modelo continúa generando de todas formas. En su versión, no es solo el grado de aleatoriedad lo que cambia, sino la lógica misma de usar el modelo: la comprensión probabilística se preserva en la entrada, mientras que en la salida el sistema aspira a un modo binario—responder solo con lo que está confirmado por el texto, u honestamente decir que no hay respuesta.

Lo Que Mostraron las Pruebas

Técnicamente, el esquema se ve bastante directo y por lo tanto interesante. Los datos de entrenamiento se almacenan en Amazon S3, el fine-tuning del modelo Nova base se realiza en SageMaker Training Jobs, y luego la versión personalizada se importa a Amazon Bedrock y se entrega a la aplicación a través de un pipeline de inferencia estándar. Para equipos corporativos, esto importa no solo por comodidad sino también por transparencia de linaje de datos: es más fácil entender en qué datos se entrenó el modelo, dónde fue modificado y cómo se implementó en producción.

El equipo también reveló varios conocimientos de ingeniería. Para fine-tuning, utilizaron LoRA para evitar romper la comprensión del lenguaje base del modelo. En experimentos anteriores con otro modelo, tuvieron que suprimir incluso forzadamente chain-of-thought mediante un token de servicio `</think>`, porque el razonamiento detallado interfería con respuestas deterministas concisas. Para la versión Nova Lite, los autores combinaron LoRA dropout en nivel del 50%, early stopping manual y expansión del conjunto de datos sintético a 30 mil ejemplos. Según sus datos, esto redujo la frecuencia de alucinación de fracciones de porcentaje en configuraciones iniciales a 0,03% en la mejor variante.

Lo Que Esto Significa

La historia importa no solo para los usuarios de AWS. Muestra un cambio más amplio: el mercado está comenzando a buscar no solo los LLMs "más inteligentes", sino modelos con límites de comportamiento diseñados por ingeniería. Para bancos, aseguradoras, clínicas y legal-tech, esta es una señal de que la implementación de IA se construirá cada vez más alrededor de verificabilidad, rechazo de respuestas y flujos de trabajo controlados, en lugar de alrededor de la generación hermosa a cualquier costo.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…