Habr AI→ original

Wildberries & Russ describió qué nivel de madurez de datos se necesita para agentes de IA precisos

Wildberries & Russ propuso un modelo de madurez de descripción de datos que va desde Rare hasta Well-Done y mostró por qué los agentes de IA comienzan a…

Procesado por IA desde Habr AI; editado por Hamidun News
Wildberries & Russ describió qué nivel de madurez de datos se necesita para agentes de IA precisos
Fuente: Habr AI. Collage: Hamidun News.
◐ Escuchar artículo

Wildberries & Russ propone ver la calidad de la descripción de datos de manera tan pragmática como el grado de cocción de un filete: de Rare hasta Well-Done. La lógica es simple: cuanto mejor describe una empresa sus tablas, campos, términos comerciales y métricas, menos alucinen los agentes de IA y más cerca estén de insights comerciales reales en lugar de respuestas plausibles pero inútiles. La empresa cree que el principal problema con big data actualmente no es la falta de modelos, sino la gobernanza débil de datos.

En grandes organizaciones, las nuevas tablas aparecen más rápidamente de lo que los equipos pueden describirlas manualmente. Como resultado, los analistas gastan tiempo buscando las fuentes necesarias, las métricas comienzan a divergir entre informes, y el acceso a conjuntos de datos sin marcar se convierte en un riesgo de seguridad. Esto es especialmente agudo donde están involucrados datos personales y existen requisitos rigurosos de control de acceso.

El enfoque manual simplemente deja de escalarse en tal entorno. El primer nivel de madurez, Rare, se considera mínimamente suficiente para operaciones seguras de datos en este modelo. En este nivel, cada conjunto de datos debe tener un propietario, un modelo físico y marcado de confidencialidad.

El modelo físico se puede extraer automáticamente de tablas del sistema y catálogos de datos, y si las descripciones de campos están vacías, la IA puede intentar recuperarlas usando convenciones de nomenclatura y bases de conocimiento corporativas. La automatización funciona peor con propietarios: el modelo puede sugerir un candidato, pero la responsabilidad aún se asigna manualmente. Sin embargo, marcar datos sensibles parece ser una de las primeras tareas prácticas para un LLM: el modelo puede analizar nombres de tablas, columnas y términos comerciales y asignar etiquetas de seguridad incluso antes del escaneo profundo de contenido.

En el nivel Medium, el enfoque se desplaza de la estructura técnica al significado comercial. Un glosario y una capa lógica aparecen aquí, que traducen el lenguaje de tablas y columnas en entidades comerciales y atributos que tienen sentido para el negocio. Esta capa oculta prefijos de servicio, joins complejos y detalles de almacenamiento, y los guardianes de datos pueden usar IA como copiloto para vincular campos a términos existentes y encontrar brechas en descripciones.

Si un agente está conectado a un catálogo de metadatos a través de MCP, puede entregar los esquemas necesarios bajo demanda, hacerlos coincidir con el glosario y acelerar el trabajo que anteriormente tomaba horas. Además, Wildberries & Russ propone extraer relaciones no solo de la estructura de almacenamiento, sino también de los registros de consultas SQL: revelan qué tablas los analistas unen con mayor frecuencia, qué filtros usan y cómo se consumen realmente los datos. El nivel más alto, Well-Done, se necesita no solo para navegar datos, sino para sistemas completos de text-to-SQL y agentes.

Aquí, además de las descripciones físicas y lógicas, se construye una capa semántica: hechos, métricas, dimensiones, relaciones, filtros y consultas en lenguaje natural verificadas con respuestas SQL listas. Esta es la capa que explica al modelo lo que el negocio entiende por "cliente activo", "ingresos brutos" u otras métricas, en lugar de obligarlo a adivinar el significado de los nombres de campos. El artículo proporciona un ejemplo ilustrativo: si pregunta a una IA cuántos clientes activos había en marzo, un modelo sin semántica podría simplemente contar filas con estado activo, aunque según las reglas de la empresa, un cliente activo es uno que realizó al menos un pedido por encima de un umbral especificado.

Según el autor, aquí es donde estándares abiertos como OSI se vuelven críticamente importantes, porque permiten describir el significado de los datos en un formato portátil compatible con herramientas modernas de capa semántica. El efecto práctico también se observa: en los materiales de Snowflake para Cortex Analyst, se menciona aproximadamente un 20 por ciento de mejora en la precisión al trabajar a través de semántica correctamente descrita, y el objetivo para escenarios reales es más del 90 por ciento de precisión SQL. ¿Qué significa esto en la práctica?

: el mercado se está alejando gradualmente de la idea de que es suficiente simplemente conectar un LLM a una base de datos y esperar magia. El enfoque de Wildberries & Russ muestra una trayectoria más sobria: primero poner orden en los propietarios de datos, estructura y clasificación, luego armar un diccionario lógico, y solo después construir una capa semántica para agentes. Para empresas que desean implementar asistentes de IA en análisis, esto suena como una verdad desagradable pero útil: la calidad de la respuesta de un modelo ahora depende directamente no solo del modelo en sí, sino de la madurez de la descripción de datos dentro del negocio.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…