Wildberries & Russ a décrit quel niveau de maturité des données est nécessaire pour des agents IA précis
Wildberries & Russ a proposé un modèle de maturité de description de données allant de Rare à Well-Done et a montré pourquoi les agents IA commencent à…
Traité par IA depuis Habr AI ; édité par Hamidun News
Wildberries & Russ propose de considérer la qualité de la description des données aussi pragmatiquement que le degré de cuisson d'un steak : de Rare à Well-Done. La logique est simple : plus une entreprise décrit bien ses tables, ses champs, ses termes commerciaux et ses métriques, moins les agents IA hallucinent et plus ils se rapprochent des véritables insights commerciaux plutôt que des réponses plausibles mais inutiles. L'entreprise croit que le principal problème avec le big data aujourd'hui n'est pas le manque de modèles, mais une gouvernance faible des données.
Dans les grandes organisations, de nouvelles tables apparaissent plus rapidement que les équipes ne peuvent les décrire manuellement. En conséquence, les analystes passent du temps à chercher les sources nécessaires, les métriques commencent à diverger entre les rapports, et l'accès à des ensembles de données non étiquetés devient un risque de sécurité. C'est particulièrement aigu là où les données personnelles sont impliquées et où il existe des exigences strictes de contrôle d'accès.
L'approche manuelle cesse simplement de s'adapter dans un tel environnement. Le premier niveau de maturité, Rare, est considéré comme minimalement suffisant pour des opérations de données sûres dans ce modèle. À ce niveau, chaque ensemble de données doit avoir un propriétaire, un modèle physique et un marquage de confidentialité.
Le modèle physique peut être automatiquement extrait des tables système et des catalogues de données, et si les descriptions de champs sont vides, l'IA peut tenter de les récupérer en utilisant les conventions de nommage et les bases de connaissances d'entreprise. L'automatisation fonctionne moins bien avec les propriétaires : le modèle peut suggérer un candidat, mais la responsabilité est toujours assignée manuellement. Cependant, marquer les données sensibles ressemble à l'une des premières tâches pratiques pour un LLM : le modèle peut analyser les noms de tables, les colonnes et les termes commerciaux et attribuer des étiquettes de sécurité même avant l'analyse approfondie du contenu.
Au niveau Medium, l'accent se déplace de la structure technique au sens commercial. Un glossaire et une couche logique apparaissent ici, qui traduisent le langage des tables et des colonnes en entités et attributs commerciaux qui ont un sens pour l'entreprise. Cette couche masque les préfixes de service, les jointures complexes et les détails de stockage, et les responsables de données peuvent utiliser l'IA comme copilote pour lier les champs aux termes existants et trouver les lacunes dans les descriptions.
Si un agent est connecté à un catalogue de métadonnées via MCP, il peut fournir les schémas nécessaires sur demande, les faire correspondre au glossaire et accélérer le travail qui prenait auparavant des heures. De plus, Wildberries & Russ propose d'extraire les relations non seulement de la structure du stockage, mais aussi des journaux de requêtes SQL : ils révèlent quelles tables les analystes joignent le plus souvent, quels filtres ils utilisent et comment les données sont réellement consommées. Le niveau le plus élevé, Well-Done, est nécessaire non seulement pour naviguer dans les données, mais pour des systèmes complets de text-to-SQL et d'agents.
Ici, au-dessus des descriptions physiques et logiques, une couche sémantique est construite : des faits, des métriques, des dimensions, des relations, des filtres et des requêtes en langage naturel vérifiées avec des réponses SQL prêtes à l'emploi. C'est la couche qui explique au modèle ce que l'entreprise entend par « client actif », « chiffre d'affaires brut » ou d'autres métriques, plutôt que de le forcer à deviner le sens à partir des noms de champs. L'article fournit un exemple illustratif : si vous demandez à une IA combien de clients actifs il y avait en mars, un modèle sans sémantique pourrait simplement compter les lignes avec le statut actif, bien que selon les règles de l'entreprise, un client actif soit celui qui a effectué au moins une commande au-dessus d'un seuil spécifié.
Selon l'auteur, c'est là que les normes ouvertes comme OSI deviennent critiquement importantes, car elles permettent de décrire le sens des données dans un format portable compatible avec les outils modernes de couche sémantique. L'effet pratique est également noté : dans les documents Snowflake pour Cortex Analyst, il y a une mention d'environ 20 pour cent d'amélioration de la précision lors du travail via une sémantique correctement décrite, et l'objectif cible pour les scénarios réels est une précision SQL supérieure à 90 pour cent. Qu'est-ce que cela signifie en pratique : le marché s'éloigne progressivement de l'idée qu'il suffit de simplement connecter un LLM à une base de données et d'attendre la magie.
L'approche de Wildberries & Russ montre une trajectoire plus sobre : d'abord mettre de l'ordre dans les propriétaires de données, la structure et la classification, puis assembler un dictionnaire logique, et seulement après cela construire une couche sémantique pour les agents. Pour les entreprises qui souhaitent implémenter des assistants IA en analyse, cela semble être une vérité désagréable mais utile : la qualité de la réponse d'un modèle dépend maintenant directement non seulement du modèle lui-même, mais de la maturité de la description des données au sein de l'entreprise.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.