Wildberries & Russ descreveu qual nível de maturidade de dados é necessário para agentes de IA precisos
Wildberries & Russ propôs um modelo de maturidade de descrição de dados variando de Rare a Well-Done e mostrou por que agentes de IA começam a alucinar até…
Processado por IA de Habr AI; editado por Hamidun News
Wildberries & Russ propõe ver a qualidade da descrição de dados tão pragmaticamente quanto o grau de cozimento de um bife: de Rare até Well-Done. A lógica é simples: quanto melhor uma empresa descreve suas tabelas, campos, termos de negócio e métricas, menos os agentes de IA alucinam e mais perto chegam de insights reais de negócio, em vez de respostas plausíveis, mas inúteis. A empresa acredita que o principal problema com big data atualmente não é a falta de modelos, mas a governança fraca de dados.
Em grandes organizações, novas tabelas aparecem mais rapidamente do que as equipes conseguem descrevê-las manualmente. Como resultado, analistas gastam tempo procurando as fontes necessárias, métricas começam a divergir entre relatórios, e o acesso a conjuntos de dados não marcados se torna um risco de segurança. Isso é especialmente agudo onde dados pessoais estão envolvidos e existem requisitos rigorosos de controle de acesso.
A abordagem manual simplesmente deixa de escalar em tal ambiente. O primeiro nível de maturidade, Rare, é considerado minimamente suficiente para operações seguras de dados neste modelo. Neste nível, cada conjunto de dados deve ter um proprietário, um modelo físico e marcação de confidencialidade.
O modelo físico pode ser extraído automaticamente das tabelas do sistema e catálogos de dados, e se as descrições dos campos estiverem vazias, a IA pode tentar recuperá-las usando convenções de nomenclatura e bases de conhecimento corporativo. A automação funciona pior com proprietários: o modelo pode sugerir um candidato, mas a responsabilidade ainda é atribuída manualmente. No entanto, marcar dados sensíveis parece ser uma das primeiras tarefas práticas para um LLM: o modelo pode analisar nomes de tabelas, colunas e termos de negócio e atribuir etiquetas de segurança mesmo antes da varredura profunda de conteúdo.
No nível Medium, o foco muda da estrutura técnica para o significado de negócio. Um glossário e uma camada lógica aparecem aqui, que traduzem a linguagem de tabelas e colunas em entidades de negócio e atributos que fazem sentido para o negócio. Esta camada oculta prefixos de serviço, joins complexos e detalhes de armazenamento, e os guardiões de dados podem usar IA como copiloto para vincular campos a termos existentes e encontrar lacunas em descrições.
Se um agente estiver conectado a um catálogo de metadados por meio de MCP, ele pode entregar os esquemas necessários sob demanda, correspondê-los ao glossário e acelerar o trabalho que antes levava horas. Além disso, Wildberries & Russ propõe extrair relacionamentos não apenas da estrutura de armazenamento, mas também dos logs de consultas SQL: eles revelam quais tabelas os analistas unem com mais frequência, quais filtros usam e como os dados são realmente consumidos. O nível mais alto, Well-Done, é necessário não apenas para navegar dados, mas para sistemas de text-to-SQL e agentes totalmente funcionais.
Aqui, sobre as descrições físicas e lógicas, constrói-se uma camada semântica: fatos, métricas, dimensões, relacionamentos, filtros e consultas em linguagem natural verificadas com respostas SQL prontas. Esta é a camada que explica ao modelo o que o negócio entende por "cliente ativo", "receita bruta" ou outras métricas, em vez de forçá-lo a adivinhar o significado dos nomes dos campos. O artigo fornece um exemplo ilustrativo: se você perguntar a uma IA quantos clientes ativos havia em março, um modelo sem semântica poderia simplesmente contar linhas com status ativo, embora pelas regras da empresa, um cliente ativo seja aquele que fez pelo menos um pedido acima de um limite especificado.
De acordo com o autor, é aqui que padrões abertos como OSI se tornam criticamente importantes, pois permitem descrever o significado dos dados em um formato portátil compatível com ferramentas modernas de camada semântica. O efeito prático também é observado: nos materiais Snowflake para Cortex Analyst, há menção de aproximadamente 20 por cento de melhoria na precisão ao trabalhar por meio de semântica corretamente descrita, e o benchmark alvo para cenários reais é superior a 90 por cento de precisão SQL. O que isso significa na prática: o mercado está gradualmente se afastando da ideia de que é suficiente simplesmente conectar um LLM a um banco de dados e esperar por magia.
A abordagem Wildberries & Russ mostra uma trajetória mais sóbria: primeiro trazer ordem aos proprietários de dados, estrutura e classificação, depois montar um dicionário lógico, e apenas depois construir uma camada semântica para agentes. Para empresas que desejam implementar assistentes de IA em análise, isso soa como uma verdade desagradável, mas útil: a qualidade da resposta de um modelo agora depende diretamente não apenas do modelo em si, mas da maturidade da descrição de dados dentro do negócio.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.