Sber: grafo de conhecimento Yago quase não ajudou a busca, enquanto LightRAG agregou 12 p.p. de precisão
Sber determinou por que grafos de conhecimento sozinhos não resolvem a busca. Primeira abordagem com Yago pronto rendeu apenas +3 p.p. em isolamento e quase…
Processado por IA de Habr AI; editado por Hamidun News
A Sber compartilhou como tentou melhorar a qualidade da busca interna usando grafos de conhecimento e RAG híbrido. A primeira tentativa com um grafo universal pronto para usar teve quase nenhum efeito, mas a mudança para LightRAG e seu próprio corpus de documentos aumentou notavelmente a precisão das respostas.
Por que o grafo não decolou
Os serviços da Sber já dependiam de esquemas de busca vetorial e híbrida, mas a equipe esbarrou em limitações típicas dessa abordagem. Um único documento precisa ser comprimido em um vetor, então nuances se perdem; similaridade semântica nem sempre significa que o documento realmente responde a pergunta; e consultas multi-hop, onde você precisa atravessar múltiplas entidades e documentos, são tratadas mal pela busca vetorial comum. Isso levou a uma hipótese: se adicionássemos um grafo de conhecimento como uma fonte separada de contexto, as respostas se tornariam mais precisas e robustas.
Para testá-lo, eles pegaram o SimpleQA da OpenAI (traduzido para o russo) em 4.326 perguntas factuais e usaram llm-as-a-judge para avaliação automática. O primeiro protótipo foi construído em Yago 4.
5, um dos maiores grafos de conhecimento abertos, que carregaram no Apache Jena Fuseki e elevaram uma API e um agente sobre os dados. O pipeline era clássico: extração de entidades da consulta, consulta baseada em template para o banco de dados gráfico, ranking de nós e arestas encontrados, depois sumarização de resposta via LLM. No papel tudo parecia convincente, mas os ganhos se mostraram fracos.
13 experimentos seguidos
Após as medições iniciais, a equipe configurou um banco de testes separado e executou 13 experimentos com 184 medições. Primeiro testaram o grafo puro, depois uma combinação do grafo com busca comum via um reranker, que coletava um único conjunto superior de candidatos de resposta. A conclusão básica foi desagradável: no ruSimpleQA o grafo em isolamento deu apenas +3 pontos percentuais, e combinado com a busca existente, o resultado não ultrapassou a margem de erro.
- Adicionaram fontes adicionais, incluindo IMDB, mas sem agregação complexa de dados no nível do banco de dados
- Tentaram classificar entidades por relevância, por exemplo pelo número de conexões em um nó
- Alteraram os limites de ranking para equilibrar completude de contexto e seu tamanho
- Testaram travessia inteligente de grafo até uma profundidade de três níveis e busca em largura em um ou dois hops
- Adicionaram busca vetorial via embeddings de nós e algoritmos de grafo como busca de caminho entre entidades
Os problemas não eram apenas na infraestrutura, mas também na natureza do grafo em si. Para embeddings, eles tiveram que usar descrições de entidades curtas e esparsas, o que tornou a busca vetorial sobre o grafo instável. Yago se provou demasiado universal: cobre bem o mundo em geral, mas reflete mal domínios específicos e relacionamentos importantes para consultas reais de usuários. Além disso, cada passo na cadeia de agentes adicionava novos erros—desde extração de entidade até sumarização final.
A mudança para LightRAG
Depois disso, a equipe mudou de estratégia: em vez de um grafo universal mundial, decidiram construir um grafo diretamente de seus próprios documentos. Para isso, escolheram LightRAG—um framework GraphRAG com busca de dois níveis que combina relacionamentos locais entre entidades e uma visão temática mais ampla. O sistema primeiro extrai nós e arestas do texto, depois os descreve, vetoriza os valores e armazena o grafo junto com embeddings. Essa abordagem ajuda a evitar perder contexto entre chunks e não força a LLM a colar cegamente peças aleatórias de documentos diferentes.
"Lixo na entrada com alta probabilidade dá lixo na saída."
A Sber indexou seu corpus de documentos através de LightRAG, selecionando documentos que abordavam perguntas que a busca de produto não conseguia responder, e executou os benchmarks novamente. O efeito foi notável: LightRAG forneceu respostas corretas para 74% de várias centenas de perguntas anteriormente não cobertas e adicionou 12 pontos percentuais à precisão no conjunto completo de 4.326 consultas. Um plus adicional—eficiência: o artigo afirma que LightRAG é aproximadamente 30–40 vezes mais barato que Microsoft GraphRAG no estágio de indexação com qualidade comparável. O próximo passo é testar em tráfego de produção e acelerar a indexação, que atualmente faz gargalo em cerca de 200 documentos por hora mesmo em H100.
O que isso significa
A história da Sber demonstra uma coisa simples: um grande grafo de conhecimento por si só não torna a busca mais inteligente. O que importa muito mais é quão bem o grafo está vinculado ao seu domínio, como ele se conecta à busca vetorial e em quais lacunas reais você o mede. Para equipes construindo busca RAG, este é um bom sinal para não perseguir a linda demo com um grafo público, mas investir em corpus de qualidade, retrieval híbrido e avaliação honesta em cenários reais.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.