Habr AI→ original

Le modèle deepvk USER2-base a presque égalé OpenAI dans un test d'embeddings pour la jurisprudence

Sur un corpus de 858 décisions de la Cour de la propriété intellectuelle, le deepvk USER2-base local a obtenu un résultat presque au niveau d'OpenAI…

Traité par IA depuis Habr AI ; édité par Hamidun News
Le modèle deepvk USER2-base a presque égalé OpenAI dans un test d'embeddings pour la jurisprudence
Source : Habr AI. Collage: Hamidun News.
◐ Écouter l'article

Le modèle local russophone deepvk USER2-base a presque rejoint OpenAI et Voyage dans un test d’embeddings pour la recherche en jurisprudence. Sur un corpus de 858 décisions en propriété intellectuelle, l’auteur du benchmark a conclu que, pour un RAG juridique spécialisé, une API coûteuse n’est pas toujours nécessaire et que l’utilité d’un reranker dépend fortement de la solidité du modèle de base.

Comment le test a été conçu

Pour l’évaluation, un corpus ciblé mais concret a été constitué : 858 décisions de la Cour de la propriété intellectuelle et les textes de la partie IV du Code civil de la Fédération de Russie. Les modèles ont été testés sur 30 questions de difficulté variable — des litiges classiques sur la contrefaçon sur les marketplaces jusqu’aux cas portant sur les brevets, les marques, les domaines et le droit d’auteur sur les réseaux sociaux. Point important : l’évaluation ne reposait pas sur la sortie finale du reranker, mais sur le top-20 brut de chaque modèle : les résultats de sept embeddings ont été fusionnés, dédupliqués puis annotés.

L’auteur a ainsi évité le biais où les documents non traités reçoivent automatiquement une note nulle. L’annotation a été réalisée via NotebookLM, puis vérifiée manuellement par échantillonnage. Au total, cela a donné 2 751 paires « question — affaire », notées de 0 à 2.

La métrique principale retenue était nDCG@5, parce que pour un utilisateur réel la qualité de l’ensemble du top-5 compte davantage que le seul premier résultat pertinent. MRR a aussi été calculé, et un bootstrap apparié sur 2 000 itérations a été exécuté. L’auteur qualifie honnêtement le test de pilote : 30 questions, c’est trop peu, donc une partie des écarts entre modèles reste dans le bruit statistique.

Qui est arrivé en tête

Le groupe de tête comprenait OpenAI text-embedding-3-large, Voyage voyage-3 et le modèle local deepvk USER2-base. Sur cet échantillon, ils se sont révélés statistiquement indiscernables les uns des autres, tout en devançant nettement Yandex et une partie des modèles du groupe intermédiaire. La conclusion principale n’est pas qu’un vainqueur absolu a émergé, mais qu’un modèle local gratuit en russe s’est retrouvé dans la même ligue que les API commerciales.

« USER2-base est la principale découverte du test ».
  • Trio de tête : OpenAI, Voyage et USER2-base
  • USER2-base sans reranker a affiché un nDCG@5 de 0.773
  • La combinaison USER2-base + jina-reranker-v3 est montée à 0.797
  • OpenAI sans reranker a obtenu 0.809, ce qui laisse l’écart dans la marge d’erreur
  • Un hybride OpenAI et USER2-base a élargi la couverture des affaires « idéales » de 33 % à 49 %

Ce dernier point est particulièrement intéressant pour les pipelines RAG. Différents embeddings font remonter différents documents, si bien qu’un ensemble hybride de candidats élargit nettement la couverture. Mais l’auteur précise séparément qu’il s’agit encore d’une analyse oracle, et non d’un test honnête de la sortie en production : si le classement est faible, les bons documents resteront aux positions 10–15. Pour confirmer l’effet en prod, il faut un test séparé avec Reciprocal Rank Fusion et un nDCG final.

Où le reranker aide

Avec les rerankers, le tableau s’est révélé moins évident. Parmi les quatre modèles, l’auteur ne considère comme réellement efficaces pour un corpus juridique russe que jina-reranker-v3 et bge-reranker-v2-m3, avec un léger avantage moyen pour jina. Sur cet ensemble, mxbai-rerank-base-v2 dégradait sensiblement le résultat, tandis que l’anglais mmarco restait presque neutre.

La conclusion pratique est simple : on ne peut pas prendre un reranker « par défaut » simplement parce qu’il est populaire dans le stack anglophone. L’effet du reranker dépendait fortement de la qualité de l’embedding d’origine. Sur des modèles solides comme OpenAI, Voyage et USER2-base, les gains sont restés dans la marge d’erreur.

Sur des modèles plus faibles, le bénéfice devient visible : Yandex est passé de 0.630 à 0.755 avec bge, tandis que Cohere est passé de 0.

700 à 0.793 avec jina. Côté temps d’indexation, presque tous les modèles ont traité l’ensemble du corpus en 7 à 15 minutes, alors que Yandex a mis environ 2,5 heures à cause des limites d’API.

Au final, l’auteur prévoit d’intégrer USER2-base et jina-reranker-v3 dans son bot, tout en gardant bge comme solution de secours si les ressources matérielles ne suffisent pas.

Ce que cela signifie

Pour les systèmes RAG verticaux en russe, c’est un signal fort : les modèles locaux peuvent déjà rivaliser avec les grandes API sur des domaines étroits, à condition d’être testés sur un corpus réel plutôt que sur des benchmarks moyennés. Autre conclusion : le reranker n’est pas un bouton magique ; sa valeur apparaît là où l’embedding de base, à lui seul, ne classe pas assez bien.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…