Habr AI→ оригинал

Модель deepvk USER2-base почти сравнялась с OpenAI в тесте эмбеддингов для судебной практики

На корпусе из 858 решений Суда по интеллектуальным правам локальная deepvk USER2-base показала результат почти на уровне OpenAI text-embedding-3-large и Voyage.

◐ Слушать статью

Локальная русскоязычная модель deepvk USER2-base почти сравнялась с OpenAI и Voyage в тесте эмбеддингов для поиска по судебной практике. На корпусе из 858 актов по интеллектуальному праву автор бенчмарка пришёл к выводу, что для узкого юридического RAG не всегда нужен дорогой API, а польза реранкера сильно зависит от силы базовой модели.

Как устроили тест

Для проверки собрали узкий, но прикладной корпус: 858 актов Суда по интеллектуальным правам и тексты четвёртой части ГК РФ. Модели проверяли на 30 вопросах разной сложности — от типовых споров о контрафакте на маркетплейсах до кейсов про патенты, товарные знаки, домены и авторские права в соцсетях. Важно, что оценка строилась не по финальной выдаче реранкера, а по сырому топ-20 от каждой модели: результаты семи эмбеддингов объединяли, дедуплицировали и затем размечали.

Так автор избежал перекоса, когда необработанные документы автоматически получают нулевую оценку. Разметку делали через NotebookLM, а затем выборочно сверяли руками. Всего получилось 2751 пара «вопрос — дело», для которых ставили оценки от 0 до 2.

Основной метрикой взяли nDCG@5, потому что для реального пользователя важнее качество всего топ-5, а не только первое релевантное попадание. Дополнительно считали MRR и прогоняли парный бутстрэп на 2000 итераций. Сам автор честно называет тест пилотным: 30 вопросов маловато, поэтому часть различий между моделями остаётся в пределах статистического шума.

Кто вышел вперед В топ-группу вошли

OpenAI text-embedding-3-large, Voyage voyage-3 и локальная deepvk USER2-base. На этой выборке они оказались статистически неотличимы друг от друга, хотя уверенно обошли Yandex и часть моделей из средней группы. Главный вывод не в том, что появился абсолютный победитель, а в том, что бесплатная локальная русскоязычная модель оказалась в одной лиге с коммерческими API.

«USER2-base — главная находка теста».
  • Тройка лидеров: OpenAI, Voyage и USER2-base USER2-base без реранкера показал nDCG@5 на уровне 0.773 Связка USER2-base + jina-reranker-v3 поднялась до 0.797 OpenAI без реранкера дал 0.809, то есть разрыв остался в пределах погрешности Гибрид OpenAI и USER2-base расширил покрытие «идеальных» дел с 33% до 49% Последний пункт особенно интересен для RAG-пайплайнов. Разные эмбеддинги вытаскивают разные документы, поэтому гибридная корзина кандидатов заметно расширяет покрытие. Но автор отдельно оговаривает, что это пока oracle-анализ, а не честная проверка боевой выдачи: если ранжирование слабое, нужные документы так и останутся на 10–15 местах. Чтобы подтвердить эффект в проде, нужен отдельный тест с Reciprocal Rank Fusion и финальным nDCG.

Где помогает реранкер С реранкерами картина оказалась менее очевидной.

Из четырёх моделей реально рабочими для русского юридического корпуса автор называет jina-reranker-v3 и bge-reranker-v2-m3, причём jina в среднем смотрится чуть лучше. mxbai-rerank-base-v2 на этом наборе заметно портил результат, а английский mmarco оказался почти нейтральным. Практический вывод простой: реранкер нельзя брать «по умолчанию» только потому, что он популярен в англоязычном стеке.

Эффект реранкера сильно зависел от качества исходного эмбеддинга. На сильных моделях вроде OpenAI, Voyage и USER2-base приросты оказались в пределах погрешности. На более слабых выигрыш уже заметен: Yandex вырос с 0.

630 до 0.755 с bge, а Cohere — с 0.700 до 0.

793 с jina. По времени индексации почти все модели уложились в 7–15 минут на весь корпус, тогда как Yandex из-за лимитов API занял около 2.5 часов.

В итоге в своего бота автор собирается ставить USER2-base и jina-reranker-v3, а bge оставить запасным вариантом, если не хватит железа.

Что это значит

Для русскоязычных вертикальных RAG-систем это сильный сигнал: локальные модели уже могут конкурировать с крупными API на узких доменах, если тестировать их на реальном корпусе, а не на усреднённых бенчмарках. Ещё один вывод — реранкер не является магической кнопкой: его ценность появляется там, где базовый эмбеддинг сам по себе ранжирует недостаточно хорошо.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…