Habr AI→ original

El modelo deepvk USER2-base casi igualó a OpenAI en una prueba de embeddings para jurisprudencia

En un corpus de 858 resoluciones del Tribunal de Propiedad Intelectual, el deepvk USER2-base local mostró un resultado casi al nivel de OpenAI…

Procesado por IA desde Habr AI; editado por Hamidun News
El modelo deepvk USER2-base casi igualó a OpenAI en una prueba de embeddings para jurisprudencia
Fuente: Habr AI. Collage: Hamidun News.
◐ Escuchar artículo

El modelo local en ruso deepvk USER2-base casi igualó a OpenAI y Voyage en una prueba de embeddings para buscar en jurisprudencia. Sobre un corpus de 858 resoluciones de propiedad intelectual, el autor del benchmark llegó a la conclusión de que, para un RAG jurídico de alcance estrecho, no siempre hace falta una API cara, y de que la utilidad de un reranker depende mucho de la solidez del modelo base.

Cómo se montó la prueba

Para la evaluación se reunió un corpus estrecho, pero práctico: 858 resoluciones del Tribunal de Derechos de Propiedad Intelectual y los textos de la Parte IV del Código Civil de la Federación Rusa. Los modelos se probaron con 30 preguntas de distinta dificultad —desde disputas típicas por falsificaciones en marketplaces hasta casos sobre patentes, marcas, dominios y derechos de autor en redes sociales. Es importante que la evaluación no se basó en la salida final del reranker, sino en el top-20 en bruto de cada modelo: los resultados de siete embeddings se combinaron, se deduplicaron y después se anotaron.

Así, el autor evitó el sesgo por el que los documentos no procesados reciben automáticamente una puntuación cero. El etiquetado se hizo con NotebookLM y después se comprobó manualmente por muestreo. En total salieron 2.

751 pares «pregunta — caso», para los que se asignaron notas de 0 a 2. La métrica principal fue nDCG@5, porque para un usuario real importa más la calidad de todo el top-5 que solo el primer acierto relevante. Además, se calculó MRR y se ejecutó un bootstrap pareado con 2.

000 iteraciones. El propio autor llama al ensayo, con honestidad, una prueba piloto: 30 preguntas son pocas, así que parte de las diferencias entre modelos sigue dentro del ruido estadístico.

Quién salió por delante

En el grupo de cabeza quedaron OpenAI text-embedding-3-large, Voyage voyage-3 y el local deepvk USER2-base. En esta muestra resultaron estadísticamente indistinguibles entre sí, aunque superaron con claridad a Yandex y a parte de los modelos del grupo medio. La conclusión principal no es que haya aparecido un ganador absoluto, sino que un modelo local gratuito en ruso acabó en la misma liga que las API comerciales.

«USER2-base es el principal hallazgo de la prueba».
  • Trío líder: OpenAI, Voyage y USER2-base
  • USER2-base sin reranker mostró un nDCG@5 de 0.773
  • La combinación USER2-base + jina-reranker-v3 subió hasta 0.797
  • OpenAI sin reranker dio 0.809, es decir, la diferencia siguió dentro del margen de error
  • Un híbrido de OpenAI y USER2-base amplió la cobertura de casos «ideales» del 33% al 49%

Este último punto es especialmente interesante para los pipelines de RAG. Distintos embeddings sacan a la superficie documentos distintos, por lo que un pool híbrido de candidatos amplía de forma notable la cobertura. Pero el autor aclara aparte que esto sigue siendo un análisis oracle, no una comprobación honesta de la salida en producción: si el ranking es débil, los documentos necesarios seguirán en los puestos 10–15. Para confirmar el efecto en producción, hace falta una prueba aparte con Reciprocal Rank Fusion y nDCG final.

Dónde ayuda el reranker

Con los rerankers, el panorama resultó menos evidente. De los cuatro modelos, el autor considera que jina-reranker-v3 y bge-reranker-v2-m3 son los únicos realmente funcionales para un corpus jurídico ruso, y que jina se ve un poco mejor de media. En este conjunto, mxbai-rerank-base-v2 empeoró perceptiblemente el resultado, mientras que el mmarco en inglés quedó casi neutral.

La conclusión práctica es simple: no se puede tomar un reranker «por defecto» solo porque sea popular en el stack anglófono. El efecto del reranker dependía mucho de la calidad del embedding original. En modelos fuertes como OpenAI, Voyage y USER2-base, las mejoras quedaron dentro del margen de error.

En los más débiles, la ganancia ya es visible: Yandex pasó de 0.630 a 0.755 con bge, mientras que Cohere subió de 0.

700 a 0.793 con jina. En tiempo de indexación, casi todos los modelos cubrieron el corpus completo en 7–15 minutos, mientras que Yandex tardó unas 2,5 horas por los límites de API.

Al final, el autor planea poner USER2-base y jina-reranker-v3 en su bot, y dejar bge como opción de reserva si no hay suficiente hardware.

Qué significa esto

Para los sistemas verticales de RAG en ruso, esto es una señal fuerte: los modelos locales ya pueden competir con las grandes API en dominios estrechos si se los prueba sobre un corpus real, y no sobre benchmarks promediados. Otra conclusión es que el reranker no es un botón mágico: su valor aparece allí donde el embedding base no clasifica lo bastante bien por sí solo.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…