Hugging Face Blog→ original

IBM lanzó Granite Embedding R2 — un modelo multilingüe para búsqueda semántica

IBM presentó Granite Embedding Multilingual R2, un modelo multilingüe abierto para búsqueda semántica con soporte para 32 mil tokens. El modelo está licenciado

IBM lanzó Granite Embedding R2 — un modelo multilingüe para búsqueda semántica
Fuente: Hugging Face Blog. Collage: Hamidun News.
◐ Escuchar artículo

IBM presentó Granite Embedding Multilingual R2 — un modelo multilingüe de código abierto para búsqueda semántica bajo la licencia Apache 2.0. Según pruebas en benchmarks populares, el desarrollo lidera en la categoría de modelos con menos de 100 millones de parámetros.

Qué es este modelo

Los modelos de embedding transforman texto en vectores — conjuntos de números que almacenan información sobre el significado del texto. Esta es la base para sistemas RAG (Retrieval Augmented Generation): primero, tal modelo encuentra documentos relevantes en una base de datos, luego un gran modelo generativo crea una respuesta basada en esa información. Granite R2 soporta un contexto de 32 mil tokens — cuatro veces más que los modelos de embedding estándar. Esto significa que el modelo puede analizar simultáneamente capítulos enteros y documentos completos, encontrando la información necesaria para la búsqueda.

Características técnicas

El modelo fue entrenado en datos de más de 30 idiomas, pero funciona como una única red universal sin adaptadores especiales. Según los resultados de pruebas en MTEB y otros benchmarks estándar, R2 muestra el mejor rendimiento entre todos los modelos de su clase. La principal ventaja es la compacidad. Menos de 100 millones de parámetros significa que el modelo funciona en hardware simple: una laptop de desarrollador, una GPU ligera o incluso una CPU es suficiente:

  • 30+ idiomas en un modelo
  • Contexto de 32K tokens en lugar de los típicos 8K
  • Menos de 100M parámetros — rápido en hardware estándar
  • Licencia Apache 2.0 — uso comercial permitido

Por qué esto es necesario

Antes, la elección era simple: modelos ligeros de código abierto con calidad mediocre o APIs en la nube cerradas que requieren internet y dinero. Granite R2 rompe este estereotipo. Para corporaciones, significa control total sobre los datos — todo funciona localmente sin la nube. Para startups — integración simple y escalado más barato. Sin dependencia de cuotas de proveedores, sin retrasos por solicitudes de red.

"El desarrollo de código abierto significa que la comunidad puede

mejorar el modelo y adaptarlo a lenguajes y dominios específicos."

Qué significa esto

Los modelos de embedding multilingües han alcanzado ese nivel de madurez en el que es conveniente usarlos en proyectos reales. Para desarrolladores de sistemas RAG, esto significa menos dependencias de gigantes en la nube y más flexibilidad en la integración. La industria está gradualmente pasando de APIs en la nube a soluciones locales.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.
¿Qué te parece?
Cargando comentarios…