MarkTechPost→ original

NVIDIA X-Token: destilación que supera a GOLD por 3,82 puntos

NVIDIA presentó X-Token, un método de destilación de conocimiento para pequeños modelos de lenguaje. El nuevo enfoque supera a GOLD por 3,82 puntos en promedio.

NVIDIA X-Token: destilación que supera a GOLD por 3,82 puntos
Fuente: MarkTechPost. Collage: Hamidun News.
◐ Escuchar artículo

NVIDIA lanzó el método X-Token para optimizar modelos de lenguaje pequeños. X-Token es un enfoque de destilación de conocimiento que corrige dos limitaciones estructurales del método GOLD anterior y demuestra mejoras significativas en pruebas estándar.

¿Qué es X-Token?

X-Token es un método de Destilación de Conocimiento de Tokenizador Cruzado Guiado por Proyección. En términos más simples, es una forma de transferir conocimiento de un modelo grande a uno pequeño, pero teniendo en cuenta diferentes conjuntos de vocabulario de tokens (los elementos en los que el modelo divide el texto). Los modelos pequeños frecuentemente se ejecutan en sus propios tokenizadores—sistemas especiales de análisis de texto—y anteriormente, la destilación ignoraba esto. X-Token resuelve este problema.

El método introduce una capa de proyección intermedia que traduce representaciones entre dos espacios de tokens diferentes. Es como un traductor trabajando en el nivel más fundamental del modelo. Cuando un modelo grande transfiere conocimiento a uno pequeño, X-Token garantiza que la información no se pierda en la traducción de un método de codificación a otro.

Resultados Que Impresionan

En el modelo Llama-3.2-1B, X-Token demuestra una superioridad consistente:

  • En puntos de referencia comunes—una mejora de 3,82 puntos en promedio en comparación con GOLD
  • En tareas de matemática (GSM8k)—un salto del 2,56% al 15,54% de precisión
  • En la prueba estándar MMLU—crecimiento del 24,0 al 24,7%

Esto no es solo una ganancia marginal—en matemática, la precisión aumentó seis veces. Para un modelo pequeño de 1 mil millones de parámetros, esto es crítico: cada punto porcentual cuenta, porque a tales escalas incluso pequeñas mejoras en capacidad ayudan a resolver tareas más complejas.

Errores Estructurales en GOLD

El método GOLD anterior ignoraba que el tokenizador en un modelo pequeño podría ser completamente diferente. Esto condujo a dos problemas: primero, el conocimiento del modelo grande perdió significado cuando el modelo pequeño lo tradujo a su propio vocabulario; segundo, la destilación no podría utilizar efectivamente todas las capacidades del modelo pequeño. X-Token incorpora una proyección entre diferentes espacios de tokens en el proceso de destilación. Es como un puente entre dos sistemas de codificación de información. Esto es especialmente importante cuando el modelo pequeño está diseñado para ejecución rápida en dispositivos móviles o edge y tiene su propio tokenizador único para ahorrar memoria.

Qué Significa Esto

Los modelos pequeños son necesarios en todas partes: en teléfonos, en dispositivos IoT, en servidores locales, donde no hay acceso a la nube o donde la latencia es crítica. X-Token muestra que puedes tomar conocimiento de un modelo enorme y eficientemente 'comprimirlo' en un formato pequeño—directamente con su propio vocabulario. Este es el camino hacia la IA que funciona en todas partes, no solo en computadoras en la nube. Y una mejora de seis veces en matemática es una señal de que los modelos pequeños están comenzando a ganar capacidades reales para tareas prácticas. Pronto, la IA local podría convertirse en el estándar, no en la excepción.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

Хотите не читать про ИИ, а внедрить его?

«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.

¿Qué te parece?
Cargando comentarios…