MarkTechPost→ original

NVIDIA X-Token: destilação que supera o GOLD em 3,82 pontos

A NVIDIA apresentou o X-Token, um método de destilação de conhecimento para pequenos modelos de linguagem. A nova abordagem supera o GOLD em 3,82 pontos em médi

NVIDIA X-Token: destilação que supera o GOLD em 3,82 pontos
Fonte: MarkTechPost. Colagem: Hamidun News.
◐ Ouvir artigo

NVIDIA lançou o método X-Token para otimizar modelos de linguagem pequenos. X-Token é uma abordagem de destilação de conhecimento que corrige duas limitações estruturais do método GOLD anterior e demonstra melhorias significativas em testes padrão.

O que é X-Token

X-Token é um método de Destilação de Conhecimento de Tokenizador Cruzado Guiado por Projeção. Em termos mais simples, é uma forma de transferir conhecimento de um modelo grande para um pequeno, mas levando em conta diferentes conjuntos de vocabulário de tokens (os elementos em que o modelo divide o texto). Modelos pequenos frequentemente rodam em seus próprios tokenizadores—sistemas especiais de análise de texto—e, anteriormente, a destilação ignorava isso. X-Token resolve este problema.

O método introduz uma camada de projeção intermediária que traduz representações entre dois espaços de tokens diferentes. É como um tradutor trabalhando no nível mais fundamental do modelo. Quando um modelo grande transfere conhecimento para um pequeno, X-Token garante que a informação não seja perdida na tradução de um método de codificação para outro.

Resultados Que Impressionam

No modelo Llama-3.2-1B, X-Token demonstra superioridade consistente:

  • Em benchmarks comuns—uma melhoria de 3,82 pontos em média em comparação com GOLD
  • Em tarefas de matemática (GSM8k)—um salto de 2,56% para 15,54% de precisão
  • No teste padrão MMLU—crescimento de 24,0 para 24,7%

Isso não é apenas um ganho marginal—em matemática, a precisão aumentou seis vezes. Para um modelo pequeno de 1 bilhão de parâmetros, isso é crítico: cada ponto percentual conta, porque nessas escalas até pequenas melhorias na capacidade ajudam a resolver tarefas mais complexas.

Erros Estruturais do GOLD

O método GOLD anterior ignorava que o tokenizador em um modelo pequeno poderia ser completamente diferente. Isso levou a dois problemas: primeiro, o conhecimento do modelo grande perdeu significado quando o modelo pequeno o traduzia para seu próprio vocabulário; segundo, a destilação não poderia utilizar efetivamente todas as capacidades do modelo pequeno. X-Token incorpora uma projeção entre espaços de tokens diferentes ao processo de destilação. É como uma ponte entre dois sistemas de codificação de informação. Isso é especialmente importante quando o modelo pequeno é projetado para execução rápida em dispositivos móveis ou edge e tem seu próprio tokenizador único para economizar memória.

O que Isto Significa

Modelos pequenos são necessários em todos os lugares: em telefones, em dispositivos IoT, em servidores locais, onde não há acesso à nuvem ou onde a latência é crítica. X-Token mostra que você pode pegar conhecimento de um modelo enorme e eficientemente 'compactá-lo' em um formato pequeno—diretamente com seu próprio vocabulário. Este é o caminho para a IA que funciona em todos os lugares, não apenas em computadores em nuvem. E uma melhoria de seis vezes em matemática é um sinal de que modelos pequenos estão começando a ganhar capacidades reais para tarefas práticas. Em breve, a IA local poderia se tornar o padrão, não a exceção.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Хотите не читать про ИИ, а внедрить его?

«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.

O que você acha?
Carregando comentários…