NVIDIA X-Token: дистилляция, которая бьёт GOLD на 3.82 балла

Q: Источник материала?

Оригинальная публикация на MarkTechPost. Hamidun News обрабатывает и адаптирует материалы с помощью AI.

Q: Когда опубликовано?

2026-05-31. Время чтения: 2 мин.

NVIDIA представила X-Token — метод дистилляции знаний для малых языковых моделей. Новый подход превосходит GOLD на 3.82 балла в среднем. На задачах математики (

ЖХ

Редакция Hamidun News

AI‑мониторинг · MarkTechPost

2026-05-31· 2 мин

NVIDIA X-Token: дистилляция, которая бьёт GOLD на 3.82 балла — Источник: MarkTechPost. Коллаж: Hamidun News.

◐ Слушать статью

NVIDIA выпустила метод X-Token для оптимизации маленьких языковых моделей. X-Token — это подход к дистилляции знаний, который исправляет два структурных недостатка предыдущего метода GOLD и показывает значительное улучшение на стандартных тестах.

Что такое X-Token X-Token — это метод Projection-Guided Cross-Tokenizer Knowledge Distillation.

Проще говоря, это способ передачи знаний от большой модели к маленькой, но с учётом разных словарей токенов (наборов элементов, на которые модель разбивает текст). Маленькие модели часто работают на собственных токенизаторах — специальной системе разбора текста — и раньше дистилляция это игнорировала. X-Token эту проблему решает. Метод вводит промежуточный слой-проекцию, который переводит представления между двумя разными пространствами токенов. Это как переводчик, работающий на уровне самого фундамента модели. Когда большая модель передаёт знания маленькой, X-Token гарантирует, что информация не теряется в переводе с одного способа кодирования на другой.

Результаты, которые впечатляют

На модели Llama-3.2-1B X-Token показывает стабильное превосходство: На общих бенчмарках — улучшение на 3.82 балла в среднем по сравнению с GOLD На задачах математики (GSM8k) — скачок с 2.56% до 15.54% точности * На стандартном тесте MMLU — рост с 24.0 до 24.7% Это не просто маргинальный прирост — на математике точность выросла в 6 раз. Для маленькой 1-миллиардной модели это критично: каждый процент считается, потому что на таких масштабах даже небольшое улучшение способности помогает справиться с более сложными задачами.

Структурные ошибки GOLD

Предыдущий метод GOLD игнорировал, что tokenizer в маленькой модели может быть совсем другой. Это приводило к двум проблемам: во-первых, знания из большой модели теряли смысл, когда маленькая модель переводила их на свой словарь; во-вторых, дистилляция не могла эффективно использовать все возможности маленькой модели. X-Token встраивает в процесс дистилляции проекцию между разными пространствами токенов. Это как мост между двумя системами кодирования информации. Особенно это важно, когда маленькая модель заточена под быстрое выполнение на мобильных или edge-устройствах и имеет свой, уникальный tokenizer для экономии памяти.

Что это значит

Маленькие модели нужны везде: на телефонах, в IoT-устройствах, на локальных серверах, где нет доступа к облаку или где задержка критична. X-Token показывает, что можно взять знания огромной модели и эффективно «сжать» их в малый формат — прямо со своим собственным словарём. Это путь к AI, который работает везде, а не только на облачных вычислителях. И улучшение в 6 раз на математике — это сигнал, что маленькие модели начинают получать настоящие способности для практических задач. Скоро локальный AI может стать стандартом, а не исключением.

ЖХ

Hamidun News

AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Telegram-канал RSS hamidun.com

Хотите не читать про ИИ, а внедрить его?

«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.

🎓 Academy — 7 дней бесплатно Бесплатная консультация