NVIDIA X-Token: дистилляция, которая бьёт GOLD на 3.82 балла
NVIDIA представила X-Token — метод дистилляции знаний для малых языковых моделей. Новый подход превосходит GOLD на 3.82 балла в среднем. На задачах математики (

NVIDIA выпустила метод X-Token для оптимизации маленьких языковых моделей. X-Token — это подход к дистилляции знаний, который исправляет два структурных недостатка предыдущего метода GOLD и показывает значительное улучшение на стандартных тестах.
Что такое X-Token X-Token — это метод Projection-Guided Cross-Tokenizer Knowledge Distillation.
Проще говоря, это способ передачи знаний от большой модели к маленькой, но с учётом разных словарей токенов (наборов элементов, на которые модель разбивает текст). Маленькие модели часто работают на собственных токенизаторах — специальной системе разбора текста — и раньше дистилляция это игнорировала. X-Token эту проблему решает. Метод вводит промежуточный слой-проекцию, который переводит представления между двумя разными пространствами токенов. Это как переводчик, работающий на уровне самого фундамента модели. Когда большая модель передаёт знания маленькой, X-Token гарантирует, что информация не теряется в переводе с одного способа кодирования на другой.
Результаты, которые впечатляют
На модели Llama-3.2-1B X-Token показывает стабильное превосходство: На общих бенчмарках — улучшение на 3.82 балла в среднем по сравнению с GOLD На задачах математики (GSM8k) — скачок с 2.56% до 15.54% точности * На стандартном тесте MMLU — рост с 24.0 до 24.7% Это не просто маргинальный прирост — на математике точность выросла в 6 раз. Для маленькой 1-миллиардной модели это критично: каждый процент считается, потому что на таких масштабах даже небольшое улучшение способности помогает справиться с более сложными задачами.
Структурные ошибки GOLD
Предыдущий метод GOLD игнорировал, что tokenizer в маленькой модели может быть совсем другой. Это приводило к двум проблемам: во-первых, знания из большой модели теряли смысл, когда маленькая модель переводила их на свой словарь; во-вторых, дистилляция не могла эффективно использовать все возможности маленькой модели. X-Token встраивает в процесс дистилляции проекцию между разными пространствами токенов. Это как мост между двумя системами кодирования информации. Особенно это важно, когда маленькая модель заточена под быстрое выполнение на мобильных или edge-устройствах и имеет свой, уникальный tokenizer для экономии памяти.
Что это значит
Маленькие модели нужны везде: на телефонах, в IoT-устройствах, на локальных серверах, где нет доступа к облаку или где задержка критична. X-Token показывает, что можно взять знания огромной модели и эффективно «сжать» их в малый формат — прямо со своим собственным словарём. Это путь к AI, который работает везде, а не только на облачных вычислителях. И улучшение в 6 раз на математике — это сигнал, что маленькие модели начинают получать настоящие способности для практических задач. Скоро локальный AI может стать стандартом, а не исключением.
Хотите не читать про ИИ, а внедрить его?
«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.