Apple ML Research: how diffusion models learn to select tokens without manual heuristics

Diffusion language models (dLLMs) have reached parity with GPT-like models in quality, but a key problem remains: how to choose which token to reveal at each…

Hamidun News Editorial

AI monitoring · Apple ML Research

Jul 3, 2026· 3 min

AI-processed from Apple ML Research; edited by Hamidun News

Apple ML Research: how diffusion models learn to select tokens without manual heuristics — Source: Apple ML Research. Collage: Hamidun News.

◐ Listen to article

Apple ML Research в июле 2026 года опубликовала исследование об обучении политик раскрытия токенов для диффузионных языковых моделей: вместо ручных эвристик, которые требуют настройки и показывают нестабильные результаты, предлагается обучать сам процесс выбора токена.

Что такое диффузионные языковые модели

Диффузионные языковые модели (dLLMs) принципиально отличаются от привычных авторегрессионных архитектур вроде GPT или Claude. Авторегрессионная модель строит текст последовательно — токен за токеном слева направо. Диффузионная модель работает иначе: она стартует с полностью «замаскированного» текста и за несколько итераций постепенно «раскрывает» позиции. По данным Apple ML Research, современные dLLMs на многих прикладных задачах уже сопоставимы по качеству с авторегрессионными — при этом обещают преимущество по скорости инференса. Поскольку модель может раскрывать несколько токенов за один шаг, теоретически достижима более высокая пропускная способность при меньших вычислительных затратах.

Почему выбор токена решает всё

На каждом шаге диффузии модели нужно ответить на вопрос: какой из оставшихся замаскированных токенов раскрыть следующим? Этот на первый взгляд технический вопрос напрямую влияет и на качество генерируемого текста, и на скорость работы. Наивный подход — случайный выбор токена — оказывается наихудшей стратегией.

Исследователи Apple фиксируют, что эвристика confidence thresholding даёт существенно лучшие результаты: модель в первую очередь открывает те позиции, в которых её уверенность (probability score) наиболее высока. Ключевые факты о текущих эвристиках: Confidence thresholding улучшает качество выборки по сравнению со случайным раскрытием Стратегия увеличивает token throughput — число токенов в единицу времени Недостаток — необходимость ручной настройки параметров под каждую задачу Производительность эвристики нестабильна и варьируется в зависимости от применения ## Что предлагает Apple вместо ручных правил Центральная идея работы — заменить фиксированные эвристики обучаемой политикой раскрытия. Вместо того чтобы разработчик вручную подбирал пороговые значения и настраивал параметры под каждый сценарий, модель сама обучается оптимальной стратегии выбора токена.

«Такие эвристики имеют недостатки: они требуют ручной настройки, а их производительность...» — из аннотации исследования Apple ML Research.

Принцип не нов для машинного обучения: замена человеческих эвристик на автоматически оптимизируемые стратегии — стандартный путь от «настройки вручную» к «обучению из данных». Применённый к диффузионным моделям, такой подход потенциально обнаруживает стратегии раскрытия токенов, которые человек-разработчик не придумал бы заранее, и не требует повторной калибровки при переходе на новые задачи.

Что это значит

Диффузионные языковые модели привлекают внимание как один из перспективных альтернативных подходов к архитектуре больших языковых моделей — особенно с точки зрения эффективности инференса. Если политики раскрытия токенов можно обучать автоматически и они стабильно превосходят ручные эвристики, это устранит ключевой практический барьер для применения dLLMs в промышленных условиях, где стоимость и скорость генерации критичны.

Частые вопросы ### Чем диффузионные языковые модели отличаются от GPT?

Авторегрессионные модели вроде GPT генерируют текст последовательно — по одному токену. Диффузионные языковые модели начинают с полностью замаскированного текста и за несколько шагов итерационно «раскрывают» его, что позволяет параллельно обрабатывать несколько позиций и потенциально ускорить инференс.

Что такое confidence thresholding в контексте dLLMs?

Это эвристика, при которой на каждом шаге диффузии модель первой открывает ту позицию, в которой её уверенность наиболее высока. Apple ML Research показывает, что это улучшает и качество текста, и скорость генерации по сравнению со случайным раскрытием — но требует ручной настройки параметров.

Hamidun News

AI news without noise. Daily editorial selection from 400+ sources. A product by Zhemal Khamidun, Head of AI at Alpina Digital.

Telegram channel RSS hamidun.com

Want to stop reading about AI and start using it?

AI News is a curated feed of AI/tech news. Hamidun Academy teaches you to use AI systematically in your work.

🎓 Academy — 7 days free Free consultation