Apple ML Research: cómo los modelos de difusión aprenden a seleccionar tokens sin heurísticas manuales

Los modelos de lenguaje por difusión (dLLMs) ya igualan a los modelos tipo GPT en calidad, pero persiste un problema clave: cómo seleccionar qué token…

Redacción de Hamidun News

Monitoreo de AI · Apple ML Research

3 jul 2026· 3 min

Procesado por IA desde Apple ML Research; editado por Hamidun News

Apple ML Research: cómo los modelos de difusión aprenden a seleccionar tokens sin heurísticas manuales — Fuente: Apple ML Research. Collage: Hamidun News.

◐ Escuchar artículo

Apple ML Research в июле 2026 года опубликовала исследование об обучении политик раскрытия токенов для диффузионных языковых моделей: вместо ручных эвристик, которые требуют настройки и показывают нестабильные результаты, предлагается обучать сам процесс выбора токена.

Что такое диффузионные языковые модели

Диффузионные языковые модели (dLLMs) принципиально отличаются от привычных авторегрессионных архитектур вроде GPT или Claude. Авторегрессионная модель строит текст последовательно — токен за токеном слева направо. Диффузионная модель работает иначе: она стартует с полностью «замаскированного» текста и за несколько итераций постепенно «раскрывает» позиции. По данным Apple ML Research, современные dLLMs на многих прикладных задачах уже сопоставимы по качеству с авторегрессионными — при этом обещают преимущество по скорости инференса. Поскольку модель может раскрывать несколько токенов за один шаг, теоретически достижима более высокая пропускная способность при меньших вычислительных затратах.

Почему выбор токена решает всё

На каждом шаге диффузии модели нужно ответить на вопрос: какой из оставшихся замаскированных токенов раскрыть следующим? Этот на первый взгляд технический вопрос напрямую влияет и на качество генерируемого текста, и на скорость работы. Наивный подход — случайный выбор токена — оказывается наихудшей стратегией.

Исследователи Apple фиксируют, что эвристика confidence thresholding даёт существенно лучшие результаты: модель в первую очередь открывает те позиции, в которых её уверенность (probability score) наиболее высока. Ключевые факты о текущих эвристиках: Confidence thresholding улучшает качество выборки по сравнению со случайным раскрытием Стратегия увеличивает token throughput — число токенов в единицу времени Недостаток — необходимость ручной настройки параметров под каждую задачу Производительность эвристики нестабильна и варьируется в зависимости от применения ## Что предлагает Apple вместо ручных правил Центральная идея работы — заменить фиксированные эвристики обучаемой политикой раскрытия. Вместо того чтобы разработчик вручную подбирал пороговые значения и настраивал параметры под каждый сценарий, модель сама обучается оптимальной стратегии выбора токена.

«Такие эвристики имеют недостатки: они требуют ручной настройки, а их производительность...» — из аннотации исследования Apple ML Research.

Принцип не нов для машинного обучения: замена человеческих эвристик на автоматически оптимизируемые стратегии — стандартный путь от «настройки вручную» к «обучению из данных». Применённый к диффузионным моделям, такой подход потенциально обнаруживает стратегии раскрытия токенов, которые человек-разработчик не придумал бы заранее, и не требует повторной калибровки при переходе на новые задачи.

Что это значит

Диффузионные языковые модели привлекают внимание как один из перспективных альтернативных подходов к архитектуре больших языковых моделей — особенно с точки зрения эффективности инференса. Если политики раскрытия токенов можно обучать автоматически и они стабильно превосходят ручные эвристики, это устранит ключевой практический барьер для применения dLLMs в промышленных условиях, где стоимость и скорость генерации критичны.

Частые вопросы ### Чем диффузионные языковые модели отличаются от GPT?

Авторегрессионные модели вроде GPT генерируют текст последовательно — по одному токену. Диффузионные языковые модели начинают с полностью замаскированного текста и за несколько шагов итерационно «раскрывают» его, что позволяет параллельно обрабатывать несколько позиций и потенциально ускорить инференс.

Что такое confidence thresholding в контексте dLLMs?

Это эвристика, при которой на каждом шаге диффузии модель первой открывает ту позицию, в которой её уверенность наиболее высока. Apple ML Research показывает, что это улучшает и качество текста, и скорость генерации по сравнению со случайным раскрытием — но требует ручной настройки параметров.

Hamidun News

Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

Canal de Telegram RSS hamidun.com

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

🎓 Academy — 7 días gratis Consulta gratuita