Habr AI→ оригинал

DiffQuant optimise directement le ratio de Sharpe via un simulateur de trading différentiable

La plupart des modèles de ML pour le trading apprennent à réduire la MSE, mais sont évalués au ratio de Sharpe — ce sont deux tâches différentes. DiffQuant supp

DiffQuant optimise directement le ratio de Sharpe via un simulateur de trading différentiable
Источник: Habr AI. Коллаж: Hamidun News.
◐ Слушать статью

DiffQuant — открытый прототип, который устраняет фундаментальное противоречие в ML-трейдинге: модели учатся минимизировать среднеквадратичную ошибку, а оцениваются по коэффициенту Шарпа. Авторы убрали этот разрыв, сделав весь торговый пайплайн — от признаков до PnL и комиссий — единым дифференцируемым графом.

Проблема суррогатных целей В большинстве ML-систем для количественной

торговли схема выглядит так: обучаем нейросеть предсказывать доходности или направление движения цены, минимизируя MSE или BCE. Затем поверх этих предсказаний строим торговую стратегию и оцениваем её по коэффициенту Шарпа — отношению средней доходности к волатильности. Проблема: эти две цели математически не связаны. Лучший MSE не гарантирует лучший Sharpe. На практике нейросеть тратит ресурсы на снижение ошибки предсказания в тех режимах рынка, где это никак не влияет на итоговый торговый результат. Улучшение точности прогноза на 15% может не давать никакого прироста Sharpe — и это задокументированная проблема как в академических работах, так и среди практиков quant-индустрии. Частичные решения — ранжирующие функции потерь, пользовательские proxy-метрики, post-hoc взвешивание — не устраняют суть: градиент при обучении не видит реальной торговой механики.

Как устроен дифференцируемый симулятор

DiffQuant решает задачу в лоб: весь торговый пайплайн реализуется как единый вычислительный граф с непрерывными операциями: Рыночные признаки → нейросетевой блок предсказания сигнала Сигнал → целевая позиция с учётом ограничений на размер и направление Позиция → шаговый PnL с явной моделью проскальзывания и комиссий Накопленный PnL → коэффициент Шарпа как дифференцируемая скалярная функция потерь Ключевой технический вопрос — как сделать позиционирование и издержки дифференцируемыми, поскольку реальные торговые операции дискретны. Авторы используют мягкие приближения: вместо резких переходов между позициями — непрерывные функции, достаточно точные для прохождения градиента.

«Это не готовая торговая система — это другая постановка задачи», — подчёркивают авторы.

Результат: градиент по коэффициенту Шарпа распространяется обратно через весь пайплайн до весов нейросети. Модель обучается непосредственно на том критерии, по которому будет оцениваться в продакшне.

Sharpe +1.73 и +1.15 после комиссий

Прототип проверялся на двух последовательных held-out кварталах — периодах, которые модель не видела ни при обучении, ни при настройке гиперпараметров. Sharpe +1.73 на первом квартале и +1.15 на втором после учёта реальных комиссий. Оба значения выше единицы — принятого базового ориентира для алгоритмических стратегий. Код, данные и полный протокол эксперимента опубликованы в открытом доступе. Воспроизвести результаты может любой с доступом к аналогичным рыночным данным. Авторы намеренно избегали усложнений — никаких экзотических архитектур или нестандартных признаков: только смена функции потерь.

Что это значит DiffQuant демонстрирует, что правильная постановка задачи важнее выбора архитектуры.

Если в продакшне стратегия оценивается по Шарпу — оптимизировать при обучении нужно именно его, а не суррогаты. Для квантовых фондов и независимых исследователей это практический сигнал: разрыв между обучающей целью и реальной метрикой можно закрыть технически — и это меняет не только результат, но и то, чему именно учится модель.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…