DiffQuant optimise directement le ratio de Sharpe via un simulateur de trading différentiable
La plupart des modèles de ML pour le trading apprennent à réduire la MSE, mais sont évalués au ratio de Sharpe — ce sont deux tâches différentes. DiffQuant supp

DiffQuant — открытый прототип, который устраняет фундаментальное противоречие в ML-трейдинге: модели учатся минимизировать среднеквадратичную ошибку, а оцениваются по коэффициенту Шарпа. Авторы убрали этот разрыв, сделав весь торговый пайплайн — от признаков до PnL и комиссий — единым дифференцируемым графом.
Проблема суррогатных целей В большинстве ML-систем для количественной
торговли схема выглядит так: обучаем нейросеть предсказывать доходности или направление движения цены, минимизируя MSE или BCE. Затем поверх этих предсказаний строим торговую стратегию и оцениваем её по коэффициенту Шарпа — отношению средней доходности к волатильности. Проблема: эти две цели математически не связаны. Лучший MSE не гарантирует лучший Sharpe. На практике нейросеть тратит ресурсы на снижение ошибки предсказания в тех режимах рынка, где это никак не влияет на итоговый торговый результат. Улучшение точности прогноза на 15% может не давать никакого прироста Sharpe — и это задокументированная проблема как в академических работах, так и среди практиков quant-индустрии. Частичные решения — ранжирующие функции потерь, пользовательские proxy-метрики, post-hoc взвешивание — не устраняют суть: градиент при обучении не видит реальной торговой механики.
Как устроен дифференцируемый симулятор
DiffQuant решает задачу в лоб: весь торговый пайплайн реализуется как единый вычислительный граф с непрерывными операциями: Рыночные признаки → нейросетевой блок предсказания сигнала Сигнал → целевая позиция с учётом ограничений на размер и направление Позиция → шаговый PnL с явной моделью проскальзывания и комиссий Накопленный PnL → коэффициент Шарпа как дифференцируемая скалярная функция потерь Ключевой технический вопрос — как сделать позиционирование и издержки дифференцируемыми, поскольку реальные торговые операции дискретны. Авторы используют мягкие приближения: вместо резких переходов между позициями — непрерывные функции, достаточно точные для прохождения градиента.
«Это не готовая торговая система — это другая постановка задачи», — подчёркивают авторы.
Результат: градиент по коэффициенту Шарпа распространяется обратно через весь пайплайн до весов нейросети. Модель обучается непосредственно на том критерии, по которому будет оцениваться в продакшне.
Sharpe +1.73 и +1.15 после комиссий
Прототип проверялся на двух последовательных held-out кварталах — периодах, которые модель не видела ни при обучении, ни при настройке гиперпараметров. Sharpe +1.73 на первом квартале и +1.15 на втором после учёта реальных комиссий. Оба значения выше единицы — принятого базового ориентира для алгоритмических стратегий. Код, данные и полный протокол эксперимента опубликованы в открытом доступе. Воспроизвести результаты может любой с доступом к аналогичным рыночным данным. Авторы намеренно избегали усложнений — никаких экзотических архитектур или нестандартных признаков: только смена функции потерь.
Что это значит DiffQuant демонстрирует, что правильная постановка задачи важнее выбора архитектуры.
Если в продакшне стратегия оценивается по Шарпу — оптимизировать при обучении нужно именно его, а не суррогаты. Для квантовых фондов и независимых исследователей это практический сигнал: разрыв между обучающей целью и реальной метрикой можно закрыть технически — и это меняет не только результат, но и то, чему именно учится модель.