2025-06-17
分享到
2025年06月16日,广发证券发表了一篇基金行业的研究报告,报告指出,强化学习结合深度学习可提升量化投资择时策略收益。
报告摘要如下: 报告摘要: 强化学习:强化学习(ReinforcementLearning,RL)是一种机器学习方法,它使决策制定系统能够通过试错的方式学会在某种情境下应该采取什么行为,以最大化某种累计奖励。这种机制使得强化学习在量化投资领域中具有构建九游体育官方网站择时策略的潜能。 相比之下,虽然常规深度学习(DeepLearning,DL)可以处理非常复杂的映射关系,但它并不直接考虑长期目标或者与环境的交互过程。在该框架下,常规深度学习在量化投资领域的应用通常是实现固定窗口期的股价预测或因子挖掘等,对应定期的组合换仓策略,而非直接进行择时。 本文作为强化学习系列研究报告的第一篇,首先系统性地介绍了强化学习的基本概念和逻辑框架,并介绍了基于时序差分法的Q-Learning等强化学习算法。进一步的,本文探讨了采用深度学习与强化学习相结合的DoubleDeepQ-Network(DDQN)模型,在A股指数和个股中的择时应用。 择时策略:本文以DDQN作为核心模型,采用10分钟频的量价数据作为模型输入,择时策略的目标是让模型学会在各个时间节点给出买入/卖出/继续持有/继续空仓等信号,并使得期末收益最大化。在回测环节,强化学习模型每10分钟输出择时信号,并遵循t+1规则进行交易。若当天出现多个买入/卖出信号,则仅选择每天出现的第一个买入/卖出信号进行交易,且当日买入的无法在当日卖出。 实证分析:本文策略是对单一标的进行择时,其中包括流动性较好的某沪深300ETF、中证500ETF、中证1000ETF以及某个股。在样本外2023/01/01~2025/05/31期间,按照t+1交易规则,本文策略在上述4个择时标的中分别产生了72、30、73、188次择时信号(一买一卖算一次),平均胜率分别为52.8%、53.3%、54.8%、51.6%,期末累计收益分别跑赢基准标的10.9%、35.5%、64.9%、37.8%。 总结与展望:尽管强化学习已经在众多领域中展现出卓越的性能以及实现成熟的应用(如AlphaGo、大语言模型),但面对复杂的金融数据和激烈的市场博弈,强化学习在量化投资领域仍然面临稳定性不足等诸多挑战。展望未来,本系列报告将探索更多的强化学习算法,以求构建出性能更优越的策略。 风险提示:(1)本文所述模型用量化方法通过历史数据统计、建模和测算完成,所得结论与规律在市场政策、环境变化时存在失效风险;(2)本文策略在市场结构及交易行为改变时有可能存在失效风险;(3)因量化模型不同,本文提出的观点可能与其他量化模型结论存在差异。