市场微观结构系列:深度学习赋能因子挖掘2.0综合应用方案_第1页
市场微观结构系列:深度学习赋能因子挖掘2.0综合应用方案_第2页
市场微观结构系列:深度学习赋能因子挖掘2.0综合应用方案_第3页
市场微观结构系列:深度学习赋能因子挖掘2.0综合应用方案_第4页
市场微观结构系列:深度学习赋能因子挖掘2.0综合应用方案_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

目 录1、开源金工因子挖掘2.0模型框架概览 52、基础行情测试模型有效性 6、时序信息挖掘网络RNN的选择 6、截面信息挖掘的关联网络选择 6、时序和截面网络的合并 7、网络在不同关联网络下的融合方案 8、考虑财务指标对多头绩效有一定程度提升 83、多特征集训练 、G:技术指标和K线状态变量 、状态变量转化示意 、基于特征集G挖掘的因子绩效展示 、PV和G的联合 12、C:大小单资金流 12、人工挖掘因子回顾 12、大小单资金流特征增强 12、基于特征集C挖掘的绩效展示 13、人工挖掘资金流因子和深度学习资金流因子对比 13、HF:高频特征 14、DP:遗传算法因子 14、遗传算法因子挖掘流程回顾 14、深度学习再掘金 154、综合深度学习因子ML_C 15、不同特征集汇总 15、不同维度交叉挖掘 16、不同样本空间测试 165、深度学习应用 17、应用一:多头优选 17、强化学习风格优选示意 17、全A优选 175.1.3、中证800+中证1000内优选 18、应用二:行业轮动 19、应用三:指数增强实践 20、上证50增强 20、沪深300增强、中证500增强、中证1000增强 216、附录:分域训练的影响 237、风险提示 23图表目录图1:开源金工因子挖掘2.0流程概览 5图2:基于资金流关联网络,收益率牵引因子具备一定选股效果 7310RankIC20Barra因子相关性测算 8图4:因子挖掘2.0网络模块示意 10图:基于基础行情PV“+GT_A加权_考虑财务”模型挖掘的因子表现优异 10图6:技术指标和K线状态变量转化示意图 图7:资金流状态变量转化示意 13图8:对于特征集C,人工因子回归深度学习因子后,残差基本不具备选股效果 14图9:遗传算法因子挖掘挖掘示意 15图10:最终深度学习因子ML_C分组净值 16图强化学习风格优选示意 17图12:日度action交易下的超额净值 17图13:结合风格轮动优选后绝对收益更优(全A内) 18图14:结合风格轮动优选后绝对收益更优(中证800+中证1000成分股内) 18图15:中证800+中证1000成分股内优选30只股票净值及绩效 18图16:ML_C原始值行业聚合后,因子的10日RankIC与多头收益 19图17:ML_C市值行业中性化后,行业聚合因子的10日RankIC与多头收益 19图18:行业轮动净值及绩效 20图19:上证50行业轮动指增净值及绩效 20图20:上证50指增净值及绩效 21图21:沪深300指增净值及绩效 22图22:中证500指增净值及绩效 22图23:中证1000指增净值及绩效 22表1:开源金工因子挖掘2.0特征概览 5表2:GRU和LSTM因子挖掘绩效对比:GRU略胜一筹 6表3:财务”模型的多头效果最优 7表4:相较于等权,SA加权下的融合方案绩效显著更优 8表5:财务指标:9大类部分汇总 9表6:基于基础行情PV,不同模型绩效对比 表7:基于特征集G,使用加权_考虑财务”模型,因子10日RankIC为11.0% 12表8:在加权_考虑财务”模型下,PV和G分别挖掘后再合成,不同样本空间绩效皆较为优异 12表9:开源金工特色大小单资金流因子 12表10:基于特征集C,使用加权_考虑财务”模型,因子10日RankIC为10.6% 13表基于特征集HF,使用加权_考虑财务”模型,因子10日RankIC为11.6% 14表12:基于特征集DP,使用加权_考虑财务”模型,因子10日RankIC为11.4% 15表13:在加权_考虑财务”模型下,不同特征集绩效对比 15表14:最终深度学习因子ML_C分年度绩效 16表15:ML_C在不同样本空间内绩效皆较为优异 17表16:不同Barra因子分域训练下的10日RankIC对比 231(2023)10185Alpha1852(2024)3(LoRALlama3增强因子的稳定性。最后,研究发现,相较于分析师盈利预测变动因子,研报情感变动因子的稳定性更优,即便在高景气周期失效阶段仍能保持稳健表现;据此构建4(2025)K5(AlphaBetaSAC在本报告的因子挖掘端,我们尝试关联前述相关成果,同步丰富网络结构与输入特征。第一部分将简要阐述本文整体模型框架;第二部分采用开盘价、最高价、最低价、收盘价、均价、成交量等基础行情数据,初步验证模型的有效性及内在规律;第三部分进一步拓展特征维度,验证不同维度因子的效能并完成因子合成;最终构建的因子自2020年至今,在双周频调仓下,RankIC可达14.2%。20209.27%Beta+Alpha508001000300500100050501、开源金工因子挖掘2.0模型框架概览LSTMLSTM,提取隐藏层;2MLP随着深度学习研究的向前推进,本篇报告将对1.0版本的因子挖掘框架做了重要2.011;2RNN352.0如图1所示。表2.0特征概览特征说明PV基础行情,包含:开、高、低、收、均价、成交量G基于基础行情衍生,包含:技术指标和K线状态变量C大小单资金流数据,包含:1、原始数据;2、衍生指标;3、状态变量HF高频数据降维的日度特征DP遗传算法有效因子F9大类基础财务指标,包含:原始值、同比和环比,辅助上述维度提升多头绩效开源证券研究所图2.0流程概览开源证券研究所2、基础行情测试模型有效性对于不同的特征集而言,其最适用的模型有所差别。本文中,我们先使用维度最少的基础行情初步敲定,其他特征集在此基础上进行调整。1.0120102201020204:1;3、早停的次数增加,RNN网络的注意力头数增加;4、时序信息挖掘网络RNN的选择RNN3GRU、LSTM、TransFormerGRULSTM2(1ST60天为全市场回测,计算多头超额时,基准为中证全指;若为宽基内回测,计算多头超)2因子无论在因子的RankIC略优于TN.0版本的T,GRU。表2:GRU和LSTM因子挖掘绩效对比:GRU略胜一筹模型10日RankIC年化RankICIR多空对冲多头超额年化收益信息比率最大回撤胜率年化收益信息比率最大回撤胜率GRU10.5%5.448.6%4.6-5.1%80.0%20.7%2.5-9.5%72.0%LSTM10.4%5.243.6%4.1-5.0%80.0%17.6%2.1-11.1%68.7%(统计区间:20200101-20251128)、截面信息挖掘的关联网络选择3=+盈利+估值、成长、盈利几大维度将股票划分为16种状态。资金流关联网络参照《从小单资金流行为到股票关联网络》(魏建榕,王志豪,2022年20易日,计算小单净流入强度,并按照强度大小将股票分为20种状态。双周频调仓下RankIC2AA自身收益,残差即股票A)alpha图2:基于资金流关联网络,收益率牵引因子具备一定选股效果(统计区间:20130101-20251128)、时序和截面网络的合并。GRU+GAT中三类不同关联网络的因子绩效对比如表3所示。其中,采用“GRU+GAT_行业”模型的绩效RankIC最低,采用“GRU+GAT_财务”模型的多头绩效相对最优。表3:“GRU+GAT_财务”模型的多头效果最优模型10日RankIC年化RankICIR多空对冲多头超额年化收益信息比率最大回撤胜率年化收益信息比率最大回撤胜率GRU+GAT_行业10.6%6.151.3%4.9-4.8%82.7%19.9%2.4-9.9%69.3%GRU+GAT_财务11.1%5.752.5%5.4-5.5%83.3%20.2%2.7-6.0%76.0%GRU+GAT_资金流11.0%5.556.7%5.9-4.8%84.7%20.2%2.6-10.0%74.0%合成-等权11.4%5.854.4%5.3-5.9%81.3%20.2%2.5-7.8%73.3%(统计区间:20200101-20251128)、网络在不同关联网络下的融合方案3softmaxBarraSA加权。10RankIC与20Barra34SARankIC图10日RankIC差值与过去20日Barra因子相关性测算(统计区间:20100101-20191031,训练集和验证集规律)表4:相较于等权,SA加权下的融合方案绩效显著更优加权方式10日RankIC年化RankICIR多空对冲多头超额年化收益信息比率最大回撤胜率年化收益信息比率最大回撤胜率合成-等权11.4%5.854.4%5.3-5.9%81.3%20.2%2.5-7.8%73.3%合成-SA加权11.5%5.958.3%5.3-5.8%86.7%22.1%2.8-8.8%72.0%(统计区间:20200101-20251128)、考虑财务指标对多头绩效有一定程度提升GRU95大类 名称表5:财务指标:9大类部分汇总大类 名称单季度.归属母公司股东的净利润同比增长率同比增长率单季度.归属母公司股东的净利润同比增长率成长ROIC单季度.营业收入同比增长率ROIC单季度.销售净利率单季度单季度.销售净利率盈利单季度.ROE(扣除非经常损益)单季度单季度.ROE(扣除非经常损益)单季度.经营活动产生的现金流量净额/营业收入单季度.销售商品提供劳务收到的现金单季度.销售商品提供劳务收到的现金/营业收入现金比率偿债能力

流动比率经营活动产生的现金流量净额/流动负债流动比率速动比率速动比率有息负债率股东权益对固定资产比率有息负债率资本结构 长期负债率短期借款率短期借款率应收账款周转率资产负债率应收账款周转率流动资产周转率总资产周转率流动资产周转率周转存货周转率固定资产周转率存货周转率研发收入比商誉 商誉收入比研发收入比研发估值PB估值PB开源证券研究所4V+_A加权0日ankC为1.7,58.9%5.124.1%3.0,105图4:因子挖掘2.0网络模块示意开源证券研究所图P+TA加权6_表6:基于基础行情PV,不同模型绩效对比模型10日RankIC年化RankICIR多空对冲多头超额年化收益信息比率最大回撤胜率年化收益信息比率最大回撤胜率GRU+GAT_行业10.6%6.151.3%4.9-4.8%82.7%19.9%2.4-9.9%69.3%GRU+GAT_财务11.1%5.752.5%5.4-5.5%83.3%20.2%2.7-6.0%76.0%GRU+GAT_资金流11.0%5.556.7%5.9-4.8%84.7%20.2%2.6-10.0%74.0%合成-等权11.4%5.854.4%5.3-5.9%81.3%20.2%2.5-7.8%73.3%GRU+GAT_SA加权11.5%5.958.3%5.3-5.8%86.7%22.1%2.8-8.8%72.0%GRU+GAT_SA加权_考虑财务11.7%5.758.9%5.1-4.8%82.7%24.1%3.0-5.4%72.0%(统计区间:20200101-20251128)3、多特征集训练在前期的报告中,我们积累了一些测试的维度,主要包含以下几大类,本篇报告将分别进行测试:1、G:基于基础行情衍生,包含:技术指标和K线状态变量;2、C:大小单资金流数据,包含:1、原始数据;2、衍生指标;3、状态变量3、HF:高频数据降维的日度特征4、DP:遗传算法有效因子、G:技术指标和K线状态变量、状态变量转化示意K6图6:技术指标和K线状态变量转化示意图开源证券研究所、基于特征集GG_710日RankIC为59.9%6.223.3%表7:基于特征集G,使用“GRU+GAT_SA加权_考虑财务”模型,因子10日RankIC为11.0%模型10日RankIC年化RankICIR多空对冲多头超额年化收益信息比率最大回撤胜率年化收益信息比率最大回撤胜率GRU+GAT_SA加权10.1%6.055.7%6.0-3.3%85.3%21.4%2.9-8.1%76.7%GRU+GAT_SA加权_考虑财务11.0%5.859.9%6.2-2.5%82.7%23.3%3.3-5.4%75.3%(统计区间:20200101-20251128)、PV和G的联合除此之外,因为G维度是PV维度的衍生维度,这里我们测试了二者在加权8所示。PV和G10日RankIC12.4%66.7%6.024.5%3.3。表8:在“GRU+GAT_SA加权_考虑财务”模型下,PV和G分别挖掘后再合成,不同样本空间绩效皆较为优异10日RankIC年化RankICIR多空对冲多头超额年化收益信息比率最大回撤胜率年化收益信息比率最大回撤胜率沪深3007.7%2.725.5%1.9-13.4%64.7%12.8%1.2-13.3%58.7%中证5008.1%3.235.8%2.7-9.9%68.0%15.4%1.9-5.4%66.0%中证100010.4%4.752.5%4.2-5.8%80.7%15.2%2.1-3.6%66.7%全市场12.4%6.066.7%6.0-4.5%82.7%24.5%3.3-3.9%75.3%(统计区间:20200101-20251128)、C:大小单资金流、人工挖掘因子回顾AshareMoneyFlow9所示。表9:开源金工特色大小单资金流因子因子名称报告名称10日RankICRankICIR大单残差《大小单资金流的alpha能力》2.1%1.6小单残差《大小单资金流的alpha能力》-2.2%-1.9主动买卖《主动买卖因子的正确用法》4.8%3.5散户羊群效应《资金流动力学:散户羊群效应与散户羊群效应》-3.0%-2.3超大单关注度《遗传算法赋能交易行为因子》5.3%3.9(统计区间:20200101-20251128)在进行深度学习训练之前,我们对大小单资金流因子进行一定的特征处理,主要为以下3大思路:1、原始资金流数据;2、特征增强之一:资金流的特征计算,如资金流过去250日的分位点等;30.5;40.57图7:资金流状态变量转化示意开源证券研究所、基于特征集C3SA1010RankIC10.6%56.4%,多5.219.5%2.8。表10:基于特征集C,使用“GRU+GAT_SA加权_考虑财务”模型,因子10日RankIC为10.6%模型10日RankIC年化RankICIR多空对冲多头超额年化收益信息比率最大回撤胜率年化收益信息比率最大回撤胜率GRU+GAT_SA加权10.1%5.150.9%4.8-3.6%82.0%16.7%2.3-7.2%70.7%GRU+GAT_SA加权_考虑财务10.6%5.156.4%5.2-4.4%81.3%19.5%2.8-5.6%70.0%(统计区间:20200101-20251128)8图8:对于特征集C,人工因子回归深度学习因子后,残差基本不具备选股效果、HF:高频特征对于高频特征而言,我们暂时还是将其降至日度特征来挖掘,后续我们将进一步展开更高频数据的因子挖掘工作。对于输入特征,我们考虑两块:1、分钟收益和分钟成交量相关衍生指标;2202510日RankIC57.5%5.819.1%,多2.6。表11:基于特征集HF,使用“GRU+GAT_SA加权_考虑财务”模型,因子10日RankIC为11.6%模型10日RankIC年化RankICIR多空对冲多头超额年化收益信息比率最大回撤胜率年化收益信息比率最大回撤胜率GRU+GAT_SA加权10.9%5.853.0%5.6-3.7%84.0%16.9%2.1-11.2%66.7%GRU+GAT_SA加权_考虑财务11.6%5.957.5%5.8-5.2%82.0%19.1%2.6-7.4%73.3%(统计区间:20200101-20251128)、DP:遗传算法因子利用遗传算法进行因子挖掘,再放入深度学习进行挖掘,其本质也是一种特征增强。在《遗传算法赋能交易行为因子挖掘》中,我们挖掘出了185个因子,将其命名为alpha185,这里我们筛选在2017年之前表现较好,且缺失度较低的48个因子作为输入特征。图9:遗传算法因子挖掘挖掘示意开源证券研究所、深度学习再掘金网络,而是直接采取12210日RankC为1.4,49.2%4.420.3%表12:基于特征集DP,使用“GRU+GAT_SA加权_考虑财务”模型,因子10日RankIC为11.4%模型10日RankIC年化RankICIR多空对冲多头超额年化收益信息比率最大回撤胜率年化收益信息比率最大回撤胜率遗传算法因子等权9.4%4.332.1%3.0-6.1%74.7%15.0%1.4-10.6%64.7%GRU+GAT_SA加权10.8%6.047.2%4.9-4.8%79.3%18.8%2.3-6.6%67.3%GRU+GAT_SA加权_考虑财务11.4%6.249.2%4.4-4.7%76.0%20.3%2.8-4.6%70.0%(统计区间:20200101-20251128)4、综合深度学习因子ML_C、不同特征集汇总131RankICC2PV和G表13:在“GRU+GAT_SA加权_考虑财务”模型下,不同特征集绩效对比维度10日RankIC年化RankICIR多空对冲多头超额年化收益信息比率最大回撤胜率年化收益信息比率最大回撤胜率PV11.7%5.758.9%5.1-4.8%82.7%24.1%3.0-5.4%72.0%G11.0%5.859.9%6.2-2.5%82.7%23.3%3.3-5.4%75.3%C10.6%5.156.4%5.2-4.4%81.3%19.5%2.8-5.6%70.0%HF11.6%5.957.5%5.8-5.2%82.0%19.1%2.6-7.4%73.3%DP11.4%6.249.2%4.4-4.7%76.0%20.3%2.8-4.6%70.0%(统计区间:20200101-20251128)、不同维度交叉挖掘SA213中ML_C1014所示。图10:最终深度学习因子ML_C分组净值表14:最终深度学习因子ML_C分年度绩效10日RankIC年化RankICIR多空对冲多头超额年化收益信息比率最大回撤胜率年化收益信息比率最大回撤胜率202015.8%8.2106.8%7.4-4.8%84.6%26.0%2.6-1.9%61.5%202112.9%6.564.8%5.2-3.9%76.9%28.0%3.3-4.8%73.1%202214.1%7.474.6%6.5-2.5%84.0%24.8%3.5-3.2%84.0%202311.7%5.049.0%5.3-2.5%84.0%30.9%5.9-1.1%76.0%202414.1%5.183.1%7.9-1.9%88.5%19.5%1.9-5.0%69.2%202516.9%6.860.9%4.6-4.4%72.7%28.7%3.6-4.2%81.8%全区间14.2%6.372.7%6.1-4.8%82.0%26.1%3.1-5.0%74.0%(统计区间:20200101-20251128)、不同样本空间测试ML_C1015ML_C30010RankIC8.6%26.4%12.4%500内10日RankC为9.437.2.813.、100010日RankIC57.0%4.117.3%2.3ML_C1000表15:ML_C在不同样本空间内绩效皆较为优异10日RankIC年化RankICIR多空对冲多头超额年化收益信息比率最大回撤胜率年化收益信息比率最大回撤胜率沪深3008.6%2.726.4%1.9-14.6%60.7%12.4%1.3-6.3%57.3%中证5009.4%3.537.9%2.8-15.5%70.0%13.7%2.0-5.3%66.7%中证100011.8%4.757.0%4.1-12.4%78.0%17.3%2.3-8.1%65.3%(统计区间:20200101-20251128)5、深度学习应用、应用一:多头优选针对深度学习因子,极端多头组合的优选一直是行业难点:这类因子往往风格倾向性较强,在极端市场环境下易引发大幅回撤。对此,我们提出结合风格优选实现Alpha与Beta的协同优选思路。图11:强化学习风格优选意 图12:日度action交易下的超净值开源证券研究所、全A优选action20action13ML_C5038.52%。图13:结合风格轮动优选后绝对收益更优(全A内)(统计区间:20200101-20251128)、中证800+中证1000内优选A800+1000141、3026.18%15图14:结合风格轮动优选后绝对收益更优(中证800+中证1000成分股内)(统计区间:20200101-20251128)图15:中证800+中证1000成分股内优选30只股票净值及绩效(统计区间:20200101-20251128)、应用二:行业轮动5(1(31/312/3-10,最(43(5的20%10RankIC16ML_C16_图16:ML_C原始值行业聚合后,因子的10日RankIC与多头收益(统计区间:20200101-20251128)ML_C17RankI

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论