版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
正文目录TOC\o"1-2"\h\z\u遗规介绍 1传划理 1传划因挖中应用 3遗规因检验 4子16子27子38子48子59子610子7子8子9122.10因子10检验 132.11因子142.12因子12检验 142.13因子13检验 152.14因子14检验 162.15因子15检验 17因相性验合成 17子关检验 18子成 18基遗规因策构建 19总与望 19风提示 21图表目录图1遗规基流程 1图2遗规树表达 2图3因子1五分层 7图4因子1多净值 7图5因子2五分层 7图6因子2多净值 7图7因子3五分层 8图8因子3多净值 8图9因子4五分层 9图10、子4多净值 9图、子5组层 10图12、子5多净值 10图13、子6五分层 10图14、子6多净值 10图15、子7五分层 图16、子7多净值 图17、子8五分层 12图18、子8多净值 12图19、子9五分层 13图20、子9多净值 13图21、子10组层 13图22、子10空值 13图23、子组层 14图24、子空值 14图25、子12组层 15图26、子12空值 15图27、子13组层 16图28、子13空值 16图29、子14组层 16图30、子14空值 16图31、子15组层 17图32、子15空值 17图33、成子组层 19图34、成子空值 19图35、证500数策略线 20表1函列表 4表2因列表 5表3因检结果 6表4因子1统指标 7表5因子2统指标 8表6因子3统指标 8表7因子4统指标 9表8因子5统指标 10表9因子6统指标 表10、子7统指标 表、子8计标 12表12、子9统指标 13表13、子10计标 14表14、子计标 14表15、子12计标 15表16、子13计标 16表17、子14计标 17表18、子15计标 17表19、掘子关阵 18表20、成子计标 19表21、略计标 20遗传规划介绍遗传规划(GeneticProgramming)属于进化算法的一种。遗传规划继承了遗传算法(GeneticAlgorithms)的基本思想,即从父辈中择优繁育子辈。遗传规划通过使用达尔文自然选择和生物启发操作的原理对计算机程序群体进行遗传繁殖来实现自动编程(有时也称为程序合成或程序归纳)的目标。这在多因子量化选股系统报告中,我们已经构建了基本面、技术面、资金面等因子,这些因子均从金融市场逻辑的角度出发。本篇报告将利用机器学习模型和大数据的技术,通过遗传规划算法对量价行情数据进行不同组合,从而挖掘另类量价因子。遗传规划原理遗传规划通常从一组随机生成的程序开始,迭代地将计算机程序群体转换为新一代程序,直到程序满足要求即可停止迭代。遗传规划的基本流程见图1。图1、遗传规划基本流程资料来源:制作遗传规划最终目是寻找一个数学公式用来表达一种关系。举例来说,假设有两个变量X0和X1y:0𝑦=𝑋2−3∗𝑋1+0.50LIP𝑦=(+(−(∗𝑋0𝑋0)(∗3𝑋1))0.5)如果将该公式表示为一个语法树,其中函数为内部节点,变量和常量组合为叶子节点。图2、遗传规划树形表达资料来源:gplearn、(Fitness)公式可以表示为可执行程序,我们需要知道它的执行结果,在达尔文时代,这种度量被称为程序的适应度,这与机器学习算法中的score、loss等指标类似。遗传规划的gplearn程序中的评价标准通过metric参数设置。本篇报告通过遗传规划算法挖掘有效因子,适应度为IC指标,也就是因子值与未来收益的相关系数。选择(Selection)在有了一群程序后,我们需要决定哪些能进化到下一代,在gplearn中是通过tournament_size参数控制,接下来这个子集中最合适的个体将进入下一代。size越大,越容易找到更合适的程序,进化过程将倾向于在更短的时间内收敛到解决方案;size越小,更多的程序有机会进化,同时可能会花费更长的时间来找到更好的解决方案。(Crossover)p_crossover变异方式包括3种:子树变异(SbeeMuaon、提升变异(HostMuaon(PontMuaon。子树变异(SubtreeMutation)是较为激进的突变操作之一,由p_subtree_mutation参数控制。子树变异选择一个tournaments的获胜者,并从中随机选择一个子树进行替换。一个供体子树是随机产生的,它被插入到原树中,形成下一代的后代。提升变异(HoistMutation)是一种对抗膨胀的变异操作,由p_hoist_mutation参数控制。这种变异是去除掉tournaments赢家的遗传物质。从tournaments赢家中选择一个随机子树。然后选择该子树的随机子树,并将点变异(PointMutation)是遗传规划中最常见的突变形式,由p_point_replace参数控制。首先,选择一个tournament的赢家,并从中随机选择要替换的节点。终端被替换为其他终端,函数被替换为需要与原始节点相同数量参数的其他函数。由此产生的树形成了下一代的后代。本文采用的是Pythongplearn(https://gplearn.readthedocs.io/en/stable/intro.html)程序代码,原始代码适用于一般较为简单的运算优化场景,如果运用在因子挖掘领域,需要做相应调整。遗传规划中公式是变量与函数的组合。在原始glearn程序包里,函数较少,为了生成更好的公式,我们需要扩充函数集。同时,由于构建因子过程中经常运用时间序列运算,我们增加了时序类的函数。本篇报告用到的函数见表1。表1、函数列表函数类型表达式变量个数具体含义一般函数add(x,y)2x+y,相加sub(x,y)2x-y,相减mul(x,y)2x*y,相乘div(x,y)2x/y,相除abs(x)1abs(x),绝对值log(x)1log(abs(x)),对数rank(x)1截面排序分位数rank_add(x,y)2rank(x)+rank(y)rank_sub(x,y)2rank(x)-rank(y)rank_mul(x,y)2rank(x)*rank(y)rank_div(x,y)2rank(x)/rank(y)时序函数ts_delay(x,w)2x在wts_min(x,w)2x在wts_max(x,w)2x在wts_mean(x,w)2x在wts_std(x,w)2x在wts_skew(x,w)2x在wts_ms(x,w)2x在wts_zscore(x,w)2x减去w天均值后与标准差之比ts_chg(x,w)2x相较于w天前值变化率ts_corr(x,y,w)3x,y在wts_cov(x,y,w)3x,y在w资料来源:制作同时,我们需要改写适应度函数,本篇报告的适应度为公式与预测目标之间的相关系数,也就是因子检验中常用的IC均值指标。遗传规划因子检验本篇报告关于遗传规划模型构建如下:输入变量:股票日度开盘价、收盘价、最高价、最低价、收益率、成交额、换手率。预测目标:股票20日收益率。股票池:中证500。回测时间:2016.12.30至2022.12.30。0.025(表2、因子列表因子名称因子表达式Factor1add(ts_cov(turn,amt,20),ts_chg(turn,20))Factor2ts_ms(amt,20)Factor3ts_std(ts_corr(turn,amt,10),5)Factor4mul(turn,amt)Factor5rank_sub(open,amt)Factor6ts_mean(ts_corr(high,turn,10),20)Factor7mul(log(turn),ts_std(amt,10))Factor8ts_mean(rank(ts_corr(high,low,20)),20)Factor9rank_sub(rank_sub(ret,close),ts_chg(ret,10))Factor10ts_mean(ts_delay(ts_chg(open,60),10),60)Factor11ts_cov(turn,ret,60)Factor12ts_mean(div(open,low),60)Factor13rank_add(ts_ms(low,20),ts_ms(ret,20))Factor14ts_skew(open,60)Factor15ts_skew(high,20)资料来源:制作对于遗传规划挖掘出来的因子,我们对其进行更为全面的单因子检验。本篇报告将延续前期多因子系列报告中关于单因子检验的标准,参数设置如下:样本范围:剔除ST500回测时间:2016.12.30至2023.08.31。调仓频率:月度调仓,每个月最后一个交易日收盘为调仓期。基准:中证500指数。数据处理:MAD方法处理异常值,缺失值用行业均值填充。(。五组分层:根据因子的大小将股票池分为五组,组合等权加权。净值为每组超额收益的累积净值曲线。多空组合:多头组合为第五组分层减去基准组合,空头组合为基准组合减去第一组,多空组合为第五组减去第一组。因子检验结果见表3。表3、因子检验结果因子名称方向ICICIR多空组合表现年化收益(%)年化波动(%)最大回撤(%)SharpeCalmarFactor1负0.030.376.089.21-16.950.660.36Factor2正0.030.345.236.96-13.830.750.38Factor3正0.01-11.880.870.61Factor4负0.040.4511.889.06-13.391.310.89Factor5正0.030.462.167.49-20.090.290.11Factor6负0.040.395.598.83-19.350.630.29Factor7负0.040.496.669.51-5Factor8正0.010.156.727.75-11.580.870.58Factor9负0.020.241.546.85-14.880.220.1Factor10正0.020.169.3311.52-19.170.810.49Factor11负0.040.455.088.91-11.230.570.45Factor12负0.040.291.8612.35-29.990.150.06Factor13正0.020.173.899.85-16.440.390.24Factor14负0.020.326.116.8-Factor15负0.030.322.827.33-16.020.380.18资料来源:天软科技、1检验因子1的逻辑为换手率与成交额20日时序协方差与换手率相较于20日前变化率之和。从因子的检验结果来看,因子的IC均值较高,但是从因子五组分层情况来看,第一组与第五组收益曲线区分较为明显,其他组合区分度不高;因子多空组合表现一般,Sharpe比率与Calmar比率不高。𝐹𝑎𝑐𝑡𝑜𝑟1=𝑎𝑑𝑑(𝑡𝑠_𝑐𝑜𝑣(𝑡𝑢𝑟𝑛,𝑎𝑚𝑡,20),𝑡𝑠_𝑐ℎ𝑔(𝑡𝑢𝑟𝑛,20))图3、因子1五分层 图、因子1多净值资料来源:天软科技、
资料来源:天软科技、表4、因子1统计指标因子IC因子ICIR多空年化收益(%)波动率(%)最大回撤(%)SharpeCalmar0.030.376.089.21-16.950.660.36资料来源:天软科技、2检验因子2的逻辑为成交额过去20日均值与标准差之比。从因子的检验结果来看,因子的IC均值较高,为0.03,但是因子的五组分层效果不明显;从因子多空组合的表现来看,多空年化收益较低,为5.23%,但波动率较低,Sharpe比率较高,为0.75。𝐹𝑎𝑐𝑡𝑜𝑟2=𝑡𝑠_𝑚𝑠(𝑎𝑚𝑡,20)图5、因子2五分层 图、因子2多净值资料来源:天软科技、 资料来源:天软科技、表5、因子2统计指标因子IC因子ICIR多空年化收益(%)波动率(%)最大回撤(%)SharpeCalmar0.030.345.236.96-13.830.750.38资料来源:天软科技、3检验因子3首先计算换手率与成交额时序上10日相关系数,再计算该系数的5日标准差。从因子的检验结果来看,因子的IC均值较低,仅有0.01,且因子的五组分层效果不明显;但因子多空组合的表现较好,多空组合的年华收益有7.3%,Sharpe比率与Calmar比率较高。𝐹𝑎𝑐𝑡𝑜𝑟3=𝑡𝑠_𝑠𝑡𝑑(𝑡𝑠_𝑐𝑜𝑟𝑟(𝑡𝑢𝑟𝑛,𝑎𝑚𝑡,10),5)图7、因子3五分层 图、因子3多净值资料来源:天软科技、 资料来源:天软科技、表6、因子3统计指标因子IC因子ICIR多空年化收益(%)波动率(%)最大回撤(%)SharpeCalmar0.01-11.880.870.61资料来源:天软科技、4检验因子4是当前换手率与成交额的乘积。从因子的五组分层情况来看,因子的分层效果较好,且因子的IC均值和ICIR值均较高;因子多空组合的表现较好,组合的年化收益较高,有11.88%;组合的Sharpe比率超过1,达到1.31。𝐹𝑎𝑐𝑡𝑜𝑟4=𝑚𝑢𝑙(𝑡𝑢𝑟𝑛,𝑎𝑚𝑡)图9、因子4五分层 图10、因子4空值资料来源:天软科技、
资料来源:天软科技、表7、因子4统计指标因子IC因子ICIR多空年化收益(%)波动率(%)最大回撤(%)SharpeCalmar0.040.4511.889.06-13.391.310.89资料来源:天软科技、5检验因子5是开盘价截面分位数与成交额截面分位数的差值。从单因子的检验结果来看,因子的分层效果不佳,但IC均值和ICIR值较高;因子的多空组合表现较差,组合的年化收益仅有2.16%,且最大回撤较大,有20.09%。𝐹𝑎𝑐𝑡𝑜𝑟5=𝑟𝑎𝑛𝑘_𝑠𝑢𝑏(𝑜𝑝𝑒𝑛,𝑎𝑚𝑡)图11、因子5组层 图12、因子5空值资料来源:天软科技、 资料来源:天软科技、表8、因子5统计指标因子IC因子ICIR多空年化收益(%)波动率(%)最大回撤(%)SharpeCalmar0.030.462.167.49-20.090.290.11资料来源:天软科技、6检验因子6首先计算最高价和换手率时序上10日相关系数,再计算该系数过去20日均值。从因子的单因子检验结果来看,因子的五组分层效果较好,且因子的IC均值较高,有0.04;但因子多空组合表现较差,组合的年化收益仅有5.59%,且最大回撤较大,达到19.35%。𝐹𝑎𝑐𝑡𝑜𝑟6=𝑡𝑠_𝑚𝑒𝑎𝑛(𝑡𝑠_𝑐𝑜𝑟𝑟(ℎ𝑖𝑔ℎ,𝑡𝑢𝑟𝑛,10),20)图13、因子6组层 图14、因子6空值资料来源:天软科技、 资料来源:天软科技、表9、因子6统计指标因子IC因子ICIR多空年化收益(%)波动率(%)最大回撤(%)SharpeCalmar0.040.395.598.83-19.350.630.29资料来源:天软科技、7检验因子710IC0.04,且Sharpe比率和Calmar𝐹𝑎𝑐𝑡𝑜𝑟7=𝑚𝑢𝑙(𝑙𝑜𝑔(𝑡𝑢𝑟𝑛),𝑡𝑠_𝑠𝑡𝑑(𝑎𝑚𝑡,10))图15、因子7组层 图16、因子7空值资料来源:天软科技、 资料来源:天软科技、表10、因子7统计指标因子IC因子ICIR多空年化收益(%)波动率(%)最大回撤(%)SharpeCalmar0.040.496.669.51-5资料来源:天软科技、8检验因子810日均值。从因子的检验结果来看,因子的分层效果一般,且因子的IC值较低,仅有0.01,ICIR仅有0.15化收益不高,但是波动率和最大回撤均较小,Sharpe比率和Calmar比率较高。𝐹𝑎𝑐𝑡𝑜𝑟8=𝑡𝑠_𝑚𝑒𝑎𝑛(𝑡𝑠_𝑐𝑜𝑟𝑟(ℎ𝑖𝑔ℎ,𝑡𝑢𝑟𝑛,10),20)图17、因子8组层 图18、因子8空值资料来源:天软科技、 资料来源:天软科技、表11、因子8统计指标因子IC因子ICIR多空年化收益(%)波动率(%)最大回撤(%)SharpeCalmar0.010.156.727.75-11.580.870.58资料来源:天软科技、9检验因子9首先计算日度收益率与收盘价的截面排序差值,再计算日度收益率相对于10日前变化率,最后计算两个指标的截面排序差值。从因子的检验结果来看,五组分层效果一般,因子的IC均值和ICIR值不高;多空组合的表现较差,年化收益仅有1.54%,Sharpe比率和Calmar比率均较低。𝐹𝑎𝑐𝑡𝑜𝑟9=𝑟𝑎𝑛𝑘_𝑠𝑢𝑏(𝑟𝑎𝑛𝑘_𝑠𝑢𝑏(𝑟𝑒𝑡,𝑐𝑙𝑜𝑠𝑒),𝑡𝑠_𝑐ℎ𝑔(𝑟𝑒𝑡,10))图19、因子9组层 图20、因子9空值资料来源:天软科技、 资料来源:天软科技、表12、因子9统计指标因子IC因子ICIR多空年化收益(%)波动率(%)最大回撤(%)SharpeCalmar0.020.241.546.85-14.880.220.1资料来源:天软科技、因子10检验因子10首先计算开盘价相较于60日前变化率,再计算该指标10日前值,最后计算该值近60因子的IC均值不高,为0.02Calmar𝐹𝑎𝑐𝑡𝑜𝑟10=𝑡𝑠_𝑚𝑒𝑎𝑛(𝑡𝑠_𝑑𝑒𝑙𝑎𝑦(𝑡𝑠_𝑐ℎ𝑔(𝑜𝑝𝑒𝑛,60),10),60)图21、因子10五组层 图22、因子10多空值资料来源:天软科技、 资料来源:天软科技、表13、因子10统计指标因子IC因子ICIR多空年化收益(%)波动率(%)最大回撤(%)SharpeCalmar0.020.169.3311.52-19.170.810.49资料来源:天软科技、检验因子11为换手率与日度收益率时序60日的协方差。从因子的分层情况来看,第三组至第五组区分效果不佳,单因子的IC均值和ICIR值较高;从因子多空组合的表现来看,多空年化收益较低,仅有5.08%,Sharpe比率和Calmar比率均较低。𝐹𝑎𝑐𝑡𝑜𝑟11=𝑡𝑠_𝑐𝑜𝑣(𝑡𝑢𝑟𝑛,𝑟𝑒𝑡,60)图23、因子11五组层 图24、因子11多空值资料来源:天软科技、 资料来源:天软科技、表14、因子11统计指标因子IC因子ICIR多空年化收益(%)波动率(%)最大回撤(%)SharpeCalmar0.040.455.088.91-11.230.570.45资料来源:天软科技、因子12检验因子12为开盘价与最低价比值近60日均值。从因子的分层情况来看,因子的整体分层效果较差,单因子的IC均值有0.04,ICIR较低;从因子多空组合的表现来看,多空年化收益较低,仅有1.86%,最大回撤较大,Sharpe比率和Calmar比率均较低。𝐹𝑎𝑐𝑡𝑜𝑟12=𝑡𝑠_𝑚𝑒𝑎𝑛(𝑑𝑖𝑣(𝑜𝑝𝑒𝑛,𝑙𝑜𝑤),60)图25、因子12五组层 图26、因子12多空值资料来源:天软科技、
资料来源:天软科技、表15、因子12统计指标因子IC因子ICIR多空年化收益(%)波动率(%)最大回撤(%)SharpeCalmar0.040.291.8612.35-29.990.150.06资料来源:天软科技、因子13检验因子13首先计算最低价近20日均值与标准差之比,再计算日收益率近20日均值与标准差之比,最后计算这两个指标截面分位数之和。从因子的分层情况来看,因子的整体分层效果较差,IC均值为0.02,ICIR较低;因子的多空组合表现较差,年化收益仅有3.89%,Sharpe比率和Calmar比率均较低。𝐹𝑎𝑐𝑡𝑜𝑟13=𝑟𝑎𝑛𝑘_𝑎𝑑𝑑(𝑡𝑠_𝑚𝑠(𝑙𝑜𝑤,20),𝑡𝑠_𝑚𝑠(𝑟𝑒𝑡,20))图27、因子13五组层 图28、因子13多空值资料来源:天软科技、 资料来源:天软科技、表16、因子13统计指标因子IC因子ICIR多空年化收益(%)波动率(%)最大回撤(%)SharpeCalmar0.020.173.899.85-16.440.390.24资料来源:天软科技、因子14检验因子14是开盘价近60日偏度。从因子的分层情况来看,因子在2017至2021年期间分层效果较差,2022年至今分层效果有所提升,因子的IC均值为0.02;因子的多空组合表现较好,虽然组合的年化收益较低,但波动率和最大回撤均较小,因此Sharpe比率和Calmar比率较高。𝐹𝑎𝑐𝑡𝑜𝑟14=𝑡𝑠_𝑠𝑘𝑒𝑤(𝑜𝑝𝑒𝑛,60)图29、因子14五组层 图30、因子14多空值资料来源:天软科技、 资料来源:天软科技、表17、因子14统计指标因子IC因子ICIR多空年化收益(%)波动率(%)最大回撤(%)SharpeCalmar0.020.326.116.8-资料来源:天软科技、因子15检验因子15是最高价近20日偏度。从因子的分层情况来看,第五组分层情况较差,因子的IC均值较高,为0.03;因子的多空组合表现较差,年化收益仅有2.82%,Sharpe比率和Calmar比率均较低。𝐹𝑎𝑐𝑡𝑜𝑟15=𝑡𝑠_𝑠𝑘𝑒𝑤(ℎ𝑖𝑔ℎ,20)图31、因子15五组层 图32、因子15多空值资料来源:天软科技、 资料来源:天软科技、表18、因子15统计指标因子IC因子ICIR多空年化收益(%)波动率(%)最大回撤(%)SharpeCalmar0.030.322.827.33-16.020.380.18资料来源:天软科技、因子相关性检验及合成我们对遗传规划模型挖掘出来的15个量价因子进行相关性检验,由于不考虑因子的直观逻辑,我们直接对相关性较高的因子进行合成,再与其他相关性低的因子合成最终的因子。最后,对该因子进行单因子检验。因子相关性检验1、因子70.7至0.8表19、挖掘因子相关性矩阵资料来源:天软科技、因子合成我们对相关性较高的因子1、因子4、因子7进行等权合成,再将该合成因子与其余因子等权合成,构建最终的遗传规划算法挖掘因子。对合成因子进行单因子检验,因子的分层效果较好,因子的IC均值和ICIR均较高;从多空组合的表现来看,组合的年化收益较高,达到17.84%,波动率和最大回撤均较小,且Sharpe比率和Calmar比率均较高,Sharpe比率为2,Calmar比率有1.41。图33、合因子组层 图34、合因子空值资料来源:天软科技、
资料来源:天软科技、表20、合成因子统计指标因子IC因子ICIR多空年化收益(%)波动率(%)最大回撤(%)SharpeCalmar0.070.7717.848.94-12.6821.41资料来源:天软科技、基于遗传规划因子策略构建本篇报告采用《20220330湘财证券-多因子量化选股系列之二——中证500指数增强策略》报告中策略构建的方法,基于遗传规划合成因子构建中证
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 房屋租赁协议模板则集合同三篇
- 2026年中药治疗湿疹实践技能卷及答案(专升本版)
- 2026年未来交通工具的机械创新设计
- 2026年工业自动化设备的维保趋势
- 2026年电气行业智能转型的市场路径
- 园林景观设计施工图深化与实施方案
- 虚拟电厂需求侧管理与电力负荷平衡方案
- 2026年雨水利用与城市水管理
- 渔区光伏组件布局设计
- 2026年车床加工工艺与管理
- 《电力设备典型消防规程》考试复习题库(含答案)
- 英语人教新目标七年级下册My favorite animals
- JJF 1986-2022 差压式气密检漏仪校准规范
- JJF 2034-2023微生物鉴定与药敏分析系统校准规范
- 《公共政策学-政策分析的理论方法和技术》重点解析讲述
- python课件第三章基本数据类型:数字类型及math库的应用
- 2023年毛概题库连答案
- GB/T 14056.2-2011表面污染测定第2部分:氚表面污染
- CB/T 615-1995船底吸入格栅
- 资本经营课件
- 马工程西方经济学(第二版)教学课件-8
评论
0/150
提交评论