机器学习因子选股月报_第1页
机器学习因子选股月报_第2页
机器学习因子选股月报_第3页
机器学习因子选股月报_第4页
机器学习因子选股月报_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

目录TOC\o"1-2"\h\z\u前言 1GAN_GRU模型简介 1GRU模型基本假设 1GAN模型简介 2GAN特征生成模型构建 4GAN_GRU因子表现 6GAN_GRU因子多头组合 7风险提示 8图目录图1:深度学习选股模型结构 2图2:生成对抗网络(GAN)模型示意 4图3:卷积神经网络(CNN)模型示意 5图4:GAN_GRU模型示意 5图5:GAN_GRU因子各行业近期IC表现 6图6:GAN_GRU因子各行业近期多头组合表现 7表目录表1:深度学习选股量价特征表 1表2:GAN_GRU因子历史表现 6表3:2025年11月末模型输出各行业排名第一个股 7表4:因子得分排名前十的个股 8前言(20247日)GAN_GRUGAN_GRU年以来表现情况。其中GAN_GRU因子为利用生成式对抗神经网络GAN模型进行量价时序特征处理后再利用模型进行时序特征编码得到的选股因子。模型简介模型基本假设前期报告《量价时序特征挖掘模型在深度学习因子中的应用》中,主要构建了GRU+MLP的神经网络股票收益预测基本模型,其中模型细节如下:量价特征:包括收盘价、开盘价、成交量、换手率等在内的18个量价特征。调仓频率:以月频调仓方式进行预测和回测。训练与预测方式:训练数据及输入特征设定:所有个股过去400天内的18个量价特征,每5个交易日做一次特征采样。特征采样形状为4018,即利用过去40天的量价特征来预测未来20个交易日的累计收益。训练集验证集比例:80%:20%。数据处理:每次采样的40天内,每个特征在时序上去极值标准化、每个特征在个股层面上截面标准化。模型训练方式:的预测,训练时间点为每年的6301231日。股票筛选方式:ST及上市不足半年的股票。训练样本筛选方式:为空值的样本。超参数:batch_size为截面股票数量、优化器Adam、学习速率、损失函数、早停轮数、最大训练轮数。表1:深度学习选股量价特征表特征名称特征助记符特征说明频次前收盘价PrevClosePrice当日前一天收盘价日频特征开盘价OpenPrice当日开盘价收盘价ClosePrice当日收盘价最高价HighPrice当日最高价最低价LowPrice当日最低价成交量(万股)TurnoverVolume当日成交量成交金额(万元)TurnoverValue当日成交金额特征名称特征助记符特征说明频次涨跌幅(%)ChangePCT当日涨跌幅振幅(%)RangePCT当日振幅换手率(%)TurnoverRate当日换手率均价AvgPrice当日均价月成交金额(万元)TurnoverValueRM当月成交金额月频特征月涨跌幅(%)ChangePCTRM当月涨跌幅月振幅(%)RangePCTRM当月振幅月换手率(%)TurnoverRateRM当月换手率月收盘最高价(元)HighestClosePriceRM当月收盘价最高价月收盘最低价(元)LowestClosePriceRM当月收盘价最低价月日均换手率(%)TurnoverRatePerDayRM当月日均换手率、恒生聚源、整理图1:深度学习选股模型结构南证券GRU(128,128)MLP(256,64,64),作为选股因子。对因子的测试均建立在对因子已做行业市值中性化标准化处理,后文将不再赘述。模型简介GAN生成式对抗网络(GenerativeAdversarialNetworks,GANs是由Goodfellow等人于(Generator)和判别器(Discriminator)两个部分。生成器的目标是生成看起来真实的数据,判别器目标是区分真实数据和生成器生成的数据。两者在训练过程中相互竞争,从而使生成器生成的数据越来越逼真。生成器(G)声(通常是高斯分布或均匀分布)作为输入,通过一系列的非线性变换生成数据。生成器的真实的,因此生成器的目标是最大化判别器输出为真的概率,其损失函数可以写为:𝐿𝐺=−𝔼𝑧~𝑃𝑧(𝑧)[log(𝐷(𝐺(𝑧)))]其中z(一般为服从高斯分布的随机噪声𝐺()表示生成器生成的数据,𝐷(𝐺(𝑧))表示为判别器对生成数据的输出概率,即判别器判断生成器生成数据为真实数据的概率。生成器的训练过程可以分为以下几个步骤:生成噪声数据:。生成假数据:通过生成器𝐺将噪声数据z转换成生成数据𝐺(𝑧)。计算生成器损失:将生成的数据输入判别器D,计算生成器的损失𝐿𝐺。反向传播和更新生成器参数下降算法更新生成器的参数,以最小化损失𝐿𝐺。判别器(D)个概率,表示输入数据为真实数据的概率。判别器的损失函数由两部分组成:一部分是对真实数据的损失,另一部分是对生成数据的损失。具体来说,判别器希望最大化对真实数据的输出概率,同时最小化对生成数据的输出概率,其损失函数可以表示为:𝐿𝐷=−𝔼𝑥(𝑥)[logD(𝑥)]−𝔼𝑧~𝑃𝑧(𝑧)[log(1−𝐷(𝐺(𝑧)))]其中,𝑥是真实数据,D(𝑥)是判别器对真实数据的输出概率,𝐷(𝐺(𝑧)))是判别器对生成数据的输出概率。生成器的训练过程可以分为以下几个步骤:(1)采样真实数据:从真实数据分布中采样一组真实数据𝑥。(2)生成假数据:从随机噪声分布中采样一组噪声𝑧,并通过生成器𝐺生成数据𝐺(𝑧)。(3)计算判别器损失:将真实数据𝑥和生成数据𝐺(𝑧)输入判别器𝐺,计算判别器损失𝐿𝐷。(4)反向传播更新判别器参数:通过反向传播算法计算判别器的梯度,并使用梯度下降算法更新判别器的参数,以最小化损失𝐿𝐷。模型(G+D)GAN的训练过程是生成器和判别器交替训练的过程,具体步骤参考如下:Step1.初始化生成器和判别器的参数。Step2.迭代训练过程:训练判别器:从真实数据分布中采样一组真实数据。从随机噪声分布中采样一组噪声数据z,并通过生成器G生成数据G(z)。计算判别器损失LD并更新判别器参数。训练生成器:从随机噪声分布中采样一组噪声数据𝑧。通过生成器𝐺生成数据𝐺(𝑧)。计算生成器损失𝐿𝐺并更新生成器参数。Step3.重复上述步骤,直到收敛。通过这种对抗训练,生成器生成特征的能力逐渐提升,其生成的特征也越来越逼真,而判别器区分真假特征的能力也在逐渐提升,变得越来越擅长区分真假特征。理想状态下,生成模型能够生成无法被判别模型区分的完美数据样本,判别模型无法区分真实样本与生成样本。图2:生成对抗网络(GAN)模型示意南证券特征生成模型构建LSTM生成器+CNN判别器:为了适配本文的量价特征模式,希望处理后的特征仍然能保留时序的性质,因此本文采取可以保留输入特征时序性的LSTM模型做为生成器(G)。而量价时序特征本质上是二维数据特征图片,因此本文则采取常用于二维图像处理的CNN模型做为识别特征的判别器(卷积神经网络(的深度学习模型,核心思想是利用卷积层和池化层来有效地提取输入数据的特征。能够逐渐学习到输入数据的抽象特征,从而实现对复杂模式的学习和识别。本文将CNN模型用以匹配二维构造的量价时序特征,并学习量价时序二维特征图片的内在特性。图3:卷积神经网络(CNN)模型示意南证券对于训练完成的GAN模型,本文利用其中的生成器部分进行特征生成,具体生成器生成特征的过程为输入原始量价时序特征,Input_Shape=(40,18),输出经LSTM处理后的量价时序特征,Input_Shape=(40,18)。图4:GAN_GRU模型示意南证券因子表现自2019年1月至2025年11月,月频调仓的基础上,GAN_GRU因子在全A范围内IC均值0.1131,多头组合年化超额收益率23.14%;截至2025年11月27日,GAN_GRU最新一期IC为0.1241,近一年IC均值为0.0867。(IC测试中、、分别代表参数在1%、5%、10%的显著性水平下显著,下同,不再特殊强调)。表2:GAN_GRU因子历史表现ICICIR(未年化)换手率近期IC近一年IC0.11310.900.830.12410.0867年化收益率年化波动信息比率最大回撤率年化超额收益率37.52%23.52%1.5927.29%23.14%、,截至2025年11月27日在申万一级行业分类下,测试GAN_GRU因子近期在各个行业内部的表现。截至2025年11月,10月当期因子IC排名前五的行业(除综合)分别为社会服务、房地产、钢铁、非银金融、煤炭、商贸零售,IC分别为0.2198、0.2027、0.1774、0.1754以及0.1537;近一年因子IC均值排名前五的行业(除综合)分别为非银金融、钢铁、商贸零售、纺织服饰、公用事业行业,IC均值分别为0.1401、0.1367、0.1152、0.1124以及0.1092。图5:GAN_GRU因子各行业近期IC表现、整理,截至2025年11月27日GAN_GRU月,月当期多头组合超额收益最高的五个行业(除综合织服饰、建筑材料,多头组合相对行业指数超额收益分别为7.24%4.37%4.03%3.89%2.91%30个申万一级行业(除综合)5个行业多头组合未跑赢行业指数。近一年来看,多头组合月平均超额收益最高的五个行业(除综合)分别为建筑材料、房地产、社会服务、纺织服饰、商贸零售,超额收益分别为2.15%、1.97%、1.77%、1.71%以及1.62%。且30个申万一级行业(除综合)中,除通信行业以外,GAN_GRU因子多头组合近一年,仅有2个行业未跑赢对应申万一级行业指数(煤炭、通信。图6:GAN_GRU因子各行业近期多头组合表现、整理,截至2025年11月27日因子多头组合27GAN_GRU模型输出的多头组合(A股因子10%)内,筛选出各申万一级行业(除综合行业)内排名第一的股票如下:表3:2025年11月末模型输出各行业排名第一个股代码简称申万一级行业代码简称申万一级行业002393.SZ力生制药医药生物600195.SH中牧股份农林牧渔600395.SH盘江股份煤炭600901.SH江苏金租非银金融001288.SZ运机集团机械设备300051.SZ琏升科技电力设备601801.SH皖新传媒传媒601939.SH建设银行银行300674.SZ宇信科技计算机600533.SH栖霞建设房地产603826.SH坤彩科技基础化工002956.SZ西麦食品食品饮料600938.SH中国海油石油石化301381.SZ赛维时代商贸零售601518.SH吉林高速交通运输688363.SH华熙生物美容护理301039.SZ中集车辆汽车300196.SZ长海股份建筑材料603324.SH盛剑科技环保600509.SH天富能源公用事业002139.SZ拓邦股份电子301135.SZ瑞德智能家用电器603195.SH公牛集团轻工制造000959.SZ首钢股份钢铁代码简称申万一级行业代码简称申万一级行业002375.SZ亚厦股份建筑装饰600862.SH中航高科国防军工002123.SZ梦网科技通信000526.SZ学大教育社会服务002721.SZ金一文化纺织服饰300224.SZ正海磁材有色金属、,截至2025年11月27日根据因子得分筛选排名前10的股票为力生制药、盘江股份、运机集团、皖新传媒、千宇信科技、坤彩科技、中国海油、吉林高速、中集车辆、中炬高新:表4:因子得分排名前十的个股代码简称申万一级行业1002393.SZ力生制药医药生物26

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论