Transformer架构下的量价选股策略分析报告:ChatGPT核心算法量化投资_第1页
Transformer架构下的量价选股策略分析报告:ChatGPT核心算法量化投资_第2页
Transformer架构下的量价选股策略分析报告:ChatGPT核心算法量化投资_第3页
Transformer架构下的量价选股策略分析报告:ChatGPT核心算法量化投资_第4页
Transformer架构下的量价选股策略分析报告:ChatGPT核心算法量化投资_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

金融工程|专题报告2023年4月6日捕捉输入序列各位置之间的关系。自注意力机制通过计算query向量与key向量的相关性来加权平均value矩阵,得到输出结果;而多头注意力机制则利用并行计算和拆分矩阵为多个头的方式,在自注意力网络模型,由位置编码、编码层和解码层组成。位置编码使用正弦和余弦函数计算单词位置信息,编码器将序列中各位置之间关系的信息模型同时具备并行计算和高效捕捉关系的能力,被广泛应用于自然语于股票涨跌预测中,选取个股涨跌幅和换手率作为面板数据输入,通过输出股票未来涨跌概率进行分类。在月度调仓策略中,中证500、沪深300和全市场选股自2020年以来均获得良好的相对收益与较强●相对于传统神经网络的优势:1.处理长期记忆;2.变长输入序列;3.并行计算效率;4.预训练模型提高泛化能力。●风险提示:策略模型并非百分百有效,市场结构及交易行为的改变以及类似交易参与者的增多有可能使得策略失效。本篇报告通过历史数据进行建模,但由于市场具有不确定性,模型仅在统计意义下有望获图1:中证500选股多空对冲净值图1:中证500选股多空对冲净值图2:中证500选股指数对冲净值图2:中证500选股指数对冲净值七目录索引 4 6 9 9 三、策略实证分析 (二)沪深300选股实证分析 21 22六、风险提示 22图表索引图1:ChatGPT模型训练步骤图 4 5图3:多头注意力机制结构图 6图4:Transformer模型整体结构图 图5:位置编码中的正弦和余弦函数示例图 8图6:股票样本筛选示意图 图9:中证500选股Transformer因子的分档累积收益率 图10:中证500选股多空对冲策略净值曲线 图11:中证500选股指数对冲策略净值曲线 图12:中证500选股多头组合每期换手率 图13:交易成本提高之后的中证500选股指数对冲策略表现 图14:不同epoch参数(横轴)下的多头组合收益率 图15:沪深300选股Transformer因子的分档表现 图16:沪深300选股指数对冲策略净值曲线 图18:全市场选股多空对冲策略净值曲线 表1:中证500选股指数对冲策略分年度表现 表2:不同交易成本下的中证500选股指数对冲策略表现 表3:沪深300选股指数对冲策略分年度表现 表4:全市场选股多空对冲策略分年度表现 21ChatGPT是美国人工智能研究公司OpenAl研发和训练的一款基于GPT算法的基于人类的反馈对模型进行强化学习的优化。与传统对话式语言模型相比,O-00=0目目目GPT(GenerativePre-trainedTransformer,生成型预训练转换模型)是一种基于海量数据预训练的深度学习文本生成模型,自2018年问世以来,经历了多轮迭代和优化,目前ChatGPT使用的GPT-3.5模型中神经网络的参数超过1750亿个,是整。2023年2月8日,微软宣布将OpenAI的GPT-4模型集成到其搜索引擎Bing以及Edge浏览器中,这意味着GPT-4将能够更加直接地服能的搜索和交互体验;同时,OpenAl也于2023年3月15日正式推出了大型多模态模型GPT-4,该模型能够同时处理语音、图像、文本等多种输入,并生成高质量的自GPT模型的诞生,离不开其背后的核心算法:Transformer。Transformer模型的模型框架,而是通过引入注意力机制来有效地捕捉输入序列中各位置之间的相关性,建立输入和输出之间的全局依赖关系。因此,相比于传统循环神经网络,Q、K、V中每一列代表一个词向量(输入样本)。原来的大小。图2:自注意力机制结构图ScaledDot-ProductA多头注意力机制不是将多个自注意力机制简单叠加,而是将多个样本的自注意过一层线性变换得到多头注意力机制的输出矩阵,可以表示为:金融工程|专题报告MultiHead(Q,K,V)=concat(head,head₂,.,head₆)W。多头注意机制计算代价与单头自注意力机制几乎相同,并可以通过并行运算减示子空间的信息,提高模型训练效果。h下图为Transformer模型的整体结构,主要由位置编码(PostionalEncoding)、编码层(Encoder)和解码层(Decoder)组成。位置编码的作用是在词向量中加入了单词在句子中的位置信息;编码器的作用是将序列中各位置之间关系的信息进行编码并输出;解码器的作用是使用编码器输出的序列信息逐个词进行预测。金融工程|专题报告1.位置编码由于Transformer模型中没有使用循环的模型框架,直接利用全局信息,没有利用单词的顺序信息,因此必须在词嵌入生成的词向量矩阵中加入单词的相对或绝对位置信息。Transformer模型使用不同频率的正弦和余弦函数计算位置编码:其中pos表示单词在句中的位置,d是词向量矩阵的行维度,i是位置编码向量中元素的位置。2i表示偶数维度,2i+1表示奇数维度,即位置编码的每个维度对应一个正弦/余弦函数。与其他位置编码方式相比,该编码方式可以使模型很容易地计算出不同单词之间的相对位置,因为PEpos+)可以表示为PEpos)的线性函数,同时正弦和余弦函数还可以允许模型拓展到比训练中遇到的序列更长的序列。数据:广发证券发展研究中心加快模型的收敛。3.解码器由于Transformer模型是逐个单词进行预测,因此解码器是串行进行的,每一步会利用上一步的输出进行预测。在预测第一个单词时,解码器的输入为序列开始标签<BOS>,输出为第一个单词的预测;而在预测第二个单词时,解码器的输入为(一)Transformer模型在股票涨跌预测中的应用在股票预测模型中,一般会输入多个特征的时序数据,即面板数据。虽然般为一个值(回归问题)或涨跌概率(分类问题),因此我们对解码器进行简化,金融工程|专题报告本报告主要从个股过去20个月的月度量价数据中选取特征序列,每期的每只股其中return表示股票每月涨跌幅;turnover表示股票每月换手率(每日换手率之和)。原始特征数据中存在一些缺失值和异常值,且不同特征之间取值范围存在差1.缺失值处理当股票某一时刻的特征值缺失时(上市不满20个月的情况除外),使用上一时2.极值、异常值处理当股票的特征显著偏离同时刻股票特征数据时,设置边界阈值进行极值处理。上边界为同时刻特征数据的均值加三倍标准差;下边界为同时刻特征数据的均值减三倍标准差。当特征值超过上边界时用上边界替代;低于下边界时用下边界替代。3.截面标准化Z-Score标准化将特征处理为均值为0,方差为1的数据:股票涨跌预测模型是希望预测出相对强势的股票,获得超额收益,因此我们对于每一时刻的所有股票,根据未来一个月的涨跌幅来给不同的股票添加“上涨”、“平盘”、“下跌”的“标签”。同时为了使不同标签样本之间的区别更明显且样本数对每月对样本内的所有股票按下个月相对基准的超额涨跌幅进行排序,取涨幅前20%的股票,标记为“上涨”;取涨幅居中20%的股票(涨幅位于40%分位数到60%分位数之间),标记为“平盘”;取涨幅末20%的股票,标记为“下跌”。通过样本筛选,使得不同标签样本之间的区别更明显。如果不进直接将所有股票按下个月的涨跌幅三等分,则位于不同标签分隔处的两只股票会被划分至不同标签,但实际上两者之间的差异并没有那么大,这样的划分不利于机器图6:股票样本筛选示意图(三)模型的参数选择和整体结构[20,2](输入层)→[20,64](线性层)→8×[20,8](编码层1)→8码层2)→8×[20,8](编码层3)→8×[20,8](编码层4)→8×[20,8](编码层5)→8×[20,8](编码层6)→8×[20,8](解码层1)→8×[20,8](解码层2)→8×[20,8](解码层3)→8×[20,8](解码层4)→8×[20,8]((一)中证500选股实证分析测。从2000年至2019年获取样本进行训练,在2020年到2023年(样本外),用训识别风险,发现价值图7:中证500选股Transformer因子的IC和秩IC序列图055数据:Wind,广发证券发展研究中心第一档一第二档一第三档一第四档—第五档2020-01-312021-01-312022-01-31数据:Wind,广发证券发展研究中心0数据:Wind,广发证券发展研究中心假设可以卖空最低档(第五档)的股票,买入最高档(第一档)的股票,多空对冲策略自2020年以来,策略的年化收益率为18.51%,最大回撤为-9.46%,日度胜率为55.05%。数据:Wind,广发证券发展研究中心识别风险,发现价值为9.58%,最大回撤为-3.62%,日度胜率为54.40%。数据:Wind,广发证券发展研究中心——控制在-4%以内(注:2020年数据从2020年1月31日开始;2023年数据截止到2023表1:中证500选股指数对冲策略分年度表现-2.13%识别风险,发现价值金融工程|专题报告数据:Wind,广发证券发展研究中心前文中是按照0.3%的双边交易成本进行测算,如果将交易成本依次提高到0.4%,所下滑,但总体表现稳定。千分之三千分之三千分之四一千分之五——千分之六数据:Wind,广发证券发展研究中心-4.12%识别风险,发现价值在前文中证500选股实证分析中,由于需要处理一定规模的训练数据(约6万个样本),为了提高计算效率并增强模型的泛化能力,避免过拟合,我们将batchsize设置为128;同时,我们还在模型的收敛速度和稳定性上取一个折中,将学习率设置较小时,多头组合的收益率较低且存在较大波动;迭代次数过大时,模型已经接近收敛,且存在一定的过拟合,多头组合的收益率同样较低且不稳定;而epoch在38(二)沪深300选股实证分析的回测。从2000年至2019年获取样本进行训练,在2020年到2023年(样本外),股票池:沪深300成份股,剔除交易日停牌的股票回测期:2020年1月至2023年3月交易成本:双边0.3%以1个月为调仓周期,在每一次调仓时,按照因子值的大小将股票分为5档,测2020-01-312021-01-312022-01-312023-01-31数据:Wind,广发证券发展研究中心从上图可以看到,Transformer因子值大的股票整体表现优于Transformer因子值小的股票,分档的单调性相对中证500成分股选股要差一些。2.沪深300选股-指数对冲策略实证分析以沪深300指数为对冲标的,指数对冲策略自2020年以来,策略的年化收益率为8.52%,最大回撤为-7.26%,日度胜率为52.85%。沪深300净值沪深300净值■指数对冲收益率数据:Wind,广发证券发展研究中心识别风险,发现价值指数对冲策略分年度的收益回撤情况如下表所示,策略每年都获得了正收益,2020年和2021年策略的收益率都超过了10%。(注:2020年数据从2020年1月31日开始;2023年数据截止到2023年3月31日)-5.14%(三)全市场选股实证分析最后,本报告将股票池拓展至全市场A股,进行从2000年至2019年获取样本进行训练,在2020年到2023年(样本外),用训练好股票池:全市场股票(万得全A指数成份股),剔除交易日停牌的股票回测期:2020年1月至2023年3月交易成本:双边0.3%以1个月为调仓周期,在每一次调仓时,按照因子值的大小将股票分为5档,测试Transformer因子选股表现的单调性。回测期因子的分档表现和累积收益率情况如识别风险,发现价值图17:全市场选股Transformer因子的分档表现22一第二档—第三档2020-01-312021-01-312022-01-31数据:Wind,广发证券发展研究中心从上图可以看到,Transformer因子值大的股票整体表现优于Transformer因子假设可以卖空最低档(第五档)的股票,买入最高档(第一档)的股票,多空对冲策略自2020年以来,策略的年化收益率为15.58%,最大回撤为-12.09%,日度胜率为56.61%。多空对冲收益率(右轴)——多空对冲净值数据:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论