神经网络模型与股票收益率预测:基于沪深300指数的研究_第1页
神经网络模型与股票收益率预测:基于沪深300指数的研究_第2页
神经网络模型与股票收益率预测:基于沪深300指数的研究_第3页
神经网络模型与股票收益率预测:基于沪深300指数的研究_第4页
神经网络模型与股票收益率预测:基于沪深300指数的研究_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

神经网络模型与股票收益率预测:基于沪深300指数的研究内容提要:随着计算机技术的不断发展,基于神经网络模型的金融投资产品也越加丰富。本文基于目前较为前沿的TimeMixer模型,对2012年1月1日至2024年12月31日沪深300的指数成分股进行建模分析。基于真实股票量价数据,本文探究了TimeMixer模型对沪深300成分股的收益率预测效果,并基于预测结果构建量化交易策略。使用实证分析与回测验证相结合的研究方法,本文研究发现,TimeMixer模型在股票收益率预测任务上表现良好,根据模型预测结果构建的指标对量化策略有明显的改进结果。本文对个人投资者、机构、政策有多方面的启示意义。关键词:神经网络;TimeMixer;量化投资中图分类号:F832.5NeuralNetworkModelsandStockReturnPrediction:AStudyBasedontheCSI300IndexAbstract:Ascomputertechnologyadvances,neuralnetwork-basedfinancialproductsaregrowingrapidly.ThisstudyappliestheTimeMixermodeltopredictreturnsofCSI300indexstocks(2012–2024)usingrealvolume-pricedata.Combiningempiricalanalysisandbacktesting,wefindTimeMixerachievesstrongpredictiveaccuracy,enhancingquantitativetradingstrategies.Ourresultsofferactionableinsightsforinvestors,institutions,andpolicymakers.Keywords:NeuralNetwork;TimeMixer;QuantitativeInvestmentJEL:G11,C45一、引言在股票收益率预测领域,CAPM、Fama-French三因子模型等传统模型长期占据主导地位。传统模型往往通过线性假设刻画因子与收益率的关系,但随着市场复杂度的提升,传统模型在处理非线性特征等方面存在明显局限。随着计算机技术的发展,基于神经网络算法的量化投资产品也呈现增长趋势。相较于传统模型,神经网络算法通过多层感知机结构、非线性激活函数以及反向传播算法,能够更精准地刻画因子与股票收益率间的非线性关系,提供了更为丰富的策略选择。这使得基于机器学习的量化投资策略在收益预测的准确性和稳定性方面均展现出显著优势。近期,S.Wang,WuandShi(2024)提出了专门处理时间序列数据的神经网络模型TimeMixer,为金融预测领域提供了新的技术范式。本文主要使用了2012年1月1日至2024年12月31日沪深300指数成分股的行情数据,通过构建TimeMixer神经网络架构,研究了模型对股票收益率的预测效果,并探索了模型输出信号对于传统量化投资策略的提升作用。研究发现,TimeMixer模型在股票收益率预测任务上表现良好,相较于传统神经网络模型有明显提升,并且根据模型预测结果构建的指标对于传统量化策略有明显改进。本文后续内容按以下框架展开。在第一部分中,本文系统梳理了时间序列预测神经网络算法的发展历程以及在金融领域的应用。在第二部分中,本文详细阐释了TimeMixer模型的数学表达与算法实现,并且介绍了模型的训练过程。在第三部分中,本文介绍了研究使用的数据与处理方法。在第四部分中,本文展示了TimeMixer模型在股票预测任务中的表现,并且与其余神经网络模型进行对比。在第五部分中,本文基于TimeMixer模型的输出进行策略构建与回测研究,探究其对传统投资策略的改进作用。二、文献综述随着信息技术的快速迭代与人工智能理论的快速发展,神经网络在时间序列预测中的应用呈现出蓬勃发展的态势,相关研究不断取得突破性进展。早在二十世纪八十年代,学者们就提出了循环神经网络(RecurrentNeuralNetwork,RNN)这一模型,通过引入循环结构实现了序列信息的记忆与传递,并提出使用反向传播算法训练模型,为时间序列数据预测任务提供了全新的解决思路。然而,RNN在处理长距离依赖问题时存在梯度爆炸和梯度消失的问题,难以长距离传递有效信息。针对这一局限性,HochreiterandSchmidhuber(1997)引入了长短期记忆神经网络(LongShortTermMemory,LSTM),通过引入门控单元实现短期信息与长期信息的分别传递,显著提升了对较长时间序列数据的建模能力。Vaswanietal.(2017)在神经网络架构设计上取得了革命性突破,提出了基于自注意力机制的Transformer模型。该模型没有采用传统的循环结构,完全依赖注意力机制捕捉序列元素之间的依赖关系,不仅显著提升了模型的计算效率,还为后续大语言模型的发展奠定了理论基础,最终催生了ChatGPT等具有划时代意义的人工智能产品。由于金融市场的高波动性、随机性与高噪声特征,加之自变量和因变量之间的相关性往往随着时间不断变化,精准预测金融数据是一项复杂的任务。近年来,随着深度学习技术的快速发展,神经网络算法在捕捉金融数据非线性特征方面的优势逐渐受到学者关注,其在金融研究中的应用不断拓展。KainijoandTanigawa(1990)率先将RNN模型应用于股票价格变动模式识别,结果表明RNN能够捕捉股票价格的时间序列特征,对股票价格的变动有较为准确的识别能力。Xiong,NicholsandShen(2015)利用LSTM对S&P500波动率进行建模,结果表明LSTM模型对包含噪声的金融时间序列数据具有较强的预测能力。DiPersioandHonchar(2016)则系统比较了多层感知机(MultilayerPerceptron,MLP)、CNN和LSTM三种模型在预测S&P500第二天收盘价涨跌方面的准确性,研究发现三者之中CNN的预测效果最好。MogharandHamiche(2020)基于LSTM来预测Google和NKE资产的未来价值,证明LSTM模型可以对资产的开盘价进行较为准确的预测,这也充分展现了神经网络模型在金融时间序列预测中的潜力。Y.ZhangandYang(2021)全面回顾了神经网络技术在金融时间序列预测中的应用,研究表明神经网络模型在捕捉股票价格、汇率等金融时间序列的非线性特征方面表现出色。X.ChenandL.Wang(2020)概述了前馈神经网络、循环神经网络等多种神经网络架构在宏观经济预测与政策评估领域的应用,研究表明,与传统计量经济学方法相比,深度学习模型能更好地捕捉数据中的高阶非线性关系。J.LiandH.Zhang(2019)将ARIMA和深度学习技术相结合,混合模型在预测股票市场收益率方面表现出色。Jiang,KellyandXiu(2023)开创性地将卷积神经网络(CNN)应用到K线图像的识别与趋势预判,表明图像识别类模型也可以有效预测股票趋势。这些研究共同推动了深度学习在金融预测领域的深入应用,为应对金融市场的复杂性和不确定性提供了有力的工具和方法。在众多的神经网络模型中,Transformer凭借其独特的自注意力机制吸引了学术界和业界的广泛关注。C.Wang,Y.Chen,S.ZhangandQ.Zhang(2022)将Transformer应用于股票市场指数预测,在沪深300、标普500等全球主要指数的回测研究中验证了模型的有效性。Yañez,WKristjanpollerandMinutolo(2024)通过迭代测试与批量优化策略,证明Transformer变体在10个市场指数预测中全面优于LSTM等传统模型。Mishra,RenganathanandGupta(2024)提出融合Transformer与GARCH的混合架构,模型具有较好的风险预测效果以及较高的稳定性。虽然Transformer在捕捉复杂非线性关系方面表现出色,但其最初设计的目的是进行自然语言识别任务,而非时间序列预测。因此基于Transformer结构的时间预测模型在处理金融时间序列数据时存在一定的局限性。相关研究表明,在执行时间序列预测任务时,Transformer在计算效率和预测精度上都比不上专门为时间序列任务设计的的线性预测器。Dasetal.(2023)研究发现,时间序列密集编码器(TiDE)在长期预测任务中显著优于Transformer模型。Zengetal.(2023)也指出其在处理金融时间序列时的不足。近日,在国际表征学习大会上,S.Wangetal.(2024)提出了一种全新的纯多层感知机(MLP)架构的模型TimeMixer。该模型通过引入可分解的多尺度混合机制,在时序预测的性能和效率上全面超越了Transformer。在本文的研究中,本文使用TimeMixer模型进行股票收益率预测,系统探究该模型在金融预测任务中的表现,并进一步探索模型预测结果的实际应用价值。具体而言,本文基于模型输出的预测信号构建量化投资策略,以验证其在真实市场环境中的有效性和稳健性。三、分析模型(一)模型介绍Mozer(1991)的研究表明,不同尺度的时间序列数据具有不同的特性。精细尺度数据侧重于刻画数据的局部模式,而粗糙尺度的数据则更倾向于反应数据整体趋势。通过对时间序列数据进行不同尺度的拆解,本文可以更清晰地捕捉不同尺度下的序列信息,从而更好地实现时间序列预测。基于该理论框架,TimeMixer模型构建了多尺度分解-融合结构,对输入序列数据进行多尺度分层处理,分别提取各尺度的关键特征并进行整合,从而实现对多维时序信息的协同应用。具体结构如图1所示:图SEQ图\*ARABIC1TimeMixer网络结构图1.结构总览对于输入的时间序列,模型通过滑动窗口平均将原始序列分解为不同尺度的子序列,通过M次移动平均处理后,本文将获得一组时间序列数据,C代表模型输入股票因子的个数。其中,是原始输入时间序列,包含了最精细的时间序列特征;序列的长度为原序列的,主要用于识别时间序列的整体变化趋势。接下来模型使用多个堆叠的PDM(PastDecomposableMixing)模块混合不同尺度的数据信息。对于第l层,PDM的过程可以记作: 其中L是PDM层的总数量,,其中表示第l个PDM层的输入,为PDM层提取的特征数量。关于PDM层的计算过程在后文展开。接下来,模型使用FMM(FutureMultipredictorMixing)模块来混合中包含的多尺度特征,并生成收益率预测。该过程的公式如下: 其中,为模型的最终预测结果。2.PDM(PastDecomposableMixing)模块介绍对于分解后得到的序列集合,其中的每一个序列都具有清晰的趋势性和季节性。Cleveland(1990)的研究表明,时间序列可以被分解为季节性和趋势性部分,其中季节性部分对应序列的短期变化,而趋势性部分对应序列的长期变化。根据该理论,模型在PDM模块中将序列分解为季节项于趋势项,然后将其分别混合。具体而言,在第l个PDM模块中,模型首先将输入的序列分解为季节项以及趋势项,然后对这两个分量分别进行混合提取信息。第l个PDM模块的运作过程可以被表示为: 其中前馈网络FeedForward(·)表示模型混合输入信息的过程FeedForward(·)FeedForward(·)表示全连接层,该层的所有神经元通过线性函数进行变换,并经过非线性激活函数传递信息,每层变换的数学表达式为,其中表示非线性激活函数。对于季节项,Box&Jenkins(1970)的研究表明,较长的周期可以视为由若干较短的周期叠加形成,这表明在周期性分析的过程中,尺度更细的数据携带有更多的信息。因此在S-Mix的过程中,本文采用自下而上的整合策略,按照从精细尺度到粗糙尺度的顺序逐步传递信息,为整体尺度周期的预测补充更加丰富的局部特征。该过程可以被表示为: 其中Bottom-Up-Mixing(·)表示模型从下至上传递信息的过程。趋势项则与季节项相反,尺度过于精细的序列往往包含更多的噪音,宏观尺度的序列数据则能够体现更加清晰的趋势信息。因此在T-Mix的过程中,本文采用从上而下的方法传递信息,使用粗糙尺度的趋势信息来引导模型进行趋势判别。该过程可以被表示为: 其中Top-Down-Mixing(·)表示模型从上至下传递信息的过程。总而言之,PDM模块通过对输入的时间序列进行季节项和趋势项的分解,然后对其分别进行信息整合,这种双向的信息混合机制可以明确各尺度信息的优先级,充分提取模型的各尺度信息。3.FMM(FutureMultipredictorMixing)模块介绍FMM模块负责将PDM模块提取的信息转化为未来预测结果。在经过L层PDM模块处理后,初始时间序列被转化为特征序列,其中,表示PDM模块提取的特征数量。为了充分利用PDM提取的所有信息,模型使用FMM模块混合处理所有特征信息。FMM模块是由多个预测函数组合成的集合模块,其中不同预测期对应不同尺度的序列输入,这使得FMM能够整合不同尺度的序列信息,过程如下所示: 其中,表示第m个尺度序列的未来预测值,最终输出表示模型的所有预测值,最后模型对C维预测特征取平均值,得到预测收益率。(二)训练方法及优化器选择本文采用Mini-Batch方法训练TimeMixer网络。本文目标是预测股票未来收益率,因此选择均方误差(MeanSquareError,MSE)作为损失函数。优化器方面,本文选用Adam(AdaptiveMomentEstimation)优化器进行优化训练。Adam优化器由KingmaandBa(2015)提出,其核心思想是通过梯度的一阶矩和二阶矩动态调整每个参数的学习率Adam算法中,一阶矩的计算公式为:,二阶矩的计算公式为:,参数的更新公式为,其中,,该算法训练的模型收敛速度更快,学习效果更好,是目前最常用的算法(Sabour2017;Wang2018)。在模型训练过程中,本文引入早停机制以防止过拟合:从训练集中划分一部分样本作为验证集,每次训练完成后使用验证集验证模型的训练效果,当验证集损失连续10次未下降时,训练自动终止,并选取验证集损失最小的模型最为最终结果。本文基于PAdam算法中,一阶矩的计算公式为:,二阶矩的计算公式为:,参数的更新公式为,其中,图2训练过程中的损失下降情况对于误差函数,收益率预测任务可以视为有监督深度学习回归中的一种,因此本文以MSE(MeanSquaredError)误差函数为基础设计误差函数。相较于普通的回归任务,收益率预测任务更关注预测值与真实值的正负号之差,因此对于预测值与真实值的正负号差距,本文额外增加了惩罚项,损失函数如下所示: 四、数据来源及描述(一)分析样本本文选用的分析对象为沪深300指数的成分股,主要有以下原因:首先,沪深300指数作为A股市场最具代表性的宽基指数之一,能够有效反映中国核心资产的整体表现。其次,从量化分析的角度来看,沪深300的成分股流动性更好,具有更低的交易成本和更稳定的量价数据,有利于模型的训练。此外,沪深300成分股的市值规模大、机构投资者占比高,股价受到单一资金操纵的可能性较低,数据噪声相对较少。最后,沪深300成分股的上市时间大多较早,历史数据比较完整、可追溯性强,有利于构建长周期的神经网络模型。为了保障数据的连续性和所有模型训练数据量的一致性,本文随机选取了沪深300成分股中上市日期早于研究周期的80只股票,股票数据来来自Wind数据库,训练集数据的日期范围为2012年1月-2022年1月,测试集数据的日期范围为2022年1月-2024年12月,数据类型为日频数据。在数据指标的选择上,本文选择股票的收益率作为本文预测的特征,收益率采用收盘价变动幅度进行计算,并且将单位转化为百分比。模型输入方面,本文选取了股票的常见日线行情数据,包括开盘价、收盘价、日内最高价、日内最低价、换手率、成交额和涨跌幅。这些日线数据均为前复权数据,以避免股息分红等因素对收益率计算产生的突变影响。(二)数据的准备与处理本文使用的原始数据是以个股数据为组别区分的面板数据。首先由于股票停牌的存在,本文需要对数据的空值使用前值进行填充,避免异常数据对于神经网络训练的影响、确保时间序列的稳定性。其次,本文需要将数据的形状与神经网络输入层的形式对齐。最后,为了增强模型训练的结果,本文基于量价基础数据构建了一系列经典量价指标:表1量价指标介绍因子名称构建方法因子含义SMA5收盘价5日简单移动平均短期趋势基准,过滤短期波动SMA10收盘价10日简单移动平均中期趋势基准,与SMA5交叉形成信号EMA12收盘价12日指数移动平均强化近期价格权重的趋势指标MACDLineEMA12-EMA26长短周期动量差异,正负值预示方向MACDSignalMACD线的9日EMAMACD趋势信号线,交叉产生买卖信号MACDHistoMACD线-信号线动量加速/减速的视觉化指标RSI1414日涨跌幅强度比超买超卖状态监测ATR1414日真实波幅均值波动率指标,衡量价格波动区间BBUpperSMA20+2σ波动率通道上轨,超买/压力位参考BBMid收盘价20日SMA中轴趋势基准,方向判断依据BBLowerSMA20-2σ波动率通道下轨,超卖/支撑位参考MOM10收盘价-10日前收盘价价格短期动能方向与强度OBV成交量累积指标量价背离预警,资金流向判断(三)训练集与验证集的划分本文通过Python函数,将训练集与验证集的比例划分为0.8:0.2,即前20%的样本数据被划分为训练集,后20%的数据划分为验证集。验证集不参与训练,而是在每次模型训练的过程中监控模型的训练表现,用于防止模型出现过拟合。本文把在验证集上损失最小的模型作为最终模型。(四)数据的归一化处理由于不同指标的幅度变化差异较大,因此本文在进行模型的构建与训练之前需要对数据进行归一化处理。此处本文使用计算Z-Score的方法对数据进行最大最小值归一化处理。基于循环读取数据的需求,本文每次的归一化是针对特定区间内的数据进行的,这样可以避免个别序列中的极端值对于所有序列的数据产生较大影响,也可以防止模型训练的过程中出现信息泄露。(五)窗口数据的划分本文使用的数据跨度为10年,其中单词预测的观察期长度为模型需要的输入数据窗口期长度,属于模型主要的超参数指标,本文将窗口长度确定为96天,根据该取值进行窗口滑动截取数据,确定单次训练的输入变量与标签。模型预测的是未来5天的收益率,即对于每一个窗口期内的面板数据,标签是5天后的收盘价相比于窗口期内最后一个收盘价观察值的增长率。划分完成后,模型的输入变量格式为(B,T,C),其中B表示将每批数据划分为B个输入变量,单个输入变量包含T天的数据,每天的数据包含C个输入特征。根据本文的需求,T为超参数窗口长度,C为本文的输入特征,即股票的量价信息。标签数据的输入变量格式为(B,1),其中B的含义与模型输入相同,1表示每个标签的数据均为一个标量,取值为X天数据后X天收盘价数据的相对处理值,本文将其近似作为股票X天的收益率。五、分析结果(一)模型预测结果完成训练之后,本文在测试集上对模型的预测拟合效果进行测试,分别滚动预测80只沪深300成分股从2022年1月-2024年12月的收益率。为了衡量模型预测效果的好坏,本文使用均方根误差(RootMeanSquareError,RMSE)和平均绝对误差(MeanAbsoluteError,MAE)衡量测试集误差RMSE(均方根误差)的计算公式为:,MAE(平均绝对误差)的计算公式为:RMSE(均方根误差)的计算公式为:,MAE(平均绝对误差)的计算公式为:,其中为模型的预测收益率,为真实收益率。表2测试集误差的描述性统计含义RMSE(均方根误差)MAE(平均绝对误差)样本数量8080平均值0.9780.715方差0.1800.119最小值0.7260.5925%分位数0.8440.63350%分位数0.9450.68475%分位数1.0610.778最大值1.5911.143从数据结果可以得出以下结论:第一,测试集上RMSE的均值为0.978,MAE的均值为0.715,表明在测试集上模型的误差处于较低水平,预测效果较好。第二,RMSE和MAE的75%分位数与最大值均存在较大跨度,说明存在少量极端误差样本抬高了整体误差水平。第三,RMSE与MAE的中位数均低于均值,呈现右偏分布特征,这表明对沪深300大多数成分股的预测误差低于平均水平,但仍然对少数样本的预测效果有待提升。此外,本文将模型对其中两只股票的测试集拟合情况进行图示表达,图3是测试集内的拟合情况。其中000977.XSHE是拟合结果中RMSE最大的股票,0002463.XSHE是拟合结果中MAE最大的股票。图3模型的测试集表现从上述股票收益率的拟合情况可以看出,TimeMixer模型能对股票未来的收益率做出较好的拟合。除了股票在窗口期的收益率几乎为0的情况外,模型都能实现比较准确的预测结果。由于股票收益率预测更关注结果在的正负号与真实值是否相同,本文进一步分析模型预测值的方向正确性。图4是模型预测的方向正确情况。:图4模型预测的方向正确情况上图中横轴为股票的真实收益率,纵轴为表示模型的预测方向是否正确的虚拟变量correct。当模型预测值与真实收益率方向相同时,本文令变量correct为1,否则为0。从结果可以看出,当股票的收益率在零附近时,模型的预测方向容易出现错误,其余情况模型都能准确判断收益率的方向。(二)不同窗口长度的预测结果对比在完成上述训练后,为了探究模型窗口长度对预测效果的影响,本文更改了模型输入数据的窗口期和预测期,分别将模型窗口期调整为24、48、72、120、144和192天,并对模型进行重新训练与测试。测试结果如表3所示:表3不同窗口期对应的误差模型窗口期(天)测试集RMSE(均方根误差)训练集RMSE(均方根误差)96(基准)0.9780.560241.2500.710481.1200.0780721.0500.5901201.0800.4201441.1500.4501921.3000.350从上图本文可以得出以下结论:第一,从测试误差来看,模型在输入数据窗口长度为96天时表现最佳,输入为其余序列长度时,模型的拟合误差均有上升。从测试机来看,当窗口从96缩短至24时,测试集的RMSE增长了约27%,而当窗口从96增加至192时,测试集RMSE增长了约32.9%。可以看到,窗口缩短时,模型的性能衰减更为剧烈。本文认为这可能是因为过短的输入序列无法捕捉完整的时间模式,而太长的时间序列虽然会引入过多的冗余信息,但模型的结构设计可能更适合处理包含充分历史信息的场景。第二、从训练误差来看,随着输入数据窗口长度的增加,训练集的误差呈现下降趋势,说明窗口期过长时,训练发生了过拟合的问题,导致在测试集上表现不佳。综合以上结果,本文认为窗口长度96是模型比较适合的参数,因此在后续的实验中,本文仍然维持输入数据窗口长度为96。(三)不同模型训练结果对比本文还进行了模型间的对比实验,来评估TimeMixer在时间序列预测任务上的性能和效率。本文将TimeMixer与前文提到的MLP、CNN、RNN、LSTM和Transformer等经典神经网络模型进行了对比。本文使用相同的数据集对上述模型进行训练,模型的输入数据滚动窗口均为96天。为了进行更加全面的横向对比,本文使用不同指标衡量模型的预测效果。 1.预测误差对比本文首先使用模型输出的RMSE来衡量预测效果的好坏,本文使用模型在测试集上的RMSE来表示模型的学习能力。除此之外,本文还比对了训练集和测试集的RMSE,查看模型是否出现过拟合现象。如果训练集的RMSE远小于测试集的RMSE,说明出现了过拟合现象,模型的泛化性不强。模型RMSE的均值统计如表4所示:表4不同模型对应的误差模型测试集RMSE(均方根误差)训练集RMSE(均方根误差)TimeMixer0.9780.560Transformer1.1020.520LSTM1.4500.820RNN1.6201.050CNN1.2350.640MLP1.5601.200从上表可以看出,综合考虑训练集与测试集的结果,TimeMixer作为基准模型表现最优。从训练集来看,Transformer的训练误差最低,但在测试集上,TimeMixer表现最佳,这表明TimeMixer模型泛化性最强、预测性能最好,而Transformer出现了过拟合的情况,综合性能不如TimeMixer。本文对模型在测试集上的RMSE分布情况做了进一步研究,统计结果如表5所示:表5:不同模型对应的测试误差分布模型5%分位RMSE25%分位RMSE50%分位RMSE75%分位RMSE95%分位RMSETimeMixer0.820.910.981.051.14Transformer0.951.051.101.181.35LSTM1.201.381.451.521.68RNN1.401.551.621.701.85CNN1.051.121.241.321.45MLP1.301.451.561.651.78从分位数比对结果来看,TimeMixer在所有分位点的RMSE均显著低于其他模型,预测性能表现最佳。与Transformer相比,TimeMixer的RMSE均值差距为0.12,5%分位数差距为0.13,95%分位数差距为0.21,表明TimeMixer的预测结果比Transformer更加稳定。与其余模型相比,TimeMixer的RMSE分布更为集中,尤其在75%分位数和95%分位数的提升幅度更为明显,表明其在股票收益率预测任务上的性能更为突出,准确性高、稳定性强。2.拟合值与真实值的相关性对比接下来,本文使用拟合值与真实值的相关系数来衡量模型好坏。在股票收益率预测任务中,本文更关注模型的趋势与方向捕捉能力,而非绝对数值的精确性。与RMSE相比,相关性具有以下两个优势:首先,相关系数能更好地度量预测值和真实值的变化趋势是否一致;其次,相关系数能更好地衡量预测值与真实值的方向是否一致。模型在测试集上的预测值与真实值的相关系数统计结果如表6所示:表6不同模型对应的相关系数模型皮尔逊相关系数斯皮尔曼相关系数TimeMixer0.9060.920Transformer0.8470.815LSTM0.7810.753RNN0.7120.685CNN0.7980.769MLP0.6940.661从上表可以看出,TimeMixer模型的Peason相关系数为0.906,Spearman相关系数为0.920,显著高于其他模型,展现出最佳的预测性能。并且TimeMixer的Spearman相关系数高于Pearson相关系数,表明模型的输出值不仅能正确预测收益率的方向,还能更好地捕捉收益率的排序关系,这对于构建投资组合具有重要的价值。六、基于TimeMixer的量化策略分析为了探究神经网络在金融投资领域的实际应用,有不少学者在神经网络预测的基础上构建了量化交易策略。李斌等(2019)使用支持向量机和神经网络来预测资产价格的涨跌情况,结果表明基于神经网络的量化投资策略收益显著高于基准策略,并且对交易成本的容忍程度较高。马甜等(2022)使用生成式对抗网络(GAN)预测中国股票市场收益,并进行因子策略投资分析,结果显示基于GAN的量化投资策略效果较好,在多空策略下收益显著高于市场平均。张虎等(2020)使用自注意力神经网络模型构建多因子选股策略,回测结果显示该模型在收益和风险的平衡上较好。在前文中,本文使用TimeMixer模型,基于过去一段时间的股票信息输入预测股票收益信息。在数据滚动窗口为96时,模型根据过去96天的股票数据来预测未来5天的收益。本文将TimeMixer模型的预测结果对于量化投资的影响进行了进一步探究。具体的方法为:以实际的股票量价数据为基础,根据TimeMixer在测试集上的输出设计量化策略进行回测分析。为直接验证模型在构建量化策略上的有效性,本文的策略回测不考虑交易税费等因素。(一)仅考虑模型指标的简单策略为了直接度量模型输出的有效程度,本文直接基于模型的输出信号构造简单量化策略,该策略仅依赖于模型的输出作为选股依据。考虑到模型对于股票收益率的预测周期为5天,策略的定义为:将总资金分为5个独立账户,建仓阶段为期五天,每天依次选取模型输出因子值排名前十且为正的股票作为各账户当期投资组合,并将该账户内的资金平均分配于投资组合的所有股票。完成初始建仓、进入正常运作后,每日依照前述选取逻辑、根据模型输出的结果生成当日持仓的股票名单,通过对比现有持仓与新生成的股票名单,首先平仓差异标的,然后使用回流资金等额配置新的股票。为了完全获取模型预测的5天收益,每个账户都按照5日周期进行独立的轮动操作。本交易策略为纯多头策略,不考虑做空对策略的影响。本文假设初始总资金为1000000元,该策略在测试集上的回测结果如图5所示:图5简单策略回测结果由于模型需要前96天的数据输入才能运行,因此回测区间小于测试集的总区间,时间区间为2022-07-18至2024-12-27。基准策略两年内的收益率为-7.26%,年化收益率为-3.14%,最大回撤为-26.40%;仅基于模型输出的策略两年内的收益率为38.16%,年化收益率为14.64%,最大回撤为-16.23%,较基准指标有显著改善。总体上,简单策略的净值与沪深300指数的走势较为一致,但整体表现明显优于基准指数沪深300。除此之外,由于回测结果没有考虑到交易成本,本文对策略的换手率进行分析,如果模型的换手率过高,则交易成本会对模型的表现结果产生较大影响。首先考虑模型的最大换手率:如果每期根据模型预测结果得出的股票池都完全不同,上述策略的每个子账户将会五天进行一次换仓,即策略每年的单边换手率最大约为50倍,该换手率较高。但是每期根据模型预测结果得出的股票池并不完全独立,通过对每期持仓进行对比,每只股票的平均持股时间约为1.18期,即实际换手率约为42.4倍,换手率仍然为较高水平。综上所述,模型的预测结果可以较好地构建量化策略,但同时交易成本对策略收益存在一定磨损。(二)对传统动量策略的改进为了探究TimeMixer对传统量化策略的改进效果,本文参考牛晓健等(2025)分析时构建的传统动量策略,定义基础量化策略为单期交易,每期时间的长度为7天。在观察期内,本文会将训练模型使用的80只股票列入观察,以其过去一期的历史收益率作为依据,将过去7天内累计收益率为正的股票作为本周期的投资组合成分股,并平均分配所有资金,之后本文将观察其在下一窗口期的收益情况,如果还能保持正累计收益就继续持有,反之进行清仓出售,以此类推。本文使用TimeMixer模型的预测值对上述模型进行改良,具体做法为:使用TimeMixer模型对于每个股票7日观察期后的五天收益进行预测,如果预测值为负,则从投资组合中提出,但不对其他股票进行进一步的限制。本文基于2022-07-18至2024-12-27的实际交易数据进行策略回测,结果如图6所示:图6改进动量策略回测结果从回测结果来看,基准策略两年内的收益率为-20.81%,年化收益率为-9.52%,最大回撤为-37.86%;考虑模型的输出指标后,策略两年内的收益率为-9.48%,年化收益率为19.37%,最大回撤为-27.93%。从策略表现来看,把TimeMixer的预测收益率考虑在内后,策略的结果较基准指标有显著改善。从走势图上来看,两个策略的累计收益率走势基本相同,这是因为模型输出仅作为辅助指标起作用。但从模型的超额收益来看,模型的累计超额仅在震荡行情中出现回撤,说明TimeMixer模型在震荡行情中表现不佳,其余时间超额收益均为正。本文认为,这可能是因为基准策略只是简单考虑动量指标,无法适应市场趋势突然转变的情形,额外考虑模型预测之后,策略减少了对短期动量的盲目以来,实现对策略表现的改进。七、研究结论本文使用目前较为前沿的TimeMixer模型,将其应用于2012年1月1日至2024年12月31日的沪深300成分股的收益率预测分析。本文的模型训练与测试部分主要包括输入数据处理和预测结果的处理。在输入数据处理部分,本文使用Python函数和Pytorch库,将沪深300成分股的量价数据转化为可供模型识别并训练的张量数据,并基于量价数据构建技术指标。在结果分析方面,根据测试集RMSE和MAE误差数值和测试集图像拟合结果,本文认为TimMixer模型可以比较准确地预测沪深300成分股的未来收益率。对输入数据的窗口假设进行变换后,比较了不同窗口期参数下的模型训练效果和测试集效果。此外,本文还对不同神经网络模型的预测效果进行和横向对比,通过对比各模型的误差以及预测值和真实值之间的相关系数,本文认为TimeMixer模型在收益率预测任务的表现优于传统的神经网络模型。除此之外,本文在TimeMixer模型预测的基础上,将模型输出信号应用于实际的量化交易中。为了直接体现模型的预测效果,本文构建了仅依据模型信号的简单量化策略,并在实际交易数据的基础上进行了回测研究。为了探究TimeMixer对传统量化策略的改进效果,本文在传统动量策略中额外考虑了模型预测值,并对策略收益差异的原因进行探究。通过构建量化策略并进行回测研究,本文发现TimeMixer模型的预测结果可以很好地用于构建量化投资策略,并可以改进传统的量化策略,可为量化投资的研究者和实践者提供参考。本文的研究为不同市场参与者提供了启示。对个人投资者而言,神经网络技术为优化交易策略提供了新的工具,建议将模型预测结果与基本面分析相结合,避免过于依赖单一信号。对金融机构而言,神经网络的前沿研究成果为量化投研体系升级提供了技术方向,可以在现有技术分析体系中增加TimeMixer模块。对政策制定而言,监管部门可建立模型备案等风险监管体系,并可以为投资者提供基础模型等指引,促进技术应用的惠普性发展。参考文献[1]李斌、邵新月、李玥阳:《机器学习驱动的基本面量化投资研究》,《中国工业经济》2019年第8期,第61-79页。[2]马甜、姜富伟、唐国豪:《深度学习与中国股票市场因子投资——基于生成式对抗网络方法》,《经济学(季刊)》2022年第22卷第3期,第819-842页。[3]张虎、沈寒蕾、刘晔诚:《基于自注意力神经网络的多因子量化选股问题研究》,《数理统计与管理》2020年第39卷第3期,第556-570页。[4]牛晓健、侯启明:《基于CNN-LSTM模型的中国股票价格预测与量化策略研究》,《贵州省党校学报》2025年第1期,第98-114页。[5]Box,G.E.P.andG.M.Jenkins,1970,TimeSeriesAnalysis,ForecastingandControl.SanFrancisco:Holden-Day.[6]Cleveland,R.B.,W.S.Cleveland,J.E.McRaeandI.Terpenning,1990,"STL:ASeasonalTrendDecomposition,"JournalofOfficialStatistics6(1),pp.1-73.[7]Chen,X.andL.Wang,2020,"NeuralNetworksinEconomics:AComprehensiveSurvey,"EconomicModelling89,pp.123-145.[8]Das,A.,W.Kong,A.Leach,etal.,2023,"Long-termForecastingwithTIDE:Time-seriesDenseEncoder,"arXivpreprintarXiv:2304.08424.[9]DiPersio,L.andO.Honchar,2016,"ArtificialNeuralNetworksArchitecturesforStockPricePrediction:AReviewandanApplication,"InternationalJournalofMathematicsandComputersinSimulation10,pp.303-309.[10]Hochreiter,S.andJ.Schmidhuber,1997,"LongShort-TermMemory,"NeuralComputation9(8),pp.1735-1780.[11]Jiang,J.,Kelly,B.andXiu,D.(2023).(Re-)Imag(in)ingpricetrends.TheJournalofFinance,78(6),3193-3249.[12]Kainijo,K.andT.Tanigawa,1990,"StockPricePatternRecognition—ARecurrentNeuralNetworkApproach,"IEEEInternationalSymposiumonCircuitsandSystems,pp.215-221.[13]Kingma,D.P.andJ.Ba,2015,"Adam:AMethodforStochasticOptimization,"InternationalConferenceonLearningRepresentations(ICLR).[14]Li,Y.,W.ZhengandZ.Zheng,2019,"DeepLearningforStockMarketPredictionUsingTransformer,"JournalofFinancialDataScience1(2),pp.45-58.[15]Mishra,A.K.,J.RenganathanandA.Gupta,2024,"VolatilityForecastingand

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论