基于深度学习的股票价格趋势预测_第1页
基于深度学习的股票价格趋势预测_第2页
基于深度学习的股票价格趋势预测_第3页
基于深度学习的股票价格趋势预测_第4页
基于深度学习的股票价格趋势预测_第5页
已阅读5页,还剩13页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于深度学习的股票价格趋势预测内容提要:随着深度学习研究的不断突破,越来越多的深度学习模型被应用于量化投资领域,例如预测股票价格或收益率。但是,传统线性模型和单一深度学习模型在特征捕捉、处理股票价格的非平稳性和非线性特征等方面存在一定的局限性,因此这些模型效果往往不够理想。本文旨在通过结合时间卷积网络(TCN)的捕获局部时序特征的能力与Decoder-onlyTransformer架构的解析长期依赖关系能力,构建TCN-Transformer组合模型,以提高高频股票数据的预测精度。本文使用1分钟级股票量价数据,选取上证50指数成分股中流动性高、交易活跃的股票为实验对象,以滑动时间窗口数据的形式将数据输入模型进行预测。实验结果表明,TCN-Transformer模型在20分钟时间窗口下表现最优,平均RMSE为0.02836,显著优于单一的Transformer模型,验证了模型在捕捉价格趋势与排除噪声干扰上的优势。研究结论表明,TCN-Transformer模型通过TCN的特征提取机制,显著提升了预测精确度。本研究为高频金融时序分析提供了新思路,并验证了跨领域深度学习模型的应用可行性。关键词:股票价格预测深度学习时间卷积网络Transformer模型中图分类号:F832.5StockPriceTrendPredictionUsingDeepLearning:ATemporalConvolutionalNetworkandTransformerIntegratedApproachAbstract:Withbreakthroughsindeeplearning,anincreasingnumberofdeeplearningtechniquesarebeingappliedtoquantitativeinvestment.However,traditionallinearmodelsandsingledeeplearningarchitecturessufferfromlimitationsinfeaturecapturingandfacechallengesinhandlingthenon-stationaryandnonlinearnatureofstockprices,oftenresultinginunsatisfactoryperformance.ThispaperaimstoconstructahybridTCN-TransformermodelbyintegratingtheTimeConvolutionalNetwork’sabilitytocapturelocaltemporalfeatureswiththeDecoder-onlyTransformerarchitecture’sabilitytomodellong-termdependencies,therebyenhancingthepredictionaccuracyofhigh-frequencystockdata.Using1-minuteintervalstockpriceandvolumedata,weselectedhighlyliquidandactivelytradedstocksfromtheSSE50Indexasexperimentalsubjectsandemployedaslidingtimewindowapproachformodelinput.Experimentalresultsdemonstratethatundera20-minutetimewindow,theTCN-TransformermodelachievedthebestperformancewithanaverageRMSEof0.02836,significantlyoutperformingthedecoder-onlyTransformermodel.ThefindingsindicatethatbyleveragingTCN’sfeatureextractioncapabilities,theTCN-Transformermodelmarkedlyimprovespredictionaccuracy,offeringanewperspectiveforhigh-frequencyfinancialtimeseriesanalysisandconfirmingthefeasibilityofcross-domaindeeplearningapplications.Keyword:StockPricePrediction;DeepLearning;TemporalConvolutionalNetwork;TransformerModelJEL:G17C45一、引言股票市场是我国资本市场的重要组成部分,更是经济运行情况的“晴雨表”。我国股票市场虽然发展历程相对较短,但是也在日趋完善,且形成了较大的规模。从制度方面来看,我国于2023年2月1日正式启动了股票发行注册制,这标志着我国股票市场市场化的重要进步。从基础设施来看,上海证券交易所于2017年5月26日首次推出Level-2数据接口,其他交易所如深圳交易所也推出了Binary数据接口与STEP数据接口,为投资者进行投资决策建立了坚实的数据基础。随着数据可获取性的提高与程序化交易技术的发展,国内的量化投资呈现出快速发展的态势,量化交易在A股市场的成交量中的占比迅速提升,高频交易策略逐渐兴起,策略日渐精细化、复杂化。目前主流的量化策略仍然基于因子构造,即通过统计方法估计来构建因子作为投资决策的指标,通过传统的线性模型来构造预测模型。然而,由于股票价格序列具有非平稳性与非线性,且传统的线性模型和构造的因子在参数固定的情况下可能无法应对金融时间序列的时变性(SirignanoandCont,2021),传统模型在股票价格趋势预测中并不能达到较高的精度。此外,因子构造往往依赖于人工的特征挖掘,即基于统一数学模型对股票的量价数据进行固定转换,较难捕捉股票量价数据中内在的复杂的特征结构(Lietal.,2019)。深度学习的迅速发展为解决这个问题提供了一种有效思路。深度学习模型由线性函数和非线性函数组合而成,通过最小化损失函数来拟合数据的分布规律。随着深度学习研究的不断深入以及数据量的指数级增长,学者们逐渐推出了多种效果显著的深度学习模型,深度学习在股票价格趋势预测方面的应用也日渐广泛,并取得了不错的成果。但是,在实际应用中深度学习的可用性往往较弱。首要的问题就是模型的过度拟合。中国的股票市场受政策调节等突发事件影响较大,股票数据包含着大量噪音(赖晓冰和岳书敬,2023),特别是中低频数据在相同时间跨度内的数据量往往较小,因此分布特征容易变化。而深度学习模型以最小化损失函数为优化目标,为了达到优化目标,模型往往会很大程度上受到噪音的影响,从而出现过拟合的现象(Kimetal.2021)。所以,数据量相对较大且内部时间跨度较短的高频数据往往比中低频更容易用于做深度学习模型的股票预测。现有的将高频数据用于股票价格趋势预测的研究仍相对较少,特别是使用Transformer模型及其变体对高频股票数据进行建模的研究仍相对匮乏。因此,本文将搭建Transformer模型与时间卷积网络(TemporalConvolutionalNetwork,TCN)的混合模型,捕捉股票量价数据中的长期特征与短期特征,对股票的价格走势进行预测,力求达到更高的预测精度。本研究探索了Decoder-onlyTransformerDecoder-onlyTransformer是指仅使用标准Transformer的解码器部分的Transformer模型。Decoder-onlyTransformer是指仅使用标准Transformer的解码器部分的Transformer模型。二、相关研究随着我国股票市场制度的逐步完善,股票价格预测的重要性愈发凸显,股票预测的方法愈加丰富。除了传统的基本面分析法和技术分析法,人们也逐步开始通过统计方法估计或者建模等方法对股票价格进行预测。用于预测股票价格的模型大致可分为三种:传统时间序列模型、机器学习模型、深度学习模型。因此,本文将从这三个方面进行总结,并将对本文所用的Transformer架构用于时间序列预测的内容进行着重归纳。早期的股票价格预测中传统的时间序列模型发挥了重要的作用,例如Box和Jenkins提出的自回归求和移动平均模型(AutoregressiveIntegratedMovingAverageModel,ARIMA)。ARIMA模型将自回归过程和移动平均过程结合到一起,从而具备对非平稳时间序列的预测能力。吴玉霞和温欣(2016)通过对华泰证券250期股票收盘价的实证分析,建立了ARIMA模型用于股票收盘价预测,发现该模型在短期动态和静态预测中表现良好。他们指出,ARIMA模型能够较好地捕捉股票价格的短期波动规律,为投资者提供有益的参考。然而,股票价格还表现出明显的波动聚集现象,即在某段时间内波动率较高,在其他时间段内波动率相对较低。这种特征使得传统的ARIMA模型在解释股票价格的波动性时具有一定的局限性。学者们在ARIMA模型的基础上进行改进,引入条件方差,提出广义自回归条件异方差模型(GeneralizedAutoRegressiveConditionalHeteroskedasticity,GARCH),从而更好地捕捉金融时间序列数据的波动性特征。许舒雅和梁晓莹(2019)将ARIMA-GARCH模型应用于宇通客车股票收盘价格的预测中,他们指出,ARIMA-GARCH模型不仅能够处理非平稳时间序列,还能有效捕捉股票价格的波动性,从而提高预测精度。传统时间序列模型虽然为股票价格预测提供了有效的解决方法,但是也存在一些局限性,例如较为严格的平稳性、线性关系假设以及泛化能力相对较弱等。因此,机器学习凭借其对数据的平稳性要求较低以及自动提取数据特征等优势,在股票价格预测中的应用日益广泛。支持向量机(SupportVectorMachine,SVM)、随机森林、极端梯度提升算法等多种机器算法被用于捕捉股票市场的复杂非线性关系。彭丽芳等人(2006)利用SVM建立股票收盘价回归预测模型,有效克服了传统时间序列预测模型在非线性时间序列预测方面的不足,取得了更高的预测精度。而Patel等人(2015)比较了人工神经网络、SVM、随机森林和朴素贝叶斯四种模型在股票和股价指数中的预测效果。研究发现,当输入数据为连续值时,随机森林表现最佳;而将技术指标转换为趋势确定性数据后,所有模型的性能均有所提升,其中SVM、随机森林和朴素贝叶斯的表现尤为出色。Leippold等人(2022)通过构建和分析一系列回报预测因子,使用多种机器学习算法,研究中国股票市场的实证资产定价。他们指出,机器学习方法,尤其是神经网络,在中国股票市场的回报预测中表现出色,尤其是在小盘股和非国有企业股中。针对传统神经网络在股票价格预测中易陷入局部最优和预测精度偏低的问题,肖菁和潘中亮(2012)提出了一种改进的神经网络算法。该算法基于Levenberg-Marquardt算法建立了改进的三层反向传播神经网络对股票价格建立预测模型,并运用遗传算法优化神经网络的权值和阈值,通过实验证明改进后的神经网络预测算法对股票价格的短期预测有较好的精度和稳定性。然而,传统的机器学习模型在处理时间序列数据时,仍存在过拟合和泛化能力不足的问题。随着大数据技术的发展和计算机运算能力的提升,深度学习模型在股票价格预测领域取得了显著进展。长短期记忆网络(LongShort-TermMemory,LSTM)由于其门控机制,具备较强的信息记忆能力,能够有效处理时间序列数据中的长期依赖问题,成为股票预测的主流模型。Cui等人(2023)提出了一个W-LSTMG模型,即使用小波变换对原始数据进行分解,以获得其不同尺度的时频特征,再将不同尺度的时频特征输入到LSTM模型中用于股票价格的预测。结果表明,W-LSTMG模型在股票价格预测中呈现的预测误差最低。为了进一步提高预测精度,研究者们开始探索模型的优化与集成方法。耿晶晶等人(2021)构建了基于卷积神经网络(ConvolutionalNeuralNetworks,CNN)与LSTM的混合预测模型,首先通过CNN分类模型判定股票指数的波动方向,然后分别构建LSTM模型对指数涨跌值进行预测,并通过田口正交设计方法对模型参数进行优化。除了模型结构的优化,学者们还尝试结合股票的价格之外信息来提高预测精度。裴曼如等人(2020)结合投资者情绪,应用LSTM、GRU、CNN-LSTM以及MFCN-LSTM等模型对股票趋势进行预测。研究表明,投资者情绪的加入有利于提升预测准确率,且LSTM及其变体GRU模型在短时间的预测中优于多层感知器(Multi-LayerPerceptron,MLP)。2017年,谷歌的机器翻译团队在NeurIPS全称为AnnualConferenceonNeuralInformationProcessingSystems,是机器学习领域的顶级会议。上发布了只依赖注意力结构的简单的网络架构模型Transformer(Vaswani,2017),在自然语言处理领域取得了巨大成功,其独特的自注意力机制能够捕捉序列数据中的长距离依赖关系。随后,Transformer模型被迁移到时间序列预测领域,为处理时间序列数据中的复杂模式提供了新的视角和方法。Ding等人(2020)提出了一种基于Transformer的新型方法来预测股票价格走势,该方法通过引入多尺度高斯先验、正交正则化和交易间隔分割器等增强功能,提高了模型对金融时间序列的局部性和层次性的捕捉能力。这些改进使得Transformer模型在股票价格预测任务中超越了其他流行的循环神经网络,如LSTM网络。Lim等人(2021)则通过设计新的注意力模块,通过结合静态协变量编码器、门控机制、序列到序列层和可解释的多头注意力块,实现了对31个股票指数的每日实现波动率值的高性能的多步预测。Jung等人(2024)将Transformer架构用于股票限价订单簿(L全称为AnnualConferenceonNeuralInformationProcessingSystems,是机器学习领域的顶级会议。尽管现有文献已在经典时序模型、机器学习、以神经网络为代表的深度学习模型及三者的混合模型用于股票价格预测领域有了较多的研究,但将Transformer架构用于股价走势预测的研究仍然相对较少,尤其是对高频股票数据的分钟级预测。此外,Transformer架构与其他深度学习模型的混合从而提高预测精度的可能性仍有待进一步挖掘。三、模型构建Transformer模型的自注意力机制能较好地捕捉数据全局的时间序列特征,但通道独立的策略缺少跨变量的时序特征的捕捉(LuoandWang,2024)。而TCN网络能较好地提取序列的全局空间特征(Baietal.,2018),可以弥补Transformer模型在这方面的不足。因此,本文将TCN网络与Transformer模型结合,构造TCN-Transformer模型。以下为本文TCN-Transformer模型的基本结构。本文的每次模型训练过程都基于该模型架构进行,每次训练得到的参数以模型参数字典的形式被保存到本地,用于后续的模型测试。模型的第一层为TCN网络的第一个卷积层,使用一个1维卷积层对输入变量进行操作,输入变量的形状为(32,5,20),32代表一个批次的数据的数量,5代表输入的初始特征的数量,20代表每次输入的变量的时间窗口的长度。关于卷积层的细节参数,我们使用一个大小为3的卷积核进行因果卷积,以捕获时序上的数据特征,并使用空洞卷积来扩大感受野,卷积核每隔1个时间步采样一次,并在输入数据的时序维度两侧填充一定数量的零值以保证输入和输出的时间序列长度保持不变。经过本层的卷积操作后,输出数据的形状为(32,32,20),需要训练的参数数量为512个。第一个卷积层的激活函数为ReLU函数,表达式如下:相比起先前广泛应用的的激活函数(如Sigmoid、Tanh)ReLU函数不仅能够显著减少梯度消失的现象,还具有较低的计算复杂度,在大型网络的训练中能显著减少训练时间。在进行ReLU激活后,我们对卷积层的输出进行Dropout处理,即在模型的训练过程中随机使一定比例的神经元失活,本文的TCN网络的dropout率为0.2,即有20%的神经元的输出会被设置为0。Dropout是一种正则化方法,目的在于减轻模型的过拟合。在第一个卷积层进行第一次特征提取之后,第二个卷积层的输入数据的形状为(32,32,20),32代表一个批次的数据的数量,32代表第一层卷积层提取得到的特征维度,20代表变量的时间窗口的长度。第二个卷积层的输出通道数被设置为64,输出的数据的形状为(32,64,20),第二个卷积层的其他设置都与第一个卷积层保持一致,本层需要训练的参数为6208个。TCN网络中,数据经过两个卷积层之后,进入残差块通过残差连接的方式来缓解梯度消失问题并促进更深层网络的训练。残差块的输出表达式为: 在经过TCN网络的两个卷积层的特征提取过程之后,数据的形状为(32,64,20),32代表一个批次的数据的数量,64为特征维度数量,是初始的5个特征经过两个卷积层后产生的,20为每次输入数据的时间步长。接着,数据经过维度置换后形状变为(32,20,64),以满足Transformer模型的输入形状要求。首先,数据在经过一个线性变换层进行嵌入,将原始输入特征的维度映射到模型目标向量空间的维度来统一特征空间,本层需要训练4160个参数。接着数据进入位置编码层,来为输入序列注入量价数据序列的顺序信息,弥补Transformer因自注意力机制缺失的对数据原始顺序的感知能力。完成位置编码之后,数据进入具有两个编码器层的解码器模块以捕获长时间序列的依赖关系。在一个解码器层中,数据首先进入一个多头注意力层,堆叠了4个并行注意力头捕获多尺度依赖,接着进入一个前馈神经网络来捕获线性数据特征,最后通过残差连接和层归一化(LayerNorm)来提高训练效率和模型泛化能力。经过解码器的特征提取后,我们得到了增强后的时序特征,形状保持(32,20,64)。解码器模块需要训练的参数个数为5622304个。最后,增强后的时序特征会被传入一个全连接层,得到时间窗口中每一个时间步的最终特征值,形状变为(32,20,1)。然后,时间窗口的每一个特征值会通过注意力权重进行加权,得到最终的下一分钟收盘价的具体预测值,输出的形状为(32,1)。整个模型包括2层1维TCN卷积层,1层数据嵌入层,2层解码器层,1层全连接层。总计参数为573633个。表1模型的基本架构以及分层的输入输出格式和训练参数量LayerInputShapeOutputShapeParamsTCN-Transformer[32,20,5][32,1]--TCN[32,5,20][32,64,20]--Conv1d[32,5,20][32,32,20]512ReLU[32,32,20][32,32,20]--Dropout[32,32,20][32,32,20]--Conv1d[32,32,20][32,64,20]6,208ReLU[32,64,20][32,64,20]--Dropout[32,64,20][32,64,20]--SkipConnectBlock[32,64,20][32,64,20]384Transformer[32,64,20][32,1]--Embedding[32,20,64][32,20,64]4,160PositionalEncoding[32,20,64][32,20,64]--DecoderBlock[32,20,64][32,20,64]562,2304FullyConnectedLayer[32,20,64][32,20,1]65Attention-basedPooling[32,20,1][32,1]--四、实验结果与分析(一)实验设计1.实验分析对象的介绍上证50指数是衡量中国经济和金融市场整体健康状况的一个重要指标,覆盖了上海证券交易市场中各行业最具代表性的企业的股票。上证50指数的成分股为上海证券交易市场中领军企业发行的市值规模较大、流动性高、交易活跃的股票,且这些企业在行业中占据风向标的地位,因此能够体现上海证券交易市场的大致价格趋势。为了避免小盘股异常波动的干扰,更好地捕获股票价格走势的特征,本文从上证50成分股中符合样本时间内交易价格不低于5元/股、样本时间内每天成交量不低于5000万的交易日占总交易日的比例高于80%这两个条件的股票中选取了10只股票作为模型实验的数据集。10只样本股票的信息如下表所示。这10只股票分散在公用事业、非银金融、有色金属、食品饮料、电子、银行、通信、石油石化、电力设备、房地产等10个不同的行业本文所使用的行业分类为申银万国一级行业分类。,且大多为对应行业的龙头企业,能够较好地代表不同行业的股价趋势特点,验证模型的泛化能力。从价格角度来看,样本的收盘价分布在5.51元至94.62元,既包含低价蓝筹股,又包括高价科技股,价格梯度完整。从市值角度来看,样本的总市值区间为1,060亿至16,362亿,市值分布跨度与上证50指数成分股市值分布基本一致。因此,这10只股票能较好地代表上证50本文所使用的行业分类为申银万国一级行业分类。数据集的时间长度为2024年4月1日到2024年12月31日,数据为1分钟级别的股票量价数据,数据来自wind金融终端。表2样本股票代码及相关信息股票代码所属行业收盘价/元(2024/12/31/)总市值/亿元(2024/12/31/)权重/%(2024/12/31)600030.SH非银金融29.174323.153.585600048.SH房地产8.861060.580.801600887.SH食品饮料30.181921.232.419600900.SH公用事业29.557230.364.552601012.SH电力设备15.711190.511.199601728.SH通信7.226606.821.412601857.SH石油石化8.9416362.081.276601899.SH有色金属15.124018.583.136601988.SH银行5.5116220.771.462688981.SH电子94.627546.462.3692.特征指标的选取在特征指标的选取方面,本文选择了股票的最基础的1分钟级别的行情数据,即开盘价、最高价、最低价、收盘价和成交额。这是出于两个原因:首先,实际的高频股票交易中,我们只能获取到分钟级别的基础量价特征和tick级别的限价订单簿数据,如果要获得因子和技术指标则需要自行计算,使用基础量价特征可以减少计算负担;其次,TCN网络具有捕获跨时间步的数据特征的能力,因此在一定程度上可以起到构造更多的特征因子的作用,从而弥补基础量价特征的信息不足。3.对比方法的介绍为了更好地研究TCN-Transformer模型在时间序列预测上的特征和优缺点,本文将进行模型内的不同时间窗口长度的预测效果对比。时间窗口的长度包括15分钟、20分钟和30分钟。同时,本文将进行模型消融实验,即把本文构建的模型与纯Transformer模型进行对比。对比指标选取方面,为了确保模型的预测精度并且避免过度预测的情况出现,本文选择RMSERMSE=output−labelRMSE=output−MAPE=mean((二)数据的准备与处理本文所获取的数据为以股票为划分的DataFrame数据,在本地以CSV文件格式保存。首先,本文对数据的异常值进行识别,并删去了数据不完整的交易日的数据,以避免极端情况对于模型预测造成的影响。其次,对每只股票的数据进行训练集和测试集的划分。本文的训练集和测试集的比例为7:3,即前70%的数据作为训练集,后30%的数据作为测试集。在划分完测试集和数据集之后,本文对测试集和数据集分别进行归一化,以减少极端值以及指标量纲不同对模型预测的影响,归一化的公式如下: 本文所使用的时间跨度为8个月,单次预测所使用的股票量价数据的时间长度为划分的时间窗口长度,是本文模型重要的超参数之一。本文选择最优的20分钟作为时间窗口长度,并对数据进行滑动划分,得到单次输入的训练数据与真实值。划分后得到的训练数据形状为(batch_size,time_steps,num_features),batch_size为一个训练批次输入用于模型训练的输入变量个数,time_steps为用于预测下一分钟的收盘价所使用的股票量价特征的时间长度,num_features为模型输入的初始特征的个数。真实值的数据形状则为(batch_size,1),是每次模型训练的目标值,也叫做标签。(三)TCN-Transformer模型的训练完成TCN-Transformer模型的构建之后,本文对模型进行相应的训练。为了更好地捕捉不同股票的不同时序特征,本文对每只股票都分别训练了1个模型。首先,本文需要确定训练的epoch(迭代轮次)和batchsize(批次大小),由于模型所需要训练的参数量较大,本文将epoch设置为50个,batchsize设置为32,并设置了早停机制,即在模型性能连续几个epoch没有改善时,停止模型的训练并保存最佳的模型,以减少模型的过拟合。完成epoch和batchsize的设定之后,本文对学习率及学习率的调整进行设定。本文的学习率初始设定为0.0001,使用AdamW优化算法来帮助模型收敛,并加入权重衰减的惩罚机制防止过拟合,应用梯度裁剪防止梯度爆炸。在学习率调度方面,本文使用余弦退火学习率调整与学习率预热相结合的策略,在初始的10个epooch通过线性预热来稳定训练,随后以余弦函数动态调整学习率,兼顾模型的探索与收敛。对于误差函数的选定,由于对下一分钟的收盘价的预测本质上是一个回归问题,本文选择MSE函数作为模型的损失函数,MSE函数的计算公式如下: 在上述模型训练的设定下,本文对每只股票的数据进行了分别的分批训练。表中为股票601728.SH的训练情况,最终的验证损失为0.03416,误差水平较低。表3股票601728.SH的训练情况EpochValidationlossLearningrate10.368480.00010050.263400.000088100.085370.000079150.090240.000066200.068520.000049250.048460.000032300.039220.000017350.035730.000006400.035420.000002450.035280.000001500.034160.000008(四)TCN-Transformer模型的测试1.模型的预测情况在所有股票的训练完成后,本文使用验证集的数据对模型进行测试,使用RMSE和MAPE作为评价指标来衡量模型的预测误差。除此之外,本文还将模型输出的预测值通过反归一化还原到原始的股价序列,并绘图展示模型的拟合情况。下面的表格展示了所有样本股票的预测效果。首先,从指标评价来看,从总体情况来看,模型可以达到比较精确的拟合结果,RMSE的最大值也只有0.2541,MAPE的最大值仅为5.63%。10只股票中,有9只股票的RMSE处于0.25以内的范围,有7只股票的MAPE处于1.5%以内的范围,这说明本文的模型对于不同的股票的预测有一定的稳定性。表4样本股票的预测效果股票代码RMSEMAPE600030.SH0.23005.63%600048.SH0.25412.39%600887.SH0.11560.79%600900.SH0.10610.51%601012.SH0.08570.91%601728.SH0.15930.84%601857.SH0.10730.78%601899.SH0.08310.43%601988.SH0.23061.10%688981.SH0.19272.83%从拟合情况来看,下图展示了RMSE值和MAPE值较大的4只股票的股价拟合情况,从左到右、从上至下依次为600030.SH、600048.SH、601988.SH、688981.SH。由于股票数据过长,本文只展示测试集第一天的拟合情况。可以看到,模型虽然在预测的精确度上有所欠缺,但是都能较好地捕捉股价的变化趋势。图1TCN-Transformer模型在部分股票第一批数据的拟合情况2.不同时间窗口长度的预测情况对比在完成了模型的训练之后,本文对时间窗口的长度的设定进行修改,分别使用15分钟的时间窗口数据和30分钟的时间窗口的数据进行了模型训练,以RMSE为评价指标。从结果可以看出,对于大部分股票来说,15分钟的预测精度和20分钟的预测精度较为接近,而30分钟的预测精度和20分钟的预测精度存在较大的差距,这可能是由于两个原因:首先,过长的模型输入会使得输入参数增多,模型的复杂程度有所增长,出现了过拟合的现象;其次,股票交易的撮合机制决定了股票的价格往往由较短的时间窗口内的报单所影响,而过长的时间窗口会使得输入的噪声过大,不利于模型的预测。根据不同时间窗口长度的预测情况对比结果,本文假设20分钟为最佳的时间窗口长度,后续的实验均使用这个时间窗口长度设定。表5不同时间窗口长度(15分钟、20分钟、30分钟)的预测效果对比股票代码15min20min30min600030.SH0.209880.052880SH0.067800.064590.04419600887.SH0.012480.013370.01092600900.SH0.023800.011250.01624601012.SH0.007260.007350.01940601728.SH0.029310.025390.04974601857.SH0.010820.011520.02262601899.SH0.003310.006900.00574601988.SH0.052590.053190.05544688981.SH0.047470.037150.03893均值0.046470.028360.040573.不同模型的预测情况对比本文的模型是结合了TCN模型和Transformer模型得到的,同时具备TCN模型的跨时间步提取时序特征的能力和Transformer模型的解析特征的能力。因此,本文通过构造Transformer模型,使用相同的数据对其进行测试,以RMSE为评价指标,对比其和本文模型的预测能力。因为Transformer模型缺少提取特征的TCN部件,所以Transformer模型的特征嵌入为从初始变量的5维到模型的特征维度64维,Transformer模型的其余超参数与本文模型的超参数相同。表6TCN-Transformer模型和Transformer模型的学习效果对比股票代码TCN-TransformerTransformer600030.SH0.2299570.484335600048.SH0.2541460.148324600887.SH0.1156290.138816600900.SH0.1060660.203

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论