版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于神经网络算法的白酒行业股票预测实证研究摘要中国股市作为世界第二大市值的股票市场,2021年在北京证券交易所设立后,已经有4685家上市公司,96.5万亿元人民币市值。如何规避风险,预测股票涨跌趋势以获得更高的收益,一直以来是中国和全球的研究者及投资者关注的热门问题。本文通过国内外文献了解了目前股票预测的研究现状和所用技术,发现在目前的预测研究中应用的技术指标越来越多,并且除技术指标外,还将投资者情绪量化一起输入模型,在训练中取得了比单独输入技术指标更好的效果。本文以贵州茅台、五粮液、泸州老窖三只市场中热门的白酒行业的股票为研究对象,从东方财富股吧爬取文本数据结合情感词典将其转换为情绪指标,将之与股票基本数据和由之得到的多种技术指标结合,并通过最大信息系数和随机森林进行特征筛选,最后通过建立了CNN、LSTM、GRU神经网络对股票的涨跌趋势进行预测,结果发现在输入技术指标和情绪指标后,不同的神经网络都能在股票预测中表现出一定效果,至少在对白酒行业股票的预测中可以让投资者使用较短时间周期的数据建立模型,花费较低的时间成本对股票的涨跌趋势进行判断,作为未来投资计划的参考。其中CNN在较短的时间周期内在每只股票的预测中都表现出了较好的效果,LSTM和GRU效果稍差。关键词:股票预测;情感分析;CNN神经网络;LSTM神经网络;GRU神经网络目录摘要 1Abstract 11.引言 11.1研究背景与研究意义 11.1.1研究背景 11.1.2研究意义 21.2研究框架和研究方法 21.2.1研究框架 21.2.2研究方法 31.3研究可能的创新点 32.文献综述与理论基础 42.1文献综述 42.1.1国内研究现状 42.1.2国外研究现状 52.2文献评述 52.3理论与技术基础 62.3.1网络爬虫 62.3.2文本情感分析 62.3.3神经网络 63.指标与研究对象 113.1指标 113.2研究对象 144.数据来源及处理 164.1数据来源 164.2数据处理 175.建立模型 205.1使用CNN进行预测 205.2使用LSTM进行预测 235.3使用GRU进行预测 256.总结与展望 276.1研究总结 276.2不足与展望 27参考文献 28附录 301.引言1.1研究背景与研究意义1.1.1研究背景股票是重要的投资手段,随着经济发展和经济全球化进程的推进,尤其对中国这样的新兴经济体,上海、深圳证券交易所已成立超过30年,北京证券交易所也于2021年11月15日开市,股票市场已成为中国证券市场和国民经济的重要组成部分。随着国民生活水平的提高,可支配收入增加,股票投资作为一个近乎没有门槛的投资手段,显然会源源不断地吸引大量投资者进入。但同时股票市场也是变幻莫测的,尤其是对于基数最大的散户投资者,往往会因为经验的欠缺、专业理解不足、盲目自信和自弃而进行错误操作,又或是因为大体量“庄家”的进场或退场无脑跟风而被“宰”,并且这些情况往往会引起恶性循环,使股票市场波动加剧,最终使大量投资者亏损。因此,无论是研究者还是投资者都开始关注股票涨跌趋势的预测,希望通过一定技术手段实现对股票未来的涨跌趋势进行较为科学的预测,以此来判断股票未来走势和对将来的投资计划进行辅助和参考。在股票相关的预测研究中,传统的基于有效市场假说,对市场信息和K线使用统计学相关知识的预测需要扎实的理论基础、丰富的经验,并且往往需要花费大量时间进行计算或是只能得到模糊的结果。在人工神经网络问世后,其强大的可塑性能够较好的契合股票市场这样参数复杂、非线性、规模巨大的特点。并且在现在的研究中,神经网络已被证明可在相关领域取得较好效果。另一方面,人是不可能永远保持理性的,投资者对风险的偏好和厌恶,来自各处的信息都可能影响决策。尽管行为金融学还处在发展阶段,但不可否认投资者的情绪会对他们的选择产生影响。尤其是在中国这样大体量、大基数同时又不太成熟的市场环境中,对于股票相关预测研究来说,投资者的情感是和技术指标同样重要的存在。1.1.2研究意义本文基于技术面和投资者情感对沪深热点板块中的白酒股票涨跌趋势预测的研究主要有两方面的意义。首先,在现实层面,对于个人投资者,由于大多数人不具备专业知识且经验不足,本身就容易判断错误,加之被各种信息误导,就更容易造成损失并可能导致滚雪球效应,使损失的人更多甚至进而影响市场。对于非个人投资者,虽然其可能具备强大财力以及专业团队,但同时他们显然无法操控散户的情绪,而又不得不注意他们可能会带来的影响。因此无论是哪一方,不仅需要从技术层面掌握市场动向,也需要对投资者情感进行量化,以便能够更加理性的看待市场和进行判断。其次,研究通过对相关文本的处理与分析将投资者情感转化为情绪指标,并将其作为变量与技术面指标一起输入不同的预测模型中进行计算,通过检验模型的效果对丰富股票相关领域的预测模型具有一定理论意义。1.2研究框架和研究方法本文的研究是基于技术面和投资者情感的沪深热点板块中白酒股票涨跌趋势预测探析,首先通过开源的证券数据平台获得股票的基本交易数据并通过其计算技术指标,通过爬虫从东方财富股吧获得股票的评论内容结合金融情感词典进行文本处理,将投资者情感量化,构建情绪指标,接着建立神经网络模型将技术指标和情绪指标输入模型预测股票的涨跌趋势,并且本文的研究在使用LSTM模型外,还将尝试使用了CNN和GRU神经网络模型和优化算法来比较各个模型的效果并得出结论。1.2.1研究框架本文基于技术面和投资者情感,选取沪深热点板块中白酒行业的贵州茅台、五粮液和泸州老窖这三只股票,研究了以技术面指标和情绪指标为输入变量,涨跌幅为目标变量的神经网络预测模型。本文第一部分引言。本文第二部分是文献综述与理论基础。这部分梳理和总结了相关文献的研究成果,并对爬虫、投资者情感、神经网络理论和模型进行介绍。本文第三部分介绍股票技术面指标以及股票对象的选择。本文第四部分介绍数据来源、获取以及数据的基本处理。本文第五部分是建立预测模型。通过获取到的股票的相关数据,建立不同的神经网络模型,并展示预测结果。本文第六部分为总结与展望。1.2.2研究方法本文运用文献研究法和实证研究法进行研究。首先,通过对国内外相关文献的梳理,了解投资者情感量化方法、神经网络模型的建立和股票预测模型的构建等方面内容。通过对以往研究思路和方法的学习,最终形成本文的研究思路。其次,本文计算股票技术面指标和通过爬虫技术获得文本信息对投资者情感量化得到情绪指标,建立神经网络模型预测,比较不同股票的技术面指标和情绪指标在不同神经网络模型中的表现效果,进行分析,得出结论。1.3研究可能的创新点本文尝试对股票的涨跌幅进行预测而不是常用的股价,并且截至2021年的文献中,仍然在大量使用TensorFlow1.0及其衍生版本来构建神经网络,而本文尝试使用TensorFlow2.0及以上版本进行神经网络的构建,尽管在软件层面最新的不一定是最好的,但TensorFlow2.0也已发布了3年,更新了若干个版本,其稳定性也已经得到了检验。本文除LSTM及其变体GRU外,还尝试使用CNN来进行预测,此外由于涨跌幅中的跌幅通常由负数表示,线性整流函数(relu)、sigmoid等常用激活函数在输入有负值时会导致神经元不能被正确激活,而支持负值输入的双曲正切函数(tanh)又存在比较严重的梯度消失问题,所以本文尝试了基于relu的能适应负值输入的leakyrelu函数,并证明其能取得效果。并且借助最大信息系数和随机森林模型来了解输入变量与目标变量的重要性,以此对特征进行筛选。2.文献综述与理论基础2.1文献综述2.1.1国内研究现状国内今年来基于技术面和投资者情绪的股票预测研究日益增加,田鑫(2012)将投资者情感量化,与其他输入变量一起对BP神经网络进行训练,结果发现加入了情绪指标的模型得到的结果好于仅输入收盘价的模型[1]。随后,张迟盼(2015)基于Elman神经网络,加入了投资者情绪指标作为变量的预测也被证明取得了较好结果[2]。吴飞飞(2017)将投资者情绪指标和NARX动态神经网络结合对证券价格的预测结果要优于ARIMA模型[3]。杨程远(2017)从论坛获取股评文本,通过文本分类得到情绪指标并将其和股票交易指标一起输入BP网络模型,发现预测效果比只输入股票交易指标的好[4]。周凌寒(2018)通过CNN模型对文本数据进行情感分类,再将结果输入LSTM模型对股票行情进行预测的结果,同样好于以单一信息源为输入变量的LSTM模型[5]。王聪等(2018)从股吧抓取评论数据并量化,使用VAR模型和神经网络预测上海证券综合指数的涨跌幅,发现其与量化的情绪指标之间存在线性关系的同时也存在非线性关系[6]。周小波(2020)从股吧爬取评论,对其进行情感分析,将投资者情绪和股票交易数据输入LSTM模型和ARIMA模型进行行情预测,结果发现LSTM效果更好[7]。裴曼如和张立文(2020)发现通过同样使用情感词典基于文本数据构建投资者情绪指标的情况下,GRU模型的预测效果虽然不如LSTM模型,但成本更低、速度更快[8]。田雨(2021)加入投资者情绪指标的LSTM模型的预测结果要好于同样条件下的随机森林和BP模型[9]。丁雨(2021)结合新闻主题和评论获得情感特征,建立LSTM预测的效果好于只输入股票技术指标的LSTM模型[10]。宋丽娜(2021)将情感分析应用到组合模型中的效果也好于单独使用[11]。2.1.2国外研究现状Hana等(2017)对推特的股市新闻进行文本挖掘,结合股票交易信息对股价涨跌进行预测,得到了较好结果[12]。Feng等(2017)对财经新闻进行情感分析结合股票交易数据建立ELM模型对股票涨跌进行预测,发现其结果好于BP模型和SVM模型[13]。Sushree等(2018)对推特数据进行情感分析,建立RNN模型进行股票预测,取得了一定效果[14]。Ali等(2019)对股票社交媒体的文本信息进行情感分析,结合股票交易数据建立模型预测股票走势,发现输入情绪指标的模型预测效果更好[15]。Thayogo等(2020)基于财经新闻的情感分析和股票技术指标,建立LSTM模型预测股票,发现情绪指标能够提高模型精准度[16]。Gite等(2021)使用LSTM模型和根据新闻的情绪分析相结合得到了比单独使用LSTM预测更好的精度[17]。Zhang等(2021)基于生成对抗网络和通过推特上的文本信息对股票进行预测,取得了较好的效果[18]。2.2文献评述根据国内外学者的研究,从社交媒体、论坛、新闻获取文本信息计算的情绪指标能够提升神经网络和其他模型的预测效果,并且情感分析的手段多样,有情感词典、机器学习等方法。另外在股票交易数据外,输入技术指标也能提高预测效果。而神经网络的梯度下降、Adam算法等优化方法也能提高预测准确率。但另一方面,研究中选择的目标变量多是股价,预测涨跌幅的研究较少,同时由于LSTM模型在股票预测中的优异表现,许多研究都使用LSTM模型。本文从东方财富股吧爬取文本数据,使用情感词典进行情绪指标量化,通过股票交易数据计算技术指标。同时除建立LSTM模型外,还建立了CNN、GRU模型来探析在数据技术指标和情绪指标的情况下不同模型的预测效果。2.3理论与技术基础2.3.1网络爬虫网络爬虫是一种通过技术手段获取网页信息的程序、包或库,爬虫运行过程可以分为:请求网页、获取网页数据、存储数据这几个步骤。每个步骤都有不同的运行方法、搜索策略、分析算法等,可以据此把爬虫细分为多种种类。此外,由于部分网站出于对利益、服务器负载和信息安全等方面的考虑,会采用检测访问频率、流量等办法,通过禁止IP地址访问等方式来进行反爬取。而爬虫又会通过限制访问频率、爬取速度等各种手段来规避网站的反爬取策略。2.3.2文本情感分析随着网络的兴起与发展,在各个不同领域中都有各自的信息交流平台如论坛、贴吧等,对某个人、事物、商品等的评价可以直接通过这些网络平台获取。并且无论是国家还是个体,在越来越多的领域都大量的直接通过网络平台来收集信息和反馈,并将之量化分析以作为重要的参考。目前文本情感分析可分为机器学习法和情感词典法,本文使用的情感词典法通过构建情感词典,将积极和消极情感文本和其情感强弱程度进行分类并进行量化。2.3.3神经网络神经网络是受到生物脑部神经元构成的神经网络启发人工构建的模型。图2-1神经网络处理单元一个简单的神经网络通过输入的量的权值经过运算与阈值比较,并通过激活函数来输出,如同神经元上神经突触接受不同神经递质而相应做出电位改变来完成不同功能一样。神经网络都是由这样的单元构成。神经网络中每一层的输入输出是线性求和,如果没有激活函数,最后输出是输入的线性组合。所以激活函数往往是非线性的,这样就使神经网络能应用于非线性模型中。为了对带有负值的涨跌幅进行预测,本文使用的leakyrelu函数是对负值有效的。神经网络的训练过程通过计算预测值与真实值间的误差衡量效果,误差计算函数称为损失函数。计算损失函数对各个参数的梯度,对参数进行更新以减小误差,梯度指函数在某一点变化最快的方向。这一个过程被称为反向传播,是目前神经网络中主要的训练方法。最后,为了评判神经网络的预测效果,常使用R-squared即R方,R方是常用的用来衡量预测值和真值之间关系和预测效果的统计量,其公式为:R2=1−iy从公式可以发现当预测值越接近真值,R方越接近1,反之,当预测完全没有起到效果时,R方甚至可能为负数。下面介绍本文使用的神经网络:卷积神经网络(CNN)CNN是当今计算机视觉研究的核心技术之一,它在图像识别上表现出了非常好的效果。另外CNN同时也被应用在自然语言处理(NLP)领域,所以这说明它乃至神经网络都不是只能应用于单一领域的,本文将尝试使用它来预测股票的涨跌幅。CNN有卷积层、池化层、全连接层。卷积层在每个维度通过自我学习的过滤器(Filter)降维并提取特征。图2-2卷积而在池化层,通过对在卷积层得到的特征再次进行筛选,如选择一定范围内的最大值或平均值来减少参数。图2-3池化CNN在经过卷积和池化后才会通过全连接层进行误差反向传播等计算进行迭代,这样就比从第一层开始就使用全连接神经网络减少了参数,并且同时保留了特征,提高了运算效率和精度。图2-4卷积神经网络长短期记忆神经网络(LSTM)LSTM是在循环神经网络(RNN)的基础上诞生的。图2-5循环神经网络一般的全连接神经网络的输入数据之间并没有联系,但在面对时间序列问题或是自然语言处理问题时,一个节点往往需要通过之前输入的数据进行计算。RNN就会把之前输入的信息和之后准备输入的数据一并输入下一个节点,因此在最后的输出就包含了之前所有输入的信息。然而RNN每次输入输出都要计算上一次的数据,在输入数据过长的情况下,在反向传播计算中,如果梯度很小,那么结果就会越乘越小并趋近于0,相反梯度则会越来越大,这两种情况被称为梯度消失和梯度爆炸。无论哪种情况显然都会导致参数无法正确更新,从而无法使模型得到好的结果。LSTM的出现就是为了解决RNN的问题。图2-6长短期记忆神经网络LSTM在输入之前会先对梯度进行判断,如果上次输入信息对当前输入信息无影响,即梯度很小或为0,就可以不传递梯度。LSTM的具体操作通过遗忘门、输入门、输出门实现。门控循环单元神经网络(GRU)GRU是在LSTM的基础上更进一步的改进,LSTM虽然解决了RNN存在的问题,但其内部的计算过程较为复杂,步骤较多。GRU精简了LSTM的计算过程。图2-7门控循环单元GRU将LSTM的遗忘门和输入门整合为一个重置门,通过重置门来判断是否将信息或者将多少信息输入更新门,再由更新门来决定最终有多少信息输出。3.指标与研究对象3.1指标股票除了开盘价、最高价、最低价、收盘价、交易量、换手率这些基本数据外,还可以通过它们使用数量统计方法计算技术指标。如果只通过基本数据去进行预测显然无法取得好的效果,所以各种各样的技术指标被大量应用于股票预测中。下面是本文所用到的技术指标。中间意愿指标(CR)CR又称价格动量指标。通过中间价格判断市场状态,CR值为100时表示中间买卖意愿平衡,大于100且越大,表示越应当择机抛出,反之亦然。以N日CR指标为例,其计算公式为:CRN日=P其中:P1=H−YM表示N日以来多方力量总和。H表示今日最高价,YM表示上一个交易日中间价。P2=YM−L表示N日以来空方力量总和。L表示今日最低价。随机指标(K、D、J)该指标用最高价、最低价、收盘价及这三者间的比例关系,计算未成熟随机值(RSV),用平滑移动平均线计算K、D、J值。K、D、J值分别在不同区间中越大代表超买,反之代表超卖。它们的计算公式为:RSV=C−LnH其中C为当日的收盘价,Ln为之前n日最低价,Hn为之前n日最高价。第i天Ki=2第i天D值:Di=2第i天J值:Ji=3K若无第i-1天K和D值,则都分别用50来代替。布林线指标(BOLL)该指标求出股价标准差及其信赖区间确定走势。日BOLL指标的计算过程为:中轨线(MB)=N−1日MA上轨线(UP)=MB+2×MD公式3-9下轨线(DN)=MB−2×MD公式3-10其中:MA=N日C÷NMD=N日C−MA2N相对强弱指标(RSI)该指标用一段时间股价上涨总幅度占股价变化总幅度平均值的百分比评估多空力量强弱程度。RSI值越大表示市场越强势,直至超买,反之亦然。其公式为:RSIN日=A÷A+B×100其中A为N日内收盘涨幅之和,B为N日内收盘跌幅之和的绝对值。威廉指标(WR)该指标分析股票最高价、最低价、收盘价的关系,判断股市的超买超卖现象,预测中短期走势。N日WR指标的计算公式为:W%R=Hn−C÷其中C为当日收盘价,Hn为N日内最高价,Ln为顺势指标(CCI)该指标用于较为极端的情况如股票突然暴涨或暴跌时进行行情判断。其计算公式为:CCI(N日)=TP−MA÷MD÷0.015其中:TP=H+L+C÷3MA=C÷NMD=MA−C÷N均幅指标(ATR)该指标用一定时间股价波动幅度的移动平均值判断股票买卖时机。计算公式为:ATRnt=TRi=maxH其中n为时间长度,t为当日,Ci为第i日收盘价,Hi为第i日最高价,Li平行线差指标(DMA)该指标用两条不同时间的平均线判断价格趋势、买卖能量。其计算公式为:DMA=短期平均值−长期平均值公式3-21平滑异同移动平均线(MACD)该指标用快速、慢速移动平均线(EMA)的离差值(DSI)的平滑移动平均线判断涨跌。其公式为:MACD=DIF−DEA×2DEA=EMADIF,9公式DIF=EMAC,12−EMAC,26EMAC,Nt=2其中C为收盘价,N为时间。三重指数平滑平均线(TRIX)该指标过滤股票短期波动反应长期波动趋势。其公式为:TRIX=TRt−TR其中TRt为收盘价的N日指数移动平均(EMA变动率指标(ROC)该指标用当日收盘价、N日前收盘价的关系判断股票变化趋势。其公式为:ROC=AXBXAX=当日收盘价−BX公式3-28BX=N日前收盘价公式3-29资金流量指标(MFI)该指标用价格和成交量反应市场行情、超买超卖情况,其公式为:MFI=100−1001+PMFNMF其中MF为当日最高价、最低价和收盘价的算术平均乘以N日内成交量,PMF表示当日MF大于昨日MF,反之为NMF。能力指标(EOM)该指标根据最高价、最低价和成交量来衡量市场涨跌的顺畅程度。公式为:EOM=DIFH+DIF其中DIFH和DIFL为最高价和最低价的差分,3.2研究对象中国独特的白酒文化源远流长,加之白酒的特性,即使存货积压也不会减值,并且白酒原材料和人工成本不高,但有着极高的品牌价值,这使得白酒的毛利率和净利率都很高,现金流状况良好。这一系列因素使白酒有独特且极佳的商业模式,在2020年新冠疫情后经济不可避免受到影响,投资风险增加,结果是市场选择了白酒来规避风险,掀起了一股白酒热。同时白酒强大的品牌效应和热度可以保证其一直存在较高的讨论度,方便获取丰富的文本信息。本文选择了白酒行业最热门的贵州茅台、五粮液、泸州老窖三只股票为研究对象。一、贵州茅台贵州茅台作为白酒行业和A股龙头,市值已经突破2万亿元人民币,且曾经一度达到3万亿元,在稳定的行业模式、强大的需求量、公司良好的财务情况和高利润率的情况下,茅台深受投资者青睐。同时在另一方面,从茅台超高的股价和市值背后,可能可以窥见大资本和整个市场的风向标。二、五粮液上世纪末到本世纪初占据白酒行业霸主地位的五粮液目前是白酒股票中市值第二大的品牌,仅次于贵州茅台,并且与主打酱香型白酒的茅台不同,五粮液的主力产品是浓香型白酒,另外五粮液正积极转型,与IBM、阿里巴巴等企业合作建设数字化营销和管理体系,加强核心竞争力。三、泸州老窖泸州老窖也一度是白酒龙头,是白酒行业中历史最久的品牌之一,已有2000多年的传承史,同时拥有中国最多和最早建设的窖池群。泸州老窖也是行业中最注重文化建设的品牌,相比于茅台和五粮液的中高端路线,泸州老窖在高、中、低三档介有产品,且已经在工艺改良上取得进展,产能得到提升,为其重回前三打下基础。4.数据来源及处理4.1数据来源本文使用Python代码的爬虫从东方财富股吧获取所选股票2020-2021年两年的共计约54万条评论数据,平均每只股票18万条。并使用Deng(2019)开发的能够进行中文文本处理的cnsenti库[19]。并通过姚加权等(2021)开发的中文金融情感词典来根据文本中的内容判断是积极或消极,以及情感的强度,再根据获取到的信息将文本数据转换为情绪指标[20]。计算公式参考了戴德宝(2019)的文本挖掘和投资者情绪的研究,为:SENTt=ln1+其中posN表示积极评论数量,negN表示消极评论数量本文通过开源的BaoStock证券数据平台取得所选股票2020-2021年两年486个交易日的基本交易数据,并通过各个技术指标的计算方式获得技术指标在不同时间周期的值。这里就不再详细说明计算过程。本文进行的预测中目标变量为涨跌幅,所使用特征如下:情绪指标(sent)开盘价(open)收盘价(close)最高价(high)最低价(low)换手率(turn)成交量(volume)成交金额(amount)中间意愿指标(cr)随机指标(kdj)布林线指标(boll)相对强弱指标(rsi)威廉指标(wr)顺势指标(cci)均幅指标(atr)平行线差指标(dma)平滑异动平均线(macd)动向指标(dmi)三重指数平滑平均线(trix)变动率指标(roc)资金流量指标(mfi)能力指标(eom)移动平均线(ma)指数移动平均(ema)简单移动平均线(sma)需要注意的是上面列出的只是使用特征的种类,实际训练模型时技术指标都会计算不同时间跨度的值,如cr_3、cr_9、cr_26等等。4.2数据处理一、数据规范化股票的成交量可以达到千万级但涨跌却可以小到个位数,特征之间相差过大显然对梯度的计算和模型的训练造成影响。本文使用sklearn的MinMaxScaler方法,将特征数据映射到相同区间中。二、利用MIC筛选指标虽然在股票预测以及其他机器学习模型中,特征必不可少且对数量有一定要求,对于股票预测,股票的基本交易数据和专业的技术指标也不可或缺,但是为了避免过拟合和提高模型精确度,进行特征工程同样是非常重要的步骤。以通过上文方法获得的情绪指标为例,使用最大信息系数(MIC)检测它与涨跌幅间的关系,衡量变量关联程度,将其离散在二维空间,用散点图表示,将当前二维空间在x和y方向划分一定区间数,查看当前散点在各个方格中落入情况。其公式为:MIC(x;y)=maxa×b<BI(x;y)log其中:Ix;y=p(x,y)log其中a、b即为划分的区间数。以茅台的情绪指标为例:图4-1最大信息系数(值)图4-2最大信息系数(图)三、利用随机森林筛选指标本文同时还使用了随机森林对特征进行选择,并对股票的涨跌趋势进行了预测,同样以茅台为例,其准确率达到0.82。对其他两只股票的预测准确率也都在0.8以上。通过随机森林来去除一些相关性不高的特征。图4-3随机森林最后经过筛选的指标如下表:表4-1特征特征变量名含义情绪指标sent投资者情绪涨跌幅pctchg每日涨跌幅度开盘价open每日开盘价格最高价high每日最高价格最低价low每日最低价格收盘价close每日收盘价格换手率turn每日转手频率成交量volume每日成交数量9日中间意愿指标cr_99日买卖意愿9日K值k_99日超买超卖情况9日D值d_99日超买超卖情况7日布林线指标boll_77日涨跌幅情况14日相对强弱指标rsi_1414日涨跌幅度和景气程度5日威廉指标wr_55日超买超卖状态14日顺势指标cci_1414日股价波动情况14日均幅指标atr_1414日股价涨跌趋势10日平行线差指标dma_1010日买卖情况和价格趋势三重指数平滑平均线trix股价波动趋势6日变动率指标roc_66日买卖趋势四、数据分区本文使用sklearn中train_test_split函数将数据集以4:1比率划分训练集和测试集,得到389条训练数据和97条测试数据。。5.建立模型5.1使用CNN进行预测接下来是使用CNN进行预测的结果,设置50个4维卷积核即过滤器,全连接层使用20个神经元,使用leakyrelu激活函数,训练(epoch)50次,每批次处理(batch_size)32个样本,Dropout为0.2并且使用梯度下降法(SGD)进行优化。另外,本文建立的每个模型都尝试了不输入情绪指标进行预测,发现效果均低于输入了情绪指标的模型。下面以贵州茅台为例给出了不输入情绪指标的CNN的预测结果。一、贵州茅台图5-1不输入情绪指标茅台R方(CNN)图5-2不输入情绪指标茅台预测结果(CNN)图5-3茅台R方(CNN)图5-4茅台预测结果(CNN)二、五粮液图5-5五粮液R方(CNN)图5-6五粮液预测结果(CNN)三、泸州老窖图5-7泸州老窖R方(CNN)图5-8泸州老窖预测结果(CNN)5.2使用LSTM进行预测接下来是使用LSTM进行预测的结果,设置三层,分别为256个神经元,Dropout为0.3,128个神经元,Dropout为0.2,128个神经元,Dropout为0.2,使用leakyrelu激活函数,训练(epoch)30次,每批次处理(batch_size)32个样本,使用Adam算法优化。一、贵州茅台图5-9茅台R方(LSTM)图5-10茅台预测结果(LSTM)二、五粮液图5-11五粮液R方(LSTM)图5-12五粮液预测结果(LSTM)三、泸州老窖图5-13泸州老窖R方(LSTM)图5-14泸州老窖预测结果(LSTM)5.3使用GRU进行预测接下来是使用GRU进行预测的结果,设置三层,每层50个神经元,使用leakyrelu激活函数,训练(epoch)30次,每批次处理(batch_size)32个样本,Dropout为0.2并且使用Adam进行优化。一、贵州茅台图5-15茅台R方(GRU)图5-16茅台预测结果(GRU)二、五粮液图5-17五粮液R方(GRU)图5-18五粮液预测结果(GRU)三、泸州老窖图5-19泸州老窖R方(GRU)图5-20泸州老窖预测结果(GRU)6.总结与展望6.1研究总结研究结果表明神经网络可以作为股票预测的参考手段,同时技术指标和情绪指标的结合可以在神经网络的训练过程中发挥作用。CNN在短期股票的预测中,表现出较好的效果。LSTM严谨但复杂的计算过程在实际应用中,尤其是在时间周期偏短的情况下不一定能取得非常好的效果,而GRU作为LSTM的变体能更快的运算速度,达到了它的初衷,并且效果优于LSTM。从结果可以看出,至少在对白酒行业股票的预测中,投资者可以建立CNN、LSTM、GRU模型使用较短时间周期的数据,花费较低的时间成本对股票的涨跌趋势进行判断,作为未来投资计划的参考。6.2不足与展望虽然本文的研究中模型都能取得一定的效果,但因文本量过大,由于硬件和网站等多方面的限制本文只使用了两年的数据,如果使用更长时间的数据每个模型的效果可能就有所不同,尤其是为处理长时间周期数据的LSTM模型。使用相同模型对不同板块股票进行预测的效果可能也不同。使用更丰富的模型预测更多不同板块的股票是今后的改进方向之一。结合对股价等其他数据的预测判断股票走势相信也可以给投资者提供更好的判断依据。目前还没有权威且长期有效的方法预测股票。神经网络在预测中有效果,提供给它的特征也多样、专业,但无论神经网络还是其在股票预测的研究都没有到成熟阶段。想通过目前的神经网络完全预测股票存在诸多难点。股票市场瞬息万变且在包括但不限于自然灾害、战争等突发情况下,模型可能完全失效,此时投资者的感性可能占主导,但对投资者情绪正确获取和计算也变得艰难。如何在异常情况下保证模型预测效果、更快处理海量数据相信会是未来研究热点方向之一。参考文献[1]田鑫.基于情绪指数和神经网络的上证指数预测研究[D].哈尔滨工业大学,2012.[2]张迟盼.我国投资者情绪对股票价值溢价的影响研究[D].中国海洋大学,2015.[3]吴飞飞.基于投资者情绪和NARX动态神经网络的证券价格可预测性研究[D].首都经济贸易大学,2017.[4]杨程远.结合情感分析的股票预测研究[D].内蒙古大学,2017.[5]周凌寒.基于LSTM和投资者情绪的股票行情预测研究[D].华中师范大学,2018.[6]王聪,高广阔,王亮.基于个体投资者情感量化的上证指数预测检验[J].经济研究导刊,2018(26):159-164.[7]周小波.基于情感分析的中国股市短期价格预测研究[D].西南交通大学,2020.DOI:10.27414/ki.gxnju.2020.001184.[8]裴曼如,张立文.基于投资者情绪和深度学习的股票价格趋势预测研究[J].金融发展,2020(01):78-97.[9]田雨.基于投资者情绪和LSTM的股价走势预测研究[D].上海师范大学,2021.DOI:10.27312/ki.gshsu.2021.002195.[10]丁力.融合新闻主题和评论情感特征分析的股市预测方法研究[D].南京财经大学,2021.DOI:10.27705/ki.gnjcj.2021.000040.[11]宋丽娜.基于情感分析和PCA-LSTM模型的股票价格预测[J].中国管理信息化,2021,24(21):159-161.[12]HanaAlostad,HasanDavulcu.DirectionalpredictionofstockpricesusingbreakingnewsonTwitter[J].
WebIntelligence,2017,15(1).[13]FengWang,Yongquan
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 新三年级上册语文期末复习情境看拼音写词语专项(含答案)
- 人力资源未来人才发展专家面试题及答案
- 人力资源管理(第五章)
- 城建项目书记面试题及解答方法
- 如何拥有健康光泽的秀发
- 软件测试工程师考试重点复习资料含答案
- 供应链采购专员面试题及采购技巧含答案
- 道法课件师生交往
- 2025内蒙古鄂尔多斯市伊金霍洛旗公立医院招聘专业技术人员备考笔试试题及答案解析
- 2025广东台山大湾控股发展集团有限公司招聘5人备考考试试题及答案解析
- 幼儿园课件:《江雪》
- 生物安全实验室自查报告及整改措施
- 电梯维护保养协议书
- 2026四川农商银行校园招聘1065人笔试考试备考试题及答案解析
- GDM患者体重管理的营养干预方案
- 夫妻调解和好协议书
- 医疗健康大数据的精准营养方案
- 2025新疆哈密十三师水务管理有限公司第1次竞聘45人笔试历年参考题库附带答案详解
- 破损疫苗应急预案(3篇)
- 小肠阴道疝护理课件
- 5.1《两位数加减两位数(不进位、不退位)》(课件)-2025-2026学年二年级上册数学 苏教版
评论
0/150
提交评论