已阅读5页,还剩66页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
广东金融学院金融实战 金融数据挖掘 中国“新能源”板块股票价格预测学生姓名:卫 俊 严宇光 陈浩杰指导教师:骆世广提交日期:2012年6月28日摘 要研究股票价格预测,由于股票价格数据具非线性、随机性等变化规律,同时股票市场与国内外经济政治变化有关,因此通过简单的单个模型分析是很难准确有效的对股票价格进行预测,更准确的股价预测需要分层次进行各类模型分析,我们将运用spss clementine client 11.1系统和eviews系统首先分别通过指数平滑法和arima法对股票价格进行整体的预测(即股指预测),接着利用神经网络、logistic回归以及c5.0算法法对中国“新能源”股票价格进行涨跌预测,最后再运用k-means和两步法进行股票划分,通过此种方法更能合理有效的对股票价格作出系统、准确的预测。关键词:中国新能源; 股票价格; 指数平滑; arima; 神经网络;logistic回归; c5.0算法; k-means; 两步法; spss clementine client 11.1; eviewsabstractin the research of stock prices forecasts, due to the nonlinearity and randomness of stocks price and changes of economics and politics in home and broad, it is difficult to predict the stock price accurately and effectively with only a single analyzing model. to forecast more effectively, we need to apply different model analysis on different levels. firstly, we use exponential smoothing and arima to forecast stocks price in new energy sector (the stock index prediction) with spss clementine client 11.1 and eviews separately. secondly, we apply ann, logistic regression and c5.0 algorithm to forecast the ups and downs of stocks price in this sector. and then with k-means and two-step cluster analyses, we try to divide the stocks through which we are intending to find the very sectors that contribute the rise of the stocks from the inside of data. by trying out all this way, it can systematically make accurate predictions on the stock price.key words: new energy; stock price; exponential smoothing; arima; ann; logistic regression; c5.0 algorithm; k-means; two-step cluster analysis; spss clementine client 11.1; eviews目 录引 言11. 中国新能源当前现状21.1 中国新能源的发展21.2 中国新能源市场32股指预测42.1 指数平滑法42.1.1指数平滑的基本公式42.1.2指数平滑的预测公式52.1.3指数平滑系数的确定62.1.4指数平滑法的趋势调整72.2 arima模型72.2.1 时间序列的ar、ma和arima建模73. 涨跌主要因素分析93.1 logistic回归模型93.1.1 logistic回归模型93.1.2 假设检验93.1.3 回归系数的意义:103.2 决策树算法103.2.1 c4.5分类算法所涉及的概念描述113.2.2 c4.5算法对缺失数据的处理123.2.3 c4.5算法对决策树的剪枝处理123.2.4 c4.5算法的优缺点123.3 神经网络算法133.3.1 神经网络的简单原理133.3.2 神经元和神经网络的结构133.3.3 bp网络153.4.4 hopfield神经网络174. 股票划分214.1 k-means聚类算法214.2 two-step 聚类算法225. 数值仿真235.1 股指预测235.1.1 指数平滑法预测235.1.2 arima模型预测305.2涨跌主要因素分析395.2.1数据处理395.2.2小结485.3股票划分495.3.1数据处理495.3.2小结616. 结论62参考文献63引 言进行股票投资是为了获得更大的收益,然而由于股票市场具有较大的动态特性,股票投资的收益与风险往往是成正比的,投资收益越高,存在风险则越大。有效地进行股票价格的预测,最大程度规避股票风险,增加投资收益,是股票投资者最关注的热点问题。目前,股票预测方法主要有回归分析法、时间序列法、马尔柯夫预测等方法,由于股票价格受到国家的政治、金融状况、心理等因素的影响,股票价格的变化往往呈现出非线性特征,而这些方法都基于线性变化建模的,因此不能很好地对股票价格的变化做出分析和预测,导致预测精度不高。还有一些其他的预测方法就是支持向量机、神经网络等人工智能预测方法。好比人工智能方法中神经网络方法ann 具有对非线性关系有着很强的非线性逼近能力,由于股票价格呈非线性,其成交价、成交量中涵含有大量决定股票价格变化的内在规律或特点,ann 可以通过股票历史数据进行学习,从而找出股票价格的规律,实现对股票价格的准确预测。除此之外,指数平滑法、arima、logistic回归、c5.0算法、k-means、两步法等神经网络对股票价格预测精度与模型参数有直接联系,当前,单一的预测方法已经不能满足于对股票价格全方位的进行预测,而需要运用各种行之有效的、精确的预测方法相结合去对股票价格进行预测,再在此过程中对模型进行优化使其结果更加精确。本文针对中国新能源板块的股票价格进行预测,仿真结果表明,本文提出的股票价格预测精度高,是一种有效的股票价格预测方法。1. 中国新能源当前现状1.1 中国新能源的发展随着传统能源日益紧缺,新能源的开发与利用得到世界各国的广泛关注,越来越多的国家采取鼓励新能源发展的政策和措施,新能源的生产规模和使用范围正在不断扩大。京都议定书到期后新的温室气体减排机制将进一步促进绿色经济以及可持续发展模式的全面进行,新能源将迎来一个发展的黄金年代。当前,中国的能源与环境问题严重,新能源开发利用受到越来越高的关注。新能源一方面作为传统能源的补充,另一方面可有效降低环境污染。我国可再生能源和新能源开发利用虽然起步较晚,但近年来也以年均超过25%的速度增长。自2006年可再生能源法正式生效后,政府陆续出台了一系列与之配套的行政法规和规章来推动新能源的发展,中国新能源行业进入发展的快车道。中国在新能源和可再生能源的开发利用方面已经取得显著进展,技术水平有了很大提高,产业化已初具规模。生物质能、核能、地热能、氢能、海洋能等新能源发展潜力巨大,近年来得到较大发展。为适应节能减排要求,混合动力车、纯电动汽车、燃料电车等新能源汽车已成为汽车业的重要发展方向。 新能源作为国家加快培育和发展的战略性新兴产业之一,将为新能源大规模开发利用提供坚实的技术支撑和产业基础。国家已经出台和即将出台的一系列政策措施,将为新能源发展注入动力。随着投资新能源产业的资金、企业不断增多,市场机制的不断完善,“十二五”期间新能源企业将加速整合,我国新能源产业发展前景乐观。国际能源署(iea)对2000年2030年国际电力的需求进行了研究,研究表明,来自可再生能源的发电总量年平均增长速度将最快。iea的研究认为,在未来30年内非水利的可再生能源发电将比其他任何燃料的发电都要增长得快,年增长速度近6%,在20002030年间其总发电量将增加5倍,到2030年,它将提供世界总电力的4.4%。ictresearch认为,iea的研究过于保守,到2030年,可再生能源发电至少应占世界总电力的10%以上,要翻1015倍。1.2 中国新能源市场光伏:市场短期的阴霾不掩长期灿烂,光伏辅料的国产化机会备受关注。光伏行业正在经历因产能扩张增速远大于需求增速而导致的供给过剩,全产业链面临价格下跌、利润水平下降的压力。ictresearch认为短期内,从组件、电池片、硅片到多晶硅均面临利润被压缩的压力;但长期看终端价格的下降有利于更早实现光伏平价上网,ictresearch维持行业长期高景气的判断。风电:行业整合加剧,行业龙头优势将愈加凸显,关注风机材料国产化的蓝海市场。短期供给过剩导致的全行业价格下行压力仍将持续。政策面对于风电制造业门槛的抬高和行业规范化治理的重视,将有利于风电行业走出无序竞争,提升行业集中度,未来行业将呈现强者恒强态势。核电:安全风险巨大,等待政策明朗。由于日本核电事故造成的深节能远影响,各国相继出台政策计划逐步退役核电站;国内政策并未改变目前的核电建设规划,但建设进度可能放缓,未来审批标准将愈见严格。新型电池:新能源汽车和储能市场的量产启动可期,关注电池材料商的业绩释放。政策方面目前以示范运营先行,ictresearch认为地方政府的扶持力度已经为新能源汽车运营提供了良好的政策环境;充电/换电模式并行,为新能源汽车运营提供了必要的硬件设施。2股指预测 随着中国经济的迅速发展,中国的股票市场不断完善,人们对于股市的参与越来越多,渴望能对股票价格进行预测。这是目前全世界都在关注的一个股票问题,吸引着无数的研究学者。目前股票价格预测多数是运用时间序列来预测股票价格的整体趋势,以下主要介绍指数平滑法、arima模型。2.1 指数平滑法指数平滑法是robert g.brown所提出,robert g.brown认为时间序列的态势具有稳定性或规则性,所以时间序列可被合理地顺势推延;他认为最近的过去态势,在某种程度上会持续到最近的未来,所以将较大的权数放在最近的资料。指数平滑法是生产预测中常用的一种方法。也用于中短期经济发展趋势预测,所有预测方法中,指数平滑是用得最多的一种。简单的全期平均法是对时间数列的过去数据一个不漏地全部加以同等利用;移动平均法则不考虑较远期的数据,并在加权移动平均法中给予近期资料更大的权重;而指数平滑法则兼容了全期平均和移动平均所长,不舍弃过去的数据,但是仅给予逐渐减弱的影响程度,即随着数据的远离,赋予逐渐收敛为零的权数。也就是说指数平滑法是在移动平均法基础上发展起来的一种时间序列预测分析法,它是通过计算指数平滑值,配合一定的时间序列预测模型对现象的未来进行预测。其原理是任一期的指数平滑值都是本期实际观察值与前一期指数平滑值的加权平均。2.1.1指数平滑的基本公式指数平滑法的基本公式是:st=yt+(1-)st-1式中, st是时间t的平滑值;yt时间t的实际值;st-1时间t-1的平滑值;是平滑系数,其取值范围为0,1。由该公式可知:(1)st是yt和st-1的加权算术平均数,随着取值大小变化,决定yt和st-1对st的影响程度,当取1时,st= yt;当取0时,st=st-1。(2)st具有逐期追溯性质,可探源至st-t+1为止,包括全部数据。其过程中,平滑常数以指数形式递减,故称之为指数平滑法。指数平滑常数取值至关重要。平滑常数决定了平滑水平以及对预测值与实际结果之间差异的响应速度。平滑常数越接近于1,远期实际值对本期平滑值影响程度的下降越迅速;平滑常数越接近于 0,远期实际值对本期平滑值影响程度的下降越缓慢。由此,当时间数列相对平稳时,可取较大的;当时间数列波动较大时,应取较小的,以不忽略远期实际值的影响。生产预测中,平滑常数的值取决于产品本身和管理者对良好响应率内涵的理解。(3)尽管st包含有全期数据的影响,但实际计算时,仅需要两个数值,即yt和 st-1,再加上一个系数,这就使指数滑动平均具逐期递推性质,从而为预测带来了极大的方便。(4)根据公式s1=y1+(1-)s0,当欲用指数平滑法时才开始收集数据,则不存在y0。无从产生s0,自然无法根据指数平滑公式求出s1,指数平滑法定义s1为初始值。初始值的确定也是指数平滑过程的一个重要条件。如果能够找到y1以前的历史资料,那么,初始值s1的确定是不成问题的。数据较少时可用全期平均、移动平均法;数据较多时,可用最小二乘法。但不能使用指数平滑法本身确定初始值,因为数据必会枯竭。 如果仅有从y1开始的数据,那么确定初始值的方法有: 取s1等于y1;待积累若干数据后,取s1等于前面若干数据的简单算术平均数,如:s1=(y1+y2+y3)/3等等。2.1.2指数平滑的预测公式据平滑次数不同,指数平滑法分为:一次指数平滑法、二次指数平滑法和三次指数平滑法等。初始值的确定,即第一期的预测值。一般原数列的项数较多时(大于15项),可以选用第一期的观察值或选用比第一期前一期的观察值作为初始值。如果原数列的项数较少时(小于15项),可以选取最初几期(一般为前三期)的平均数作为初始值。指数平滑方法的选用,一般可根据原数列散点图呈现的趋势来确定。如呈现直线趋势,选用二次指数平滑法;如呈现抛物线趋势,选用三次指数平滑法。或者,当时间序列的数据经二次指数平滑处理后,仍有曲率时,应用三次指数平滑法。(1)一次指数平滑预测当时间数列无明显的趋势变化,可用一次指数平滑预测。其预测公式为:yt+1=yt+(1-)yt 式中: yt+1是t+1期的预测值,即本期(t期)的平滑值st;yt是t期的实际值;yt是t期的预测值,即上期的平滑值st-1。该公式又可以写作:yt+1=yt+(yt-yt)。可见,下期预测值又是本期预测值与以为折扣的本期实际值与预测值误差之和。(2)二次指数平滑预测二次指数平滑是对一次指数平滑的再平滑。它适用于具线性趋势的时间数列。其预测公式为: yt+m=2+m1-yt-1+m1-yt=2yt-yt+myt-yt /(1-)式中,yt=yt-1+(1-)yt-1,显然,二次指数平滑是一直线方程,其截距为:(2yt-yt),斜率为:yt-yt /(1-),自变量为预测天数。(3)三次指数平滑预测三次指数平滑预测是二次平滑基础上的再平滑。其预测公式是:yt+m=3yt-3yt+yt+6-5yt-10-8yt+4-3ytm21-2+(yt-2yt+yt)2m2/2(1-)2式中: yt=yt-1+(1-)yt-1,它们的基本思想都是:预测值是以前观测值的加权和,且对不同的数据给予不同的权,新数据给较大的权,旧数据给较小的权。2.1.3指数平滑系数的确定指数平滑法的计算中,关键是的取值大小,但的取值又容易受主观影响,因此合理确定的取值方法十分重要,一般来说,如果数据波动较大,值应取大一些,可以增加近期数据对预测结果的影响。如果数据波动平稳,值应取小一些。理论界一般认为有以下方法可供选择: 经验判断法。这种方法主要依赖于时间序列的发展趋势和预测者的经验做出判断,当时间序列呈现较稳定的水平趋势时,应选较小的值,一般可在0.050.20之间取值;当时间序列有波动,但长期趋势变化不大时,可选稍大的值,常在0.10.4之间取值;当时间序列波动很大,长期趋势变化幅度较大,呈现明显且迅速的上升或下降趋势时,宜选择较大的值,如可在0.60.8间选值,以使预测模型灵敏度高些,能迅速跟上数据的变化;当时间序列数据是上升(或下降)的发展趋势类型,应取较大的值,在0.61之间。 试算法。根据具体时间序列情况,参照经验判断法,来大致确定额定的取值范围,然后取几个值进行试算,比较不同值下的预测标准误差,选取预测标准误差最小的。 在实际应用中预测者应结合对预测对象的变化规律做出定性判断且计算预测误差,并要考虑到预测灵敏度和预测精度是相互矛盾的,必须给予二者一定的考虑,采用折中的值。2.1.4指数平滑法的趋势调整一段时间内收集到的数据所呈现的上升或下降趋势将导致指数预测滞后于实际需求。通过趋势调整,添加趋势修正值,可以在一定程度上改进指数平滑预测结果。调整后的指数平滑法的公式为: 包含趋势预测(yitt)=新预测((yt)+趋势校正(tt) 进行趋势调整的指数平滑预测有三个步骤: 1利用前面介绍的方法计算第t期的简单指数平滑预测(yt); 2计算趋势。其公式为: tt=(1-b) tt-1+b(yt-yt-1),其中,tt是第t期经过平滑的趋势;tt-1是第t期上期经过平滑的趋势;b是选择的趋势平滑系数;yt是对第t期简单指数平滑预测;yt-1是对第t期上期简单指数平滑预测。 3 计算趋势调整后的指数平滑预测值(yitt))。计算公式为:yitt=yt+tt。2.2 arima模型上世纪70年代,g.p. box和g.m. jenkins提出了arima方法,即差分自回归移动平均模型。其中arima(p,d,q)称为差分自回归移动平均模型,ar是自回归,p为自回归项;ma为移动平均,q为移动平均项数,d为时间序列成为平稳时所做的差分次数。arima模型的基本思想是:将预测对象随时间推移而形成的数据序列视为一个随机序列,用一定的数学模型来近似描述这个序列。这个模型一旦被识别后就可以从时间序列的过去值及现在值来预测未来值。2.2.1 时间序列的ar、ma和arima建模1. 自回归过程令yt表示t时期的gdp。如果我们把yt的模型写成yt-=1yt-1-+ut其中是y的均值,而ut是具有零均值和恒定方差2的不相关随机误差项(即ut是白噪音),则称yt遵循一个一阶的自回归或ar(1)随机过程。p阶的自回归函数形式写成:yt-=1yt-1-+2yt-2-+3yt-3-+p2yt-p-+ut模型中只有y这一个变量,没有其他变量。可以理解成“让数据自己说话”。2. 移动平均过程上述ar过程并非是产生y的唯一可能机制。如果y的模型描述成yt=+0ut+1ut-1其中是常数,u为白噪音(零均值、恒定方差、非自相关)随机误差项。t时期的y等于一个常数加上现在和过去误差项的一个移动平均值。则称y遵循一个一阶移动平均或ma(1)过程。q阶移动平均可以写成:yt=+0ut+1ut-1+2ut-2+qut-q3.自回归求积移动平均过程上面所做的都是基于数据是平稳的,但是很多时候时间数据是非平稳的,即是单整(单积)的,一般非平稳数据经过差分可以得到平稳数据。因此如果我们讲一个时间序列差分d次,变成平稳的,然后用arma(p,q)模型,则我们就说那个原始的时间序列是arima(p,d,q),即自回归求积移动平均时间序列。arima(p,0,q)=arma(p,q)。3. 涨跌主要因素分析股票市场作为一种在多种不确定因素共同影响下的巨大系统,各种股票价格的波动往往表现出较强的非线性特征,所以是否能合理处理这些非线性因素,制约着股票价格预测的准确性。为了找出影响股价波动的因素,这里尝试运用了logistic回归、决策树算法和神经网络模型。3.1 logistic回归模型logistic回归主要用于筛选疾病的危险因素、预后因素或评价治疗措施;通常以疾病的死亡、痊愈等结果发生的概率为因变量,以影响疾病发生和预后的因素为自变量建立模型。3.1.1 logistic回归模型logistic回归模型如下:logistic回归模型的参数估计通常利用最大似然估计法。3.1.2 假设检验1logistic回归方程的检验:检验模型中所有自变量整体来看是否与所研究事件的对数优势比存在线性关系,也即方程是否成立。检验的方法有:似然比检验、比分检验和wald检验。上述三种方法中,似然比检验最可靠。似然比检验(likelihood ratio test):通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对数似然函数变化来进行,其统计量为g=-2ln(l)(又称deviance)。无效假设h0:=0。当h0成立时,检验统计量g近似服从自由度为n-p-1的x2分布。当g大于临界值时,接受h1,拒绝无效假设,认为从整体上看适合作logistic回归分析,回归方程成立。2logistic回归系数的检验:为了确定哪些自变量能进入方程,还需要对每个自变量的回归系数进行假设检验,判断其对模型是否有贡献。检验方法常用wald x2检验,无效假设h0:=0。当x2大于临界值时,拒绝无效假设,自变量能进入方程。3logistic回归模型的拟合优度检验:logistic回归模型的拟合优度检验是通过比较模型预测的与实际观测的事件发生与不发生的频数有无差别来进行检验。如果预测的值与实际观测的值越接近,说明模型的拟合效果越好。模型的拟合优度检验方法有偏差检验(deviance)、皮尔逊检验、统计量(homser-lemeshow),分别计算统计量x2d、x2 p、x2hl值。统计量值越小,对应的概率越大。无效假设h0:模型的拟合效果好。模型拟合优度信息指标有:-2lnl、aic、sc。这3个指标越小表示模型拟合的越好。logistic回归模型的预测准确度常用广义决定系数r2 和预测准确率来表示。3.1.3 回归系数的意义:利用参数和优势比探讨影响因素。当 =0,优势比or=1时,表示自变量x对是否出现阳性结果不存在影响;当 0,优势比or1时,表示自变量x对是否出现阳性结果有影响。 0,or增加是危险因素, 0,or减小是保护因素。3.2 决策树算法决策树算法通过将训练记录相继划分为较纯的子集,并以递归方式来建立决策树。hunt算法是许多经典决策树算法如id3、c4.5的基础,hunt算法对决策树的建立过程描述如下:假定dt是与节点t相关联的训练记录集,c=c1, c2, cm是类标号,hunt算法的递归定义如下:(1)如果dt中所有记录都属于同一个类ci(1im),那么t是叶的节点,有类标号ci进行标记。(2)如果dt包含属于多个类的记录,则选择一个属性测试条件,将记录划分为更小的子集。对于测试条件的每个输出,创建一个子女节点,并根据测试结果将dt中的记录分布到子女节点中,然后对每个子女节点递归调用该算法。决策树分类算法有许多种,这里详细介绍c4.5分类算法。3.2.1 c4.5分类算法所涉及的概念描述假定s为训练集,目标属性c具有m个可能的取值,c=c1, c2, , cm,即训练集s的目标属性具有m个类标号值c1, c2, , cm。c4.5算法所涉及的概念描述如下:(1)假定训练集s中,ci在所有样本中出现的频率为pi(i=1, 2, m),则该集合s所包含的信息熵为:(2)设用属性a来划分s中的样本,计算属性a对集合s的划分熵值。如果属性a为离散型数据,并具有k个不同的取值,则属性a依据这k个不同取值将s划分为k个子集s1, s2, , sk,属性a划分s的信息熵为,其中和分别是和中包含的样本个数。如果属性a为连续型数据,则按属性a的取值递增排序,将每对相邻值的中点看做可能的分裂点,对每个可能的分裂点,计算 。其中,和分别对应于该分裂点划分的左右两部分子集,选择值最小的分裂点作为属性a的最佳分裂点,并以该最佳分裂点按属性a对集合s的划分熵值作为属性a划分s的熵值。(3)c4.5以信息增益率作为选择标准,不仅考虑信息增益的大小程度,还兼顾考虑为获得信息增益所付出的“代价”。c4.5通过引入属性的分裂信息来调用信息增益,分裂信息定义为:,信息增益定义为:这样如果某个属性有较多的分类取值,则它的信息熵会偏大,但信息增益率由于考虑了分裂信息而降低,进而消除了属性取值数目所带来的影响。3.2.2 c4.5算法对缺失数据的处理在某些情况下,可供使用的数据可能缺少某些属性的值。假如x,c(x)是样本集s中的一个训练实例,但是其属性a的值a(x)未知。处理缺少属性值的一种策略是赋给它结点n所对应的训练实例中该属性的最常见值;另外一种更复杂的策略是为a的每个可能值赋予一个概率。例如,给定一个布尔属性a,如果结点n包含6个已知a=1和4个a=0的实例,那么a(x)=1的概率是0.6,而a(x)=0的概率是0.4。于是,实例x的60%被分配到a=1的分支,40%被分配到另一个分支。这些片断样例(fractional examples)的目的是计算信息增益,另外,如果有第二个缺少值的属性必须被测试,这些样例可以在后继的树分支中被进一步细分。3.2.3 c4.5算法对决策树的剪枝处理为避免树的高度无节制的增长,避免过度拟合数据,c4.5算法采用了一种后剪枝的方法,它用训练样本集本身来估计剪枝前后的误差,从而决定是否真正剪枝。方法中使用的公式如下:,其中n是实例的数量,f=e/n为观察到的误差率(其中e为n个实例中分类错误的个数),q为真实的误差率,c为置信度(c4.5算法的一个输入参数,默认值为0.25),z为对应于置信度c的标准差,其值可根据c的设定值通过查正态分布表得到。通过该公式即可计算出真实误差率q的一个置信度上限,用此上限为该节点误差率e做一个悲观的估计:,通过判断剪枝前后e的大小,从而决定是否需要剪枝。3.2.4 c4.5算法的优缺点优点:产生的分类规则易于理解,准确率较高。缺点:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。此外,c4.5只适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时程序无法运行。3.3 神经网络算法3.3.1 神经网络的简单原理 人工神经网络( artificial neural networks, 简写为anns)也简称为神经网络(nns)或称作连接模型(connectionist model),是对人脑或自然神经网络(natural neural network)若干基本特性的抽象和模拟。人工神经网络以对大脑的生理研究成果为基础的,其目的在于模拟大脑的某些机理与机制,实现某个方面的功能。所以说, 人工神经网络是由人工建立的以有向图为拓扑结构的动态系统,它通过对连续或断续的输入做出状态相应而进行信息处理。它是根据人的认识过程而开发出的一种算法。假如我们现在只有一些输入和相应的输出,而对如何由输入得到输出的机理并不清楚,那么我们可以把输入与输出之间的未知过程看成是一个“网络”,通过不断地给这个网络输入和相应的输出来“训练”这个网络,网络根据输入和输出不断地调节自己的各节点之间的权值来满足输入和输出。这样,当训练结束后,我们给定一个输入,网络便会根据自己已调节好的权值计算出一个输出。这就是神经网络的简单原理。3.3.2 神经元和神经网络的结构如上所述,神经网络的基本结构如图所示: 神经网络一般都有多层,分为输入层,输出层和隐含层,层数越多,计算结果越精确,但所需的时间也就越长,所以实际应用中要根据要求设计网络层数。 神经网络中每一个节点叫做一个人工神经元,他对应于人脑中的神经元。人脑神经元由细胞体、树突和轴突三部分组成,是一种根须状蔓延物。神经元的中心有一闭点,称为细胞体,它能对接受到的信息进行处理,细胞体周围的纤维有两类,轴突是较长的神经纤维,是发出信息的。树突的神经纤维较短,而分支众多,是接收信息的。一个神经元的轴突末端与另一神经元的树突之间密切接触,传递神经元冲动的地方称为突触。经过突触的信息传递是有方向性的,不同的突触进行的冲动传递效果不一样,有的使后一神经元发生兴奋,有的使其发生抑制。由人脑神经元的工作机理,人们构造了人工神经元的数学模型,它是人脑的模拟和简化,如图所示。在图中,是表示神经元对信息的感知能力,称为关联权,称为输出函数或激活函数,采用激活函数的人工神经网络也称阈网络。mcculloch-pitts输出函数定义为其中,为符号函数,称为阈值。一般来说,一个人工神经元有多个输入和一个输出,另外有一个激活函数,不同的激发函数对应了不同的网络,也决定了网络的用途。从方程可以看出,当 确定时,任给一组输入,也就很容易得到输出。而现在我们的想法是:对给定的输入,确定权数,使得通过方程计算出来的输出尽可能与实际值吻合,这即是学习的过程。学习也称为训练,指的是通过神经网络所在环境的刺激作用调整神经网络的权数,使得神经网络对外部环境以一种新的方式作出反应。学习分为有指导学习和无监督学习:在有正确输入输出数据条件下调整和确定权数的方法称为有指导学习;而在只知输入数据不知输出结果的前提下确定权数的方法称为无监督学习。人工神经网络的主要工作就是通过学习,建立模型和确定的值。神经网络按照网络结构和激发函数的不同可分为许多种,在此只对bp网络和hopfield神经网络进行简介。 3.3.3 bp网络 bp网络应用得最为广泛,最为重要的一种神经网络。这种网络一般有多层,有输入层,输出层和隐含层,上一层的输出即是下一层的输入,输出层所在的层数就是神经网络的层数。一般的多层前向神经网络结构如图所示:在实际应用中,bp网络的激活函数一般采用s型函数:, 这是因为s型函数有很好的函数特性,其效果又近似于符号函数,现主要讨论采用s型函数的多层前向神经网络的学习方法。假设有一个层的神经网络,从第0层到第1层的原始输入向量、权矩阵、第1层神经元接受向量和第1层输出向量以及它们之间的关系为:,第层到第层的权矩阵、神经元接受向量和输出向量以及它们之间的关系分别为:, 其中,。我们先讨论单样本学习规则。学习规则是:确定,使得最小,其中为理想输出。采用s型函数的前向多层神经网络的反推学习(bp)算法步骤如下:第1步:选定学习的数组,随机确定初始权矩阵;第2步:用学习数据计算;第3步:计算 ,其中,。 , 时, 其中,。第4步:反向修正,修正公式为:, 其中,。第5步:循环利用个学习样本,重复第2步第4步,对网络权数进行调整,直到整个训练集误差最小(网络达到稳定状态)。当激活函数时,代入、使计算可以得以简化。bp网络的用途十分广泛,可用于以下方面:函数逼近:用输入矢量和相应的输出矢量训练一个网络逼近一个函数;模式识别:用一个特定的输出矢量将它与输入矢量联系起来;分类:把输入矢量以所定义的合适方式进行分类;数据压缩:减少输出矢量维数以便于传输或存储。 3.4.4 hopfield神经网络前面介绍的感知机和bp网络都属于前向网络。前向网络结构简单、易于编程,但计算能力不够强大。反馈神经网络是一个反馈动力学系统,具有更强的计算能力。其一般结构如图所示:反馈型神经网络中,神经元之间信息交互关系不再是从一层传递到另一层,而是各神经元之间都存在关系,存在从输出到输入的反馈,所以反馈型神经网络可能是不稳定的。反馈型神经网络有连续型和离散型两类,连续型用微分方程描述,离散型用差分方程描述。j. hopfield将神经网络和动力学系统研究结合起来,于20世纪80年代提出了一个全新的神经网络模型hopfield神经网络,并把一个最优化问题的目标函数转换成网络的能量函数,把问题的变量对应于网络的状态,求解出了旅行商问题的准优解。hopfield神经网络属于反馈型神经网络,若hopfield神经网络的权数矩阵是对角线元素为0的对称矩阵,即:,则可以证明这种神经网络是稳定网络,即反馈与迭代的计算过程所产生的变动越来越小,一直到达平衡状态。(1)离散hopfield神经网络离散hopfield神经网络神经元的输出为离散值0和1,分别代表神经元抑制和激活状态,若神经元的输出信息小于阈值,神经元输出值为0;反之输出值为1。对于有个神经元的离散hopfield神经网络,其权数矩阵为维对称阵,每个神经元都有一个阈值,故有一个维的阈值向量,权数矩阵和阈值矢量就定义了唯一一个个神经元的离散hopfield神经网络。hopfield网络中的神经元公式可表示为:其中,表示神经元的初始状态,表示神经元在时刻的状态,同时也是神经元在时刻的输出,表示神经元的阈值。一个个神经元的离散hopfield网络在时刻的状态可以用一个维向量表示为:。若采用符号激活函数时,将hopfield网络的能量函数定义为:任意神经元的能量函数为:容易推出从时刻到时刻的能量变化量为由于采用的是符号激活函数,所以无论神经元的状态变化如何,显然有,其中等号仅在神经元的状态不变时成立。又由于神经元的任意性,所以当网络按某一规则进行状态更新后,网络的总能量在减少。这样经过不断的迭代,网络最终达到稳定状态。在算法的构造上可以采用同步和异步两种方式,异步算法就是每次只调节一个神经元,其它神经元保持不变。同步算法就是同一时刻对所有神经元同时调整。下面仅给出hopfield网络异步算法的基本步骤,对于同步,读者不难自己给出。hopfield网络异步算法:第1步:初始化。任选一个初始状态;第2步:更新状态。随机选取一个神经元,进行状态更新: 第3步:检验。检验是否为网络的平衡点,若是转第4步;否则,转第2步;第4步:输出。输出。(2)连续hopfield神经网络hopfield利用模拟电子线路功能构造了反馈型神经网络的电路模型,建立的能量函数表达式为(a) 其中,为sigmoid函数,为神经元和神经元之间的连接权数。,对应电路中的电阻,为神经元的接受值,为外部偏置电流输入值,为增益项。对应的连续hopfield神经网络状态变化用微分方程表示为(b) 其中,是与有关的常数,当时,。(a)和(b)有如下关系: (c)容易证明,若为单调增函数,有:,且当且仅当时,。所以,连续hopfield神经网络的状态总是向着能量减少的方向运动的,因此网络总能收敛到稳定状态,网络的稳定点同时也是能量的极小点。具体地,hopfield神经网络的计算步骤:第1步:针对实际的组合优化问题构造能量函数,使得能量函数有好的稳定性;第2步:由能量函数,根据(c)的关系求解出hopfield神经网络状态变化方程b);第3步:用数值方法(如matlab软件)求解方程(b)得到平衡点,得极小值。需要注意的是: 能量的极小点有局部极小点和全局极小点两类,在具体的数值计算过程中,难免会陷入局部极小,所以有吸引子的热点研究。为了避免局部极小,可以采用多种方法的组合,如与遗传算法、模拟退火等方法的结合。 无论对离散型还是连续型的hopfield神经网络,只要权值矩阵是对称阵,网络就是稳定的,但由于hopfield神经网络神经元的连接权值在整个计算过程中是不变的,所以hopfield神经网络不具有学习能力。4. 股票划分在上一部分“涨跌预测”中,我们尝试利用logistic回归、决策树算法和神经网络模型来寻找影响股价波动的因素,但这是利用指导性的学习方法从数据外部来分析的。为了能全面系统地做出预测,我们还需要深入数据内部寻找答案。这里我们运用了聚类分析这种无指导的方法,如k-means聚类分析和两步法。4.1 k-means聚类算法k-means算法是1967年有macqueen首次提出的一种经典算法,迄今为止,很多聚类任务都选择该算法。k-means聚类算法的基本思想如下:随机选择k个对象,每个对象代表一个簇的初始均值或中心;对剩余的每个对象,根据其与各簇中心的距离,将它指派到最近(或最相似)的簇,然后技术每个簇的新均值,得到更新后的簇中心;不断重复,直到准则函数收敛。通常,采用平方误差准则,即对于每个簇中的每个对象,求对象到其中心距离的平方和,这个准则试图使生存的k个结果簇尽可能地紧凑和独立。k-means聚类算法的过程可以描述为:算法:k-means输入:数据集d,划分簇的个数k输出:k个簇的集合(1)从数据集d中任意选择k个对象作为初始簇中心;(2)repeat(3)for 数据集d中的每个对象p do(4)计算对象p到k个簇中心的距离(5)将对象p指派到与其最近(距离最短)的簇;(6)end for(7)计算每个簇中对象的均值,作为新的簇的中心;(8)until k个簇的簇中心不再发生变化对于k-means算法,通常使用误差平方和(sse)作为度量聚类质量的目标函数。sse形式的定义如下:其中,表示两个对象之间的距离(通常采用欧式距离)对于相同的k值,更小的sse说明簇中对象越集中。对于不同的k值,越大的k值应该对应越小的sse。4.2 two-step 聚类算法两步聚类算法能同时处理连续变量和分类变量,可以自己指定或者根据指定的判别准则自动选择聚类的个数,可以有效的分析大样本数据。算法基本原理如下:(1) 构建聚类特征树(cft),开始时,把某个观测量放在树的根节点处,它记录有该观测量的变量信息,然后根据指定的距离测度作为相似性依据,使每个后续观测量根据它与已有节点的相似性,放到最相似的节点中,如果没有找到某个相似性的节点,就为它形成一个新的节点。 (2) 使用凝聚聚类法对聚类特征树的节点进行分组,它通过比较bic aic ,确定最优的聚类个数 构建cft树时,如果指定了聚类个数等变量,而观测量又很多的话,可能发生cft树长满不能再生长的情况,那些没有长在树上的观测叫做噪声(noise),可以调整参数重新计算让cft树可以容纳更多的观测,也可以把它们直接归入某个类或者直接丢弃。被丢弃的观测量生物称为局外者(outlier)。5. 数值仿真本文收集了中国“新能源”板块股票的历史价格数据,用其对本文提出的模型性能进行检验。5.1 股指预测5.1.1 指数平滑法预测这里选取其中一只股票“中国宝安”,在spss系统里用指数平滑法来做股票整体趋势的预测。下图所示为该过程数据流整体情况。首先是对原始数据进行建模,主要是分析其趋势图,整体数据流如下所示:将“数据源”中的excel节点添加到数据流区域,并将“中国宝安.xls”文件加载到该节点,在该节点编辑窗口的“类型”标签下,将字段“股票代码”“最新股票名称”“日期” “开盘价”“最高价”“最低价”“前开盘价”的方向设置为无,“收盘价”的方向设置为“输出”,如下图,然后单击“读取值”按钮,最后单击“确定”按钮。向数据流中添加“时间区间”节点,并建立“中国宝安”节点到“时间区间”节点的连接,在应用“时间序列”节点时,不能简单地将“时间序列”节点插入数据流并执行流,通常在“时间序列”节点之前,必须先插入“时间区间”节点,该节点填写如下如所示,时间区间为“天(每周)”,时间为数据中的具体时间,即“年2011,月一月,天4”,只有在数据经过了“时间区间”节点的设置处理之后,spss系统才将其视为时间序列数据来处理。(在这里需要先得出原始数据的整个趋势图,因此不需设置“预测”项。)在建模之前,先通过散点图来对这个时间序列特性进行初步的了解,打开“时间散点图”节点的编辑窗口如下: 将“序列”选定为“收盘价”,其他参数保持默认设置,然后单击“执行”按钮,即可得到如下图所示时间散点图:由此我们已得到“中国宝安”2011年整年度股价的趋势图,接下来我们将删去12月份的数据,然后通过指数平滑法对其12月份数据进行预测,具体操作如下所示:前面操作和上面一样,只是数据是更改后的数据,即没有12月份的数据,打开“时间区间”节点,切换到“预报”标签下,勾选“将记录扩展至未来”复选框,并设置预测期数为“30”(一个月),即要预测未来30天的目标值。如下图所示:然后将“时间序列”节点添加到数据流中,并建立从“时间区间”节点到该“时间序列”节点的连接,打开该“时间序列”节点的编辑窗口,做如下图的设置。将建模方法设置为“指数平滑”,然后单击“标准.”按钮,将模型类型设置为“holts线性趋势”,“目标转换”设置为“自然对数”(将指数增长模型转换为线性增长趋势),然后点击“执行”按钮,即可获得holts模型。由上图holt模型可知,q=29.478,是对残差序列的随机性进行x2检验的q统计量,df=16是自由度,sig.=0.021是q统计量的显著性值。切换到“残差”标签,显示了残差序列的自相关分析图,如图所示:从图中可以看出,绝大部分残差序列的自相关系数落入95%置信区间中,说明残差序列是随机序列。下面来考察一下该模型对样本数据的拟合情况,将“时间散点图”节点添加到数据流
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电建物业考试题目及答案
- 雨篷雨棚项目可行性研究报告
- 内科护理学试题及答案泌尿系统作业习题
- 2025年成都百万职工技能大赛(低压电工)备赛试题库(含答案)
- 广西中考物理5年(2021-2025)真题分类汇编:专题11 电流和电路(解析版)
- 2020-2025年注册城乡规划师之城乡规划原理自我检测试卷A卷附答案
- 聘用科学顾问协议书模板
- 识别虚拟货币协议书
- imap协议书是指什么
- 农产品批发市场统一称重创新创业项目商业计划书
- NB-T31028-2012风电场工程安全预评价报告编制规程
- (高清版)JTGT 3331-04-2023 多年冻土地区公路设计与施工技术规范
- 冬季基坑施工方案及措施
- (新版)船员四小证Z01基本安全理论考试题库-1《基本急救》部分
- 石油行业安全生产标准化导则与实施规范
- 强国必须强军强军才能国安
- 实验室质量管理体系建立与运行课件
- 青少年药物滥用的预防和干预
- 插扣式脚手架施工方案
- 焊材抽检记录表
- 建设用地规划许可证审批表
评论
0/150
提交评论