回归分析在股票预测中的应用_第1页
回归分析在股票预测中的应用_第2页
回归分析在股票预测中的应用_第3页
回归分析在股票预测中的应用_第4页
回归分析在股票预测中的应用_第5页
免费预览已结束,剩余55页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第1章前言选题背景和意义股票价格是中国绝大多数公民关心的问题, 也是经济、 系统科学领域研究的热点问题。目前,证券市场的成熟程度己经成为衡量一个国家经济总体发展水平的重要指标。西方发达国家证券化比率 (股票市场总市值占 GDP的比重 )高达 50%-100%。新中国的证券市场虽然起步较晚, 但有了较快发展, 主要表现在股票市场的总市值和上市公司数目的不断增长。我国加入 WTO,所有经济元素都在向国际看齐,诸如法律法规, 关税水平等。 但随着贸易制度的完善, 股市作为经济的“晴雨表”与国际接轨,逐步走向成熟、规范是必然趋势。随着国家对证券市场的开放,政策调控水平以及投资集团群体思维能力的提高, 人们在交易行动之前对证券市场的未来加以预测也会成为一种自觉的思维活动。投资者们时刻在关心股市、 分析股市、试图预测股市的发展趋势,然而影响股票价格的因素很多,其作用机制也相当复杂, 其走势的预测非常困难。 主要因为我们缺乏信息对市场影响的传导系统的结构和系统模型, 并且不能准确把握金融政策、利率政策、 公司状况、 国际市场及投资者心理承受能力等因素的变化及其对市场的影响方式和作用。因此, 对我国证券投资预测的研究, 不仅可以使投资者获得风险既定下的最大收益或收益最大下的最小风险, 而且对研究证券价格的形成机制、评价证券市场效率以及对证券市场实施有效监管都具有重要作用。也正因为如此, 如何判断或预测股票市场价格走势引起了众多经济金融学家和市场分析人员的极大兴趣, 各种预测方法相继涌现, 证券投资领域可以说是研究和运用各种预测方法最多的领域之一。股市预测是经济预测的一个分支, 它是以准确的调查统计资料和股市信息为依据,从股票市场的历史现状和规律性出发, 运用科学的方法, 对股票市场的未来发展前景做出测定。股市的可预测性问题与有效市场假说 (三ffieientMarketHypothesis,简称EMH密切相关。) 如果有效市场理论或有效市场假说成立, 股票价格充分反映了所有相关的信息,价格变化服从随机游走, 股票价格的预测则毫无意义。 从中国股票市场的特征来看,大多数学者的结论支持中国的股票市场尚未达到弱势有效,也就是说,中国股票市场的股票价格时间序列并非序列无关,而是序列相关的,即历史数据对股票的价格形成起作用, 因此,可以通过对历史信息的分析预测价格。随着计算机技术、 混沌、分形理论的发展,人们开始将股票的市场行为纳入非线性动力学研究范畴。 我国学者闰冀楠、 张维和美国学者 AF.Darart和MZhong等分别采用非参数检验等方法, 发现我国股市的指数收益中, 存在经典线性相关之外的非线性相关, 从而拒绝了随机游走的假设, 指出股价的波动不是完全随机的,它貌似随机、杂乱,但在其复杂表面的背后,却隐藏着确定性的机制,因此存在可预测成分。当然,认为股价可预测,并不等于说可以 100%的准确预见,而是指可以使用经济预测的方法, 建立起能在一定误差要求之下的预测股价变动的预测模型。一批学者先后证实了证券市场的确存在着一些可利用的规律, 其成功率之高和稳定性之久,远远超出了“随机行走理论”可以解释的范围,因此,最近二十年,持证券市场缺乏效率观点人越来越多, 证券市场预测的研究也再次成为人们关注的热点, 应用技术分析等方法进行证券投资预测分析研究中逐渐成为证券投资的主要手段之一 [1]。股票的可预测性通过对已知事实的分析总结, 得到对客观世界的认识和规律。 这些规律可以帮助人类认识现有的世界,同时帮助人类对未知的现象做出正确的预测和判断,预测不能直接观测的事实。 预测是指从已知事件测定未知事件。 预测理论作为一种通用的方法论,既可以应用于研究自然现象, 也可以应用于研究社会现象。 将预测理论应用于各个领域,就产生了预测的各个分支,如医学预测、电力预测、经济预测、气象预测等等。在金融经济学的发展上, 人们对金融预测作了大量的探索, 取得了丰硕的成果。典型的金融预测是回归分析预测。 回归分析预测就是在大量观测数据的基础上,找出这些变量之间的内部规律, 从而定量的建立起一个变量与其它变量的数学表达式。为了研究这种规律性, 人们提出了许多预测模型, 并对这模型的性质及分析方法进行了深入的研究 [2]。这些在理论上很成功, 但它们都是建立在很理想的假设上, 而这些假设与市场的实际情况有很大差距, 所以这些理论在实际效果中并不理想。 另一种方法是从统计角度对金融时间序列进行研究。 这种方法直接从实际数据出发, 应用概率统计推断出市场未来的变化规律。虽然这种方法从经济学角度来讲缺乏理论性,但是在实际应用中效果较好。 而且,统计方法还可以对经济模型的好坏进行检验和评价。股市预测, 是金融经济预测的一个重要分支。 它对股票市场所反映的各种资讯进行收集、整理、综合等工作,从股市的历史、现状和规律性出发,运用科学的方法,对股市未来发展前景进行测定 [11]。回归的发展概况回归分析方法通常分为线性和非线性回归方法两大类,其中线性回归方法己经发展成为数理统计学的一个相对成熟的重要分支之一, 并被广泛应用于经济学、社会科学、 工程技术和生物学等许多领域当中, 进行各专业指标变量的统计分析和预测控制, 并取得可喜成绩。 随着回归分析方法研究的逐步深入以及具体实践遇到的大量复杂的非线性问题, 在线性统计的基础上, 非线性回归分析研究也逐渐发展起来并成为处理非线性问题的主要手段之一, 起到传统线性回归方法不可替代的重要作用。统计学理论的预测方法,主要是基于模型拟合和最小二乘原理建立各种回归、自回归、混合回归模型进行预测。此类方法,具有严格的数学基础,应用也最广泛,近年也有相当的发展。如Nelder,JA和城dderburn,R·w·M提出了广义线性模型 [13],它放松了经典线性模型的假设,极大地丰富了回归分析的理论。 Aarno,Li和Duan对假设进一步放松,提出了一般回归模型, 该领域研究具有十分惊人的前景, 但由于其仅能辨识参数的方向,应用起来十分不便, 仅能对建模提供指导。 在计量经济研究中, Ichimura则提出了一类十分重要的模型一单指标模型。研究的重点在于使之更适合于实际社会经济系统建模。非参数建模, 数据驱动式建模所考虑的重要问题是, 在事先对模型完全不了解的情况下, 如何提出一个适当的模型。 这方面研究的一个重要论题是非参数建模。Friedman和Stuetzle提出了pp回归模型 ;Breioan和Friedman提出了建模的ACE方法, Hastie和TibS于lirani提出了广义加性模型; Buja,Hastie和Tibshiran对加性建模进行了全面的评述与讨论 ;Breiman提出了高维数据建模的 MARS方法。它们共同的特点是模型形式灵活,建模过程涉及很少假定。但计算量大,解释困难,在指导变量选择及模型设定方面深入的研究是必不可少的。至于估计问题, NL2SLS(非线性二阶段最小二乘 )、NL3SLS(非线性三阶段最小二乘)和NLFIML(NLLIML)(非线性完全 (有限)信息极大似然 )估计方法是通常采用的方法, AmemiyA和Gallani均给予了总结与评述 [14]。解决的关键在于辅助变量的选取, 另外,有效初始点设置及考虑全局最小参数估计一方法的研究也是值得考虑的 。文章结构首先介绍论文研究背景和研究的可行性, 并讨论了回归的简单发展。 股票预测已成为越来越多的股民和学者关注的问题, 股票理论的可预测性被越来愈多的人认可。回归分析和非线性回归分析已越来越广泛的使用于股票研究中, 进行不断的研究和改善,意图得到更稳定更符合规律的算法结构。TOC\o"1-5"\h\z其次对各种预测方法进行了简单的概述介绍。 包括理论定义和基本算法, 并简单阐述了各种预测方法的优缺点。 可以看到各种方法都有它的优缺点和需要注重改善的地方。各种预测方法的对比中, 可以发现回归分析预测有操作简单, 容易理解等方面的优点,但也有选不准自变量的困扰。再次仔细介绍了回归分析的两部分, 线性回归分析和非线性回归分析算法的算法结构步骤和具体算法, 从最基本的一元线性回归分析着手, 介绍与一元线性回归分析算法相似度跟高的多元线性回归, 并进一步的引出非线性回归分析, 提出非线性回归分析的分析结果依赖于人为地设定出合理的期望函数和接近真实的初估值的缺点。最后,实例分析中简单讨论了数据处理的方法步骤,解决数据来源,选定八一钢铁历史数据数量 95期,分别做了线性和非线性回归分析的程序对比,线性回归分析中使用 matlab程序以开盘价、最高价、最低价、成交额、成交量为自变量,做出多元线性回归函数,并进行相关性程度分析,进行了 10期收盘价格预测;非线性回归模型中, 实现通过对每日收盘价的统计和规范化建立使用 garch模型,先对数据进行差分规范化,使得数据达到平稳序列,绘制时序图,确定随机波动比较平稳, 考查差分后序列的自相关图确定其相关性,建立模型,检验模型,实现模型拟合成功后成功预测 10天的预测收盘价, 数据用程序处理成功。第2章 预测方法概述预测作为一门实用学科 ,它所研究的内容就是如何对未来事物的发展进行科TOC\o"1-5"\h\z学的估计。所谓经济预测 ,就是指人们根据对客观经济发展事物及规律的认识 ,在观察和分析经济发展过程的历史与现状的基础上 ,对未来的经济发展趋势做出合理的判断和估计。以个别经济单位生产经营发展的前景作为考察对象 ,研究其各项有关指标之间的联系和发展变化状况的 ,则属于微观经济预测 ,如对工业企业所生产的具体商品的生产量、需求量和市场占有率的预测等。微观经济预测 ,是企业制定生产经营决策以及编制和检查计划的依据。经济预测的方法大体可分为两大类:一类是定性分析法 (又称经验判断法 ),它是人们通过对事物的性质、特点和已占有情况的分析 ,依靠主观判断和逻辑分来析预测事物未来发展状况的其结果只是定性描述和大体估计。 常用的定性预测方法有:市场调查预测法、 专家评估法、主观概率法等。另一类是定量分析法 (又称分析计算法 ),它是人们利用已占有的基础数据资料 ,通过建立数学模型进行计算来预测事物未来发展状况的 ,其结果则比较明确和具体。随着时代的发展, 数学被越来越多的应用到金融中。 它也给金融带来了一场革命。其中最受人瞩目的莫过于金融工程、 定量投资以及风险管理。 基于以上理论,除了传统的股票投资分析方法以外, 近年来又发展了许多新的股市预测方法,并且取得了很好的效果 [7]。趋势分析法趋势分析法也称趋势曲线分析、 曲线拟合或曲线回归, 是根据已知的历史资料来拟合一条曲线, 使得这条曲线能反映负荷本身的增长趋势, 然后按照这个增长趋势曲线,对要求的未来某一点估计出该时刻的负荷预测值。常用的趋势模型有线性趋势模型、 多项式趋势模型、线性趋势模型、 对数趋势模型、幂函数趋势模型、指数趋势模型、逻辑斯蒂 (logistic)模型、龚伯茨(gompertz)模型等,寻求趋势模型的过程是比较简单的,这种方法本身是一种确定的外推,在处理历史资料、拟合曲线,得到模拟曲线的过程,都不考虑随机误采用趋势分析拟合的曲线, 其精确度原则上是对拟合的全区间都一致的。 在很多情况下,选择合适的趋势曲线, 确实也能给出较好的预测结果。 但不同的模型给出的结果相差会很大,使用的关键是根据地区发展情况,选择适当的模型。时间序列法时间序列, 也叫时间数列、 历史复数或动态数列。 它是将某种统计指标的数值,按时间先后顺序排到 所形成的数列。时间序列预测法就是通过编制和分析时间序列, 根据时间序列所反映出来的发展过程、 方向和趋势, 进行类推或延伸,借以预测下一段时间或以后若干年内可能达到的水平。设 xi为时间序列中时点 i的观测值 ,其样本为 N;每次移动地求算术平均值TOC\o"1-5"\h\z所采用的观测个数为 n;则在第t时点的移动平均值 M1为1tM1 (xtxt1xt2 xtn1)xi (2-1)n nitn1式中Mt——第t时点的移动平均值,也可当做第t+1时点的预测值 yt1,即yT1 Mt,yt Mt1 (2-2)由( 2-2)式可导出:11Mt (xt1 xt 2 xt n1 xt n) xt xt n (2-3)nn1即得MtMT1 (xtxtn) (2-4)n由(2-4)可见,在计算各时的移动平均值过程中 ,若已算得 Mt1,则用(2-4)式较易于迭代计算出 M12.3灰色预测法灰色预测法是一种对含有不确定因素的系统进行预测的方法。 灰色预测模型称为GM模型,GM(1,1)表示一阶一个变量的微分方程型预测模型。 GM(1,1)是一阶单序列的线性动态模型。

设有数列 x(0)(1), x(0)(2), ⋯ ,x(0)(n)对 x(0)作累加生成 ,得到新的数列 x(1),其元素x(1)(i) ix0(n) i1,2,...,n(2-5)n0对数列 x(1),可建立预测模型的白化形式方程dx(1)dtdx(1)dtax(1) (2-6)式中:a, 为待估参数 .分别称为发展灰数和内生控制灰数 .设a?为待估参数向量 ,则最小二乘法求解 ,有:a?(BTB)1BTyn(2-7)最小二乘法求解 ,有:a?(BTB)1BTyn(2-7)12(x(1)(1)x(1)(2))B 12(x(1)(2) x(1)(3))1(x(1)(n1) x(1)(n))2yn [x(0)(2),x(0)(3), ,x(0)(n)]T将(2-7)式求得的 a?代入 (2-6)式,并解微分方程 ,有 GM(1,1)预测模型为:(1) (0) aix(i1)x(1)xaa灰色模型法使用短期数据得到的结果比较占优,但是使用长数据列得到的结果与其它相比,并不占优,数据列过长,系统受干扰的成分多,不稳定因素大,反而易使模型精度降低,降低预测结果的可信度。2.4模糊数学法模糊推理是在模糊逻辑基础上对模糊命题进行演绎和归纳推理, 以完成具有象人一样的近似判断能力的工作。模糊推理的句型表达如下 :(2-8)(2-9)(2-10)规则:如果x1是 A1,且 x2是 A2,,,且 xn是 An;那么Y是B。前提:如果x1是 A1,且x2是A2,,,且xn是 An结论:那么Y是B简记为: A1 A2 A2 BA1 A2 An结论为B其中 X,、Y为被研究对象的名称, n为被研究对象的个数。 Ai、B分别是论域 Ai、Y上的模糊子集,””表示”且”运算,给出建立在推理规则上的逻辑运算。2.5回归分析法回归预测可以说是最为古老同时又应用得最为广泛的一种定量预测方法, 是处理多变量相依关系的一种统计方法, 它是数理统计中应用最为广泛的一种方法之一。它的基本思想是分析预测对象与有关因素的相互关系, 选择适当的回归模型(即回归方程)表达出来,然后再根据数学模型预测其未来状态。然而在许多实际问题中, 由于各种关系错综复杂, 要精确的建立变量间数学表达式又特别困难, 同时很多变量之间还受到其它偶然因素的影响, 使得这些变量之间的关系具有不确定性。回归分析方法就是在大量观测数据的基础上 ,找出这些变量之间的内部规律,从而定量的建立起一个变量与其它变量的数学表达式 。因此简单说来 ,回归分析就是研究一个变量与其它变量之间关系的一种统计方法, 由于有较为严密的理论基础和较成熟的计算分析方法,所以, 如果模型建立得当, 则可得到比较精确的预测结果。 常用的回归模型是多元线形回归模型 (一元线性回归模型只是多元线性模型的一个特例)和多元非线形回归模型 [3]。第3章回归分析回归预测方法是以相关性原理为基础的预测方法, 是数理统计中回归分析方法在预测中的应用。从市场现象之间的因果关系出发,通过建立回归预测模型,根据一种或几种现象的变化去推测另一种现象变化的一种定量预测法。在经济预测中, 人们把预测对象当作因变量, 把那些与预测对象有关的因素当作自变量,收集自变量的充分数据,应用相关分析和回归分析求得回归方程,并利用回归方程进行预测。在回归预测中, 预测对象 y是一个随机变量, 与之相关的普通变量 x或一组普通变量 x1, x2, x3,,xn称为自变量。如果对于自变量的每一个取值或每一组取值,预测对象 y的取值都有相应的分布。 但由于变量间关系的复杂性或由于统计数据、试验数据不可避免地存在随机误差而使它们之间的关系带有不确定性,使预测者无法得到描述它们之间关系的精确的数学表达式,那么,就需要用回归分析的方法, 通过大量的统计数据或试验数据, 寻找它们之间潜在的统计规律性,并以回归方程做出描述。 根据回归方程, 就可以由一个或多个自变量的给定值对预测对象做出估计和预测。回归预测法中的自变量与因变量之间, 有的属于因果关系, 有的属于伴随关系。不能认为只有因果关系才能进行回归预测, 实际上伴随关系也是一种相关关系,只要收集大量的足够的资料,也可以用回归预测法进行预测。在回归预测法中,自变量不是随机的或者是给定的, 这与相关分析中自变量有所区别。 相关分析中的自变量是随机的。由于回归分析方法有较严密的理论基础和较成熟的分析、计算方法,同时,各种社会现象都普遍地与某些因素存在着不同程度的相关关系, 所以回归预测方法在股票市场的预测中得到广泛的应用 [6]。以下则初步介绍怎样运用回归分析的方法描述这种关系, 并据此进行股票市场预测。3.1线性回归分析3.1.1一元回归模型应用回归分析法进行经济预测的关健就是建立回归方程当一个自变量与因变量(即预测对象 )之间相关关系的统计规律呈线性关系时 ,就称其为一元线性回归。一元线性回归分析预测法 ,就是处理一个自变量与因变量间线性关系的一种用途很广的方法。该方法简单、适用 ,可用于处理有因果关系的经济方面的统计数据。一元线性回归的基本模型为 :y?abx其中,y为预测对象少的估计值。x为自变量,是预测对象的相关因素;a.b为回归系数,回归直线由回归系数来确定。a和b应满足条件:使回归线在总体上与各个数据点最为接近。回归系数a、b是根据最小二乘法和已知的样本资料求出的 ,其求解结果是:x1y1 (x0x)210nn (xix) (x0x)210nn (xix)2b n 22 2x2 1(x)2 x1 n(x) (x1x)naybx式中:xi,yi分别为自变量 x和预测对象 y的统计数据, x?,y?分别为x和y所取统计数据的平均值。按上述公式求出回归系数 a和b后即可确定回归方程。根据回归方程,可以由给定的自变量的取值 x,对预测对象少的取值做出预测。线性回归预测是在假定 y与x之间存在着线性关系的条件下进行的。 线性回归预测模型能否做出较好的预测,这取决于 y与x之间呈线性关系的近似程度。y与x之间在多大程度上可以近似地认为它们之间存在着线性关系, 不能仅凭散点的分布直观判断,还应当通过相关性检验做出定量判断。相关性检验是根据 y与x的相关系数来判断它们之间的线性关系。 相关系数r的绝对值 r越接近于 1,则y与x越接近于线性关系。 r越接近于零,则 y与

x越偏离线性关系。只有当 r足够大时才能以线性回归模型进行预测。确定 y与x之间线性关系的恰当的 r值,可以从相关系数临界值表上查出临界值 ra行判断。当rra时即可认为 y与x之间存在着显著的线性关系。相关系数 :可由下式求得:n(xix)(yiy)r1(xix)2(yi y)2由于线性回归模型是对 y与x关系的近似描述, 所以当以回归模型进行预测时,得到的预测值 y也只能是近似的。这就需要对预测值的置信区间做出判断。预测值的置信区间可由下式计算 :上 tay下y?02(n2)n2(yiy)2i12式中 y上下表示预测置信区间的上、下限。ta式中 y上下表示预测置信区间的上、下限。n-2的t分布临界值。它可以根据所确定的显著性水平 和所取样本数 n从t分布表中查出。3.1.2多元回归线性分析模型在股票市场预测中, 由于股票市场这一经济现象的复杂性, 预测对象往往不是仅与一个自变量有关, 而是受到多个相关因素的共同作用。 为了全面地描述预测这一经济现象与诸相关因素的关系, 更有效地做出预测, 就需要建立有多个自变量的回归预测模型。具有多个自变量的回归预测称为多元回归预测 [4]。假设预测对象 y与一组自变量 x1,x2,,,xn存在着线性回归关系,那么预测对象与这一组自变量之间的关系可以用多元线性回归方程yb0 b1x1 b2x2 bnxn来描述。式中 b0,b1,b2,,,bn为回归系数。y及各自变量 x1,x2,,, xn的统计数据按最小二乘法求出。设0,1,2, ,n分别是 b0,b1,b2,,,bn的最小二乘估计值,于是有TOC\o"1-5"\h\zy?0 1x1 2x2 nxn (3-1)式(3-1)中,y?是y中的一个最小二乘估计.对于每一个试验数据xi1,xi2,,xin,i1,2,,m,由式(3-1),可得一个 y?i,即yib0b1x1 bnxin,i1,2,,m.这里称 y?i为实际值 yi的回归值。显然,回归值 y?i与实际值 yi有误差 ,即yi y?i yi(b0 b1x1 bnxin) (i1,2, ,m)y?i与yi值偏离程度越小越好 ,这样才能使回归值 y?i与实际值yi 拟合得最好 ,这里 y?i和 yi 偏差越小是指每一个 y?i和yi,于是对全部观察值 (实验值)有:nmin(yi y?i)2i1nmin(yib0b1xi1 bnxin)2i1minQ(b0,b1,,bn)为此我们可以用微分学中求极值的原理来确定 b0,b1,b2,,,bnQn2(yi y?i)(3-2)b0 i1(3-2)Qn2 (yiy?i)xij 0(j 1,2,,n)bji0整理化简为i1nb0i0nxi1b1i0xi2i0nmyii1b0ximb0i1i1xi21b1xi1xi2b2 xi1ximm xi1yi(3-3)i1i1i1i1ximxi1b1nximxi2 n2

ximximyii1i1i1这里令nxi1xi2nximi1

ni1

ni1nxi12xi1xi1xi2xi1ximi1i1i1i1XTXi1ximi1yIxi1ximxi2xim2

ximi1i1i1nxi1yiy1i1ximyii1b0x11x21xn1y2XTYx1mx2mxnmymb1bm所以(3-2)式可用矩阵形式表示为(xTX)BXTY或ABC如果系数矩阵 A满秩,则 A1存在,此时有3-43-4)BA1C(XTX)1XTY这里式(3-4)即为多元回归方程中参数的最小二乘估计。建立多元线性回归方程之前, 通常先对预测对象 y与各个自变量的关系进行分析,描绘出y与各个自变量的散点图。 如果预测对象与自变量之间为某种非线性关系,则须以类似一元非线性回归的方法, 通过变量代换转化为线性关系来处理。多元回归预测是一元回归预测的推广, 其基本原理和步骤与一元回归预测大致相同,只是多元回归预测的方法要复杂得多,计算量要大得多。多元线性回归模型为: yx其中,11 1x11 x12 x1ny(y1,y2,...,yn),xx21 x22 x2n,xm1xm2 xmn0,1n, (0,1n)其中 X为设计矩阵, 为参数向量。 利用最小二乘法我们可以得到参数向量?(xx)1xy?2(yx?)(yx?)n这里通常假定模型满足如下条件:TOC\o"1-5"\h\z1)随机误差是不相关的 ,即2E()0,Var() ,Cov(i,j)0,ij解释变量与误差相互独立 ,即E(x)0解释变量之间线性无关 ,即Rank(X)m13.1.3线性相关程度测定及相关性检验预测运用回归模型预测的关键是准确地把握住预测变量与相关变量之间的相关程度,只有在变量之间存在着密切的线性关系时 ,所建立的线性回归模型涉及分析预测,才会变得有意义和有价值。因此,对于有不同的变量 ,往往先进行相关分析 ,然后再选有明显关系的变量进行回归分析。 在回归分析中 ,两个变量间相关程度的测定 ,一般通过计算相关系TOC\o"1-5"\h\z数r并进行相关显著性检验判定。相关系数 r的计算公式为 :(xi x)(yiy)r 22(xix)(yi y)相关性检验 :在计算相关系数 r的基础上,再通过查《相关系数检验表》 可得到 ra(n2)的值,并将其与 |r|进行比较 (注:α为显著性水平 ,一般取0.01或0.05;n为已知的自变量 (即因变量 )的数据个数 ;n-2称为自由度 )。若|r|>ra(n-2),则表明在α显著性水平上 y与x之间的线性关系是显著的。 |r|越接近于1,预测变量 y与相关变量 x的相关程度就越高。当 0.7≤|r|<1时 ,表明预测变量与相关变量有较高程度的相关;当0.3≤|r|<0.7时,表明两者有中等程度的相关;当 0≤|r|<0.3时 ,表明两者相关程度甚差;当|r|<0.6时,就不能用线性回归方法进行预测。通过理论分析和相关系数,如果预测对象 (因变量)与影响因素 (自变量)之间,确实存在着显著的相关关系,那么过去和现在的数据规律,能延续到未来,一也就是说,因变量和自变量之间的数量关系,能够反映未来的情况。同时,对影响因素(自变量)的情况己作过调查或预测, 掌握了自变量在预测期的数据。 这样,就可把自变量的数据代入回归预测方程,求得预测对象 (因变量)的预测值。回归方程的一个重要的应用是,对于给定的点 xx0,可以以一定的置信度预测对应的 y的观测值的取值范围, 即所谓预测区间. 由以上分析可知, 当xx0y?0 a? b?xy0 abx0 0作为的预测值.由统计学的知识可知:区间y'0ta(n2)?11 (x0x)2即为 y0的置信度为的预测区间.0a2 n Sxx 0由此模型我们可以预测,一支股票在一个周期中经过一波上涨后了由它上涨x0,便可得到下一波下跌幅度 y0的预测区间。3.2非线性回归分析非线性回归分析非线性回归分析是近一、 二十年来在线性回归分析基础上, 借助专业统计软件(如SAS、SPSS等)迅速发展起来的一种重要统计方法。 相对传统的线性回归分析方法, 它主要以随机变量与变量间的非线性 (参数)函数关系为处理对象, 通过采用非线性最小二乘法建立非线性回归模型来达到对实际问题的拟合、 控制和预测目的。 所以非线性回归分析无论是处理的对象还是处理方法本身都比线性回归更为复杂。 本章主要介绍非线性回归分析的基本方法和存在的问题以及有关参数初值估计和模型期望函数的选取原则 [5]。设Y是一个可观测的随机变量,它受到 m个非随机因素变量 x1,x2,x3,,xm.和随机误差 E的影响,并且与 x1,x2,x3,, xm.有如下非线性关系yF(x1,x2,,xm;1,2, ,p)E (3-5)其中F(.;.)表示 xi与 i的非线性期望函数 (i=l,2,,,mj=l,2,,,P);i表示未知参数 ;E表示不可观测的随机扰动变量并满足正态分布和GauSS-Markov假设E()0cov(i,cov(i,0(ij)则称(3-5)式为非线性回归模型。对于随机变量 Y和非随机变量 X的n次观测数据(称为样本)

满足模型(xi1,xi2,,xim;yi)i1,2,,nyi 满足模型(xi1,xi2,,xim;yi)i1,2,,nyi f(xi1,xi2, ,xim;1,2,,p)ii1,2,,n若令y1y2ynF(x1,) F1F(X,)F(x2,) F2F(xn,)Fn112E=2Pn则模型(3-5)可化为矩阵形式(3-6)TOC\o"1-5"\h\z非线性回归分析就是通过对 n次观测数据 (xi,yi)建立非线性回归模型 (3-6)来完成数据拟合和预测。 由于数据变化特点和相应模型期望函数类型的不同, 模型构建方式可分为以下三种情形 [8]:一、若F(x,)能通过变量变换和重新参数化转化成线性函数,并且变换后模型的随机扰动项 E仍满足Gauss-Markov正态分布条件,则可将处理对象转化为线性问题而采用线性回归方法予以处理。二、若F(x,)在变量变换后虽化成线性函数,但随机扰动项 E己不满足方差齐性等假设条件,则可采用加权线性回归方法。三、期望函数 F(x,)不可线性化或经过线性变换后随机扰动项 E不满足Gauss-Markov假设和正态分布条件,则应采用非线性回归方法,这也是处理非线性问题的一般方法。非线性回归分析的主要步骤分为观测数据 (xi,yi)的统计整理和模型期望函数类型的确定与参数迭代估计以及模型参数检验, 最后是模型的重新修正和实际应用。可用图 3-1表示为图3-1非线性回归分析流程图参数估计和模型检验1.参数非线性最小二乘估计 ?(NLSE)TOC\o"1-5"\h\z对于非线性回归模型矩阵式 1.2,球参数的估计值 ?使其误差平方和的 0.5倍,即1n2 1nS() 1i2 1 (yi F(xi,))2 (3-7)2i1 2i1在 ?时达到最小值 ,称之为非线性最小二乘准则。若记e()(y1F(x1,),y2 F(x2,),...,ynF(xn,))T(e1(),e2(),...,en())T目标函数为s() 21eT()e()则的NLSE估计值户也可看成求无约束最优化问题 minS()的全局最优解,即最小值。 一般情况下最优化方法只能求得其局部最优解, 所以也可通过求解非线性正规方程组nFF(yiF(xi,))0 j1,2,,p (3-8)i1j得到的NLSE估计值,然后通过实际数据比较判断出户是否是全局最优解。非线性情况下, 无论是求解最优化问题还是求解正规方程组, 一般都采用迭代方法,首先设定参数 的初估值 0,然后不断改进直到使误差平方和 SSE逐渐达到最小,即从 0开始,用观测值 (xi,yi)来计算△和 K使得SSE(0K)SSE(0)下次迭代用 0K代替0,重复上述过程,直到 SSE达到认可的最小稳定值,这时得到的参数向量即为非线性最小二乘估计值 ?。由于计算△和 K的方法不同, 产生了不同的迭代过程。 在统计软件 SAS/STAT的ProcNlin处理过程中包括了常用的五种迭代方法可供使用 [15]:1、Gauss一Newton法。2、最速下降法。Newton法。Marquardt法。DUD法。其中 Gauss-Newton法是最为常用的基本迭代方法, DUD法不需要计算期望函数导数, 实际迭代中可针对具体的观测数据和模型期望函数特征选择不同的迭代方法。2.参数和模型显著性检验无论是求解最优化问题还是求解非线性正规方程组 (3-8),所得到的非线性最小二乘估计值户己不再象线性模型那样具有无偏性和最小方差等特性, 所以在参数和模型显著性检验中, 要确定它的样本分布和矩都是很困难的。 这一点也是目前非线性回归分析中较为复杂的问题之一。 但己经证明当样本容量充分大且模型满足某些条件如较低的非线性性态时, 可导出用于假设检验统计量的渐近性质n(? )LN(0,2M1)

1nMplim(nni1Fi(X,))(FFi(X,))(Fi(x,))Tn(yiy)2p1i1Fn (3-9)2

(yi yi)npi11n其中 aij是M1的主对角线上的第 j个元素, y1yini1另外,模型的检验还应包括对随即扰动项 E的Gauss-Markov假设条件和正态性的检验 [17],这一点可通过参数估计向量 ?(1,2,...,n)T中各个参数是否具有真实的专业背景意义并做出合理的解释以及模型预测残差图进行分析判断。必要时可考虑更换模型期望函数, 选择其他适合观测数据的函数类型, 直到获得满意的检验结果。包括参数迭代估计和参数以及模型的显著性检验在内的全部建模过程, 都能采用SAS/STAT软件中的 ProcNlin过程进行编程处理, 程序运行结果可根据需要输出迭代收敛过程、参数估计值、方差分析表、参数相关矩阵、模型预测值、残差图以及程序要求输出的相关结果。3.2.3非线性回归分析存在的问题尽管非线性回归分析的主要计算过程能够借助有关统计软件来完成, 但程序运行结果是否满意却要依赖于人为地设定出合理的期望函数和接近真实的初估值。这是保证参数迭代快速收敛和模型预测误差小、稳定性高的前提, 要做到这一点需对观测数据变化的具体特点和备择期望函数参数的实际意义做出准确判断和理解, 目前尚无一般可供遵循的固定程式, 己成为非线性回归分析中许多值得进步探讨的问题之一 [12]。对于一组给定的实际观测数据 (xi,yi),选择某一类备择期望函数建立非线性回归模型的主要目的在于通过回归模型进行指标量变化关系的拟合、预测和控制,过分强调模型对数据的“逼真”拟合 (如样条函数的拟合 )而忽略预测和控制作往往并无太大实际意义。 所以在模型期望函数的选取方而原则上应使所构建的则:1、非线性回归模型对观察数据拟合“良好” ,残差分析结果满意;2、使非线性回归模型尽可能地具有简洁明了的表达式;3、使非线性回归模型和参数估计结果通过显著性检验;4、使非线性回归模型和期望函数的各项参数具有明确的专业背景意义;5、使非线性回归模型具有较低的非线性性态,即较低的固有非线性性态和参数效应非线性性态。非线性回归模型的非线性强度研究表明:当模型期望函数接近线性性态时,其参数迭代估计的收敛性和收敛速度对参数初估值的人为设定依赖性不强, 即使较差的参数初估值往往也能很快获得收敛; 同时,参数的非线性最小二乘估计结果(NLSE)几乎具有无偏性和正态性,各项检验和预测结果也会更为准确真实。第4章实例分析本章将通过使用前两章的线性回归和非线性回归分析对股票价格进行预测。4.1用回归分析进行预测的步骤应用回归分析进行预测的步骤 [9]:1)试验规模的选取,决定试验集的数量,回归模型期望函数的选取是否合理以及参数初估值的设定是否接近真实值, 将直接影响参数迭代的收敛速度乃至整个模型的预测的准确性和稳定性;2)预测参数的选取, 不管是多元线性回归还是非线性回归预测方法的参数选定,直接影响结果的分析;4)函数的确定和分析;5)预测,采用相应预测的计算方法计算预测数值。4.2数据的选取本文主要针对中短期预测, 所使用的股票数据均是日收盘价, 数据是从网上下载的“八一钢铁数据” [16],试验中我们采用线性回归分析和非线性回归分析分别做了数据的分析和预测,处理程序见下节。选取部分数据表 4-1:开盘价最高价最低价成交量(万股)成交额(万元)收盘价11,274.6512095.109.5829.359.419.09704.416499.249.1539.29.449.011,115.6810341.929.2749.349.569.2953.369002.979.5259.449.799.381,108.8710619.009.4611,313.4212700.969.5679.610.159.62,085.7820487.799.8989.419.579.241,096.4910338.309.5599.649.79.231,264.5511883.309.41109.659.759.431,487.4014202.889.64119.610.29.63,969.1339706.319.74128.859.578.763,390.1131960.859.5522,788.3625915.979.01

148.959.248.832,249.7620440.649.15158.989.68.984,727.4943979.509.19168.668.788.522,309.8520144.278.76178.788.98.563,145.7627568.368.64187.918.517.912,161.9718342.648.51197.767.897.651,111.958659.257.73207.367.627.361,000.757558.367.56⋯⋯⋯⋯⋯⋯⋯表4-1八一钢铁历史数据表4.3线性回归分析的程序实现线性回归分析使用开盘价、最高价、最低价、成交量和成交额作为自变量,收盘价为因变量做出多元线性方程进行求解预测。4.3.1回归方程求解functionduoyuan2(X,Y,m,n)fori=1:nM(i)=mean(X(:,i));%求X每列的平均值X1(:,i)=X(:,i)-M(i);%求出 X1(:,i)=X(:,i)-M(i);%求出 X每列与其平均值的差endy=mean(Y);%求Y的平均值Y1=Y-y;%求Y中值与其平均值的差fori=1:nforj=1:n正规回归方程组的系统矩阵S(i,j)=sum(X1(:,i).*X1(:,j));%正规回归方程组的系统矩阵endendSy(i)=sum(X1(:,i).*Y1);%正规回归方程组的常数阵Sy(i)=sum(X1(:,i).*Y1);%正规回归方程组的常数阵Sy=Sy';M=M';B=inv(S)*Sy;%求正规方程的解y1=sum(M.*B);b0=y-y1;%求出b0B=[b0;B]%线性回归系统fori=1:mYY(i)=sum(B(2:n+1).*X(i,:)')+B(1);%X 代入由B为回归参数的方程后得到的因变量矩阵Y3(i)=Y(i)-YY(i);endY2=YY-y;U=sum(Y2.^2)%回归平方和Q=sum(Y3.^2)%剩余平方和t=Q/U;R=sqrtm(1-t)%复相关系统f1=U/n;f2=Q/(m-n-1);F=f1/f2;%F检验值,即回归方差与剩余方差之比SS=sqrtm(f2)%剩余标准差4.3.2运行结果常系数开盘价系数最高价系数最低价系数成交量系数成交额系数-0.1720-0.59410.67420.94620.0002-0.0000回归平方和剩余平方和复相关系数剩余标准差91.75631.35880.99260.1236表4-2系数表有多元回归方程y3.4541x13.9198x25.5012x30.0012x4模型预测提取数据:开盘价 x1最高价 x2最低价 x3成交量 x4(万股)成交额 x5(万元)9.7610.159.741,483.1014841.319.8210.29.731,097.2810870.639.589.989.51,793.3617532.51表4-3八一预测数据表则有对未来 3天的预测:9.56239.58269.6867结果分析预测数字 9.5623,9.5826,9.6867对比实际数据 9.89, 9.75, 10.09,误差分别为0.3277,0.1674,1.9933,平均误差 0.4995,误差较小,模拟成功。多元线性回归分析模拟方法比较简单,容易拟合数据,但是存在的最大缺点, 就是必须需求当期相关数字进行相关分析,总体并未实现预测目标,计算量小, 但需要更多的相关数据。4.4非线性回归分析的程序实现dataexample; %建立一个名为 example的临时数据集以储存收盘价inputx@@;%变量名为 x,在此处代表收盘价 ,”@@”是规定以行的方式读取数据diffx=dif(dif(x));% 指令系统对变量 x进行2阶差分, 差分后的变量赋值给变量 diffxt=_n_; %表示时间TOC\o"1-5"\h\zcards;%告诉系统,下面开始输入数据行,数据会自动赋值给变量 x5.45 5.99 6.00 5.82 6.30 6.24 6.42 6.77 6.70 6.72 6.60 6.78 6.62 6.60 6.847.057.117.407.46 7.70 7.81 7.74 7.65 7.38 7.76 8.54 8.06 7.44 7.94 8.42 8.46 7.85 7.927.246.807.147.287.787.987.757.157.367.587.457.31 7.467.888.228.288.558.668.858.378.558.70 8.37 8.40 8.53 8.76 8.45 8.32 8.01 8.19 8.33 8.73 8.72 8.72 8.97 8.528.608.508.078.10 7.34 7.41 7.56 7.73 8.51 8.64 8.76 9.19 9.15 9.01 9.55 9.74 9.64 9.419.559.899.569.469.529.279.159.58; %命令结束符号,表示数据输入完毕procgplot; %绘制时序图命令plotx*tdiffx*t; %要求系统绘制两条时序曲线,第一条以 x为纵坐标, t为横坐标;第二条以 diffx为纵坐标, t为横坐标;两条曲线均以symbol语句所规定的格式绘制symbolv=starc=blacki=join; %v表示观察值的图形( star表示星号), c表示图线颜色, i表示观察值之间的连线方式(join表示线性连接)procarima; %表示对数据集 example中的数据进行 arima程序分析identifyvar=x(1); %指令系统对变量 x的某些重要性质(自相关性等)进行识别estimateq=3; %此命令用于估计模型中的参数forecastlead=10id=tout=results; %此命令为预测命令, lead是指定预测期数,id指定身份识别, out=results指定预测所得结果存入名为 results的数据集run; % 告诉系统程序写好了,可以运行了procgplotdata=results; %利用存储在临时数据集 results中的数据绘制拟合、预测图plotx*t=1forecast*t=2l95*t= 3u95*t= 3/overlay;%overlay指令系统将 1、3三条时序线绘制在同一张图

中,同时显示, l95、u95分别表示95%预测区间的左、右端点symbol1c=blacki=nonev=star;symbol2c=redi=joinv=none;32; %l=3232; %l=32表示 2、3这两条时序线均使用symbol3所规定的格式绘制run;模型拟合⑴时序图(时序图 (SequenceDiagram)用来显示对象之间的关系,并强调对象之间消息的时间顺序,同时显示了对象之间的交互 。)显示该序列为非平稳序列[10]t4-4时序图1差分运算对原序列进行差分运算,观察 1阶后差分序列时序图 ,时序图显示 1阶差分不平稳,故进行 2阶差分,观察2阶后差分序列时序图 ,如图 4-5,可以看出 2阶差分后序列一无显著趋势或周期,随机波动比较平稳。4-5时序图24-63阶之后,自相关系数基本在零值附近波动。 可以认为自相关系数具有短期相关性,差分后序列平稳。4.4.3模型定阶4-7偏自相关图偏自相关图显示偏自相关系数拖尾。故考虑用 MA(3)模型,即三阶移动平均(movingaverage)模型来拟合4.4.4建立模型建立模型为:xt t+0.10646t1-0.29892t2+0.09634t34.4.5模型检验残差白噪声检验:4-8模型检验图 1

取显著性水平序列为白噪声序列。参数显著性检验:Parameter=0.05,由于各阶延迟的StandardP值均大于 0.05,故可以认为残差tValueApproxEstimateErrorPr>|t|LagMU0.043040.028431.510.13360MA1,1-0.106460.10571-1.010.31661MA1,20.298920.101272.950.40012MA1,3-0.09634图4-90.10633 -0.91模型检验图 20.36733由于P值均大于 =0.05,故各参数均显著。所以模型拟合成功。4.4.6模型预测对未来 10天收盘价的预测:图4-10预测结果图即未来10天的收盘价为: 9.6793,9.6079,9.6830,9.7260,9.7690,9.8121,9.8551,9.8981,9.9412,9.9842.绘图将序列拟合值与序列观察值联合作图,如图 4-11,星号是为序列观察值,红色曲线为模型拟合值,由图知,拟合效果较好。图中绿色曲线给出的是 95%预测区间。

t4-11预测图结果分析未来10天的收盘价为: 9.6793,9.6079,9.6830,9.7260,9.7690,9.8121,9.8551,9.8981,9.9412,9.9842.对比数据 9.89,9.75,10.09,10.95,10.73差距分别为 0.2107,0.1421,0.407,1.224,0.961平均误差 0.58896,误差值小,相对多元线性回归不需要更多的当期相关数据, 直接可以利用历史数据进行预测,进行真正意义上的收盘价预测。结论非线性回归分析是目前统计学中继线性回归分析之后备受关注的统计方法之一。本文讨论了各种预测的一般方法, 重点线性回归模型和非线性回归模型的对比,回归预测有着好理解,操作性强的理论优点,从使用条件看,回归分析致力于统计规律的研究与描述,适用于大样本, 且过去、现在和未来发展模式一致的预测。线性回归模型较之非线性回归模型更为简单容易操作, 但拟合程度远远不及非线性回归分析, 为说明这一问题, 本文在对基础理论的讨论基础上使用实例八一钢铁最近股价借助了 MATLA和SAS专业统计软件编程处理, 建立线性和非线性回归模型。由于数据进行差分规范, 选取了拟合范围更广的期望函数, 确定了自相关系数具有短期相关性, 进行了使得模型对观测数据的拟合能力更强、 拟合优度更高,得到短期的股票预测值。非线性回归分析在研究方法和研究对象上远比线性回归分析复杂得多, 许多问题尚处于探讨之中, 诸如模型非线性性态强度分析以及模型重新参数化对非线性性态的影响等本文尚未涉及的问题,还有待于今后做进一步研究。致谢本文是在尊敬的导师罗德江老师的悉心指导下完成的, 从论文的选题至论文的形成,无不倾注着导师大量的心血和汗水。 导师严谨的治学态度、 无私奉献的敬业精神、 勤劳刻苦的工作作风, 以及对科学的献身精神都给我留下了极为深刻的印象。三年来,导师无论在学习、 工作还是生活上给予了无微不至的关怀和真诚的帮助,这种真挚的师生情谊令我倍感亲切和终身难忘。值此论文完成之际,谨向辛勤培育我的导师致以诚挚的敬意和衷心的感谢。感谢成都理工大学数学与应用数学专业所有老师在我求学期间给予的热心帮助和指导。感谢所有帮助、关心和支持我舍友,同学,老乡,是你们让我的人生有了精彩的片段 !最后感谢我最亲爱的家人的支持和鼓励, 正是他们对我的期望和鞭策, 才让我更加努力和进步。参考文献丁东.股票十日通 [M].北京 :京华出版社 .1998黎旨远 .西方经济学 [M].清华大学出版社 .1987何晓群 .刘文卿应用回归分析 [M].北京:中国人民大学出版社 .2001.1-157.张尧庭 .方开泰 .多元统计分析引论 [M].北京 :科学出版社 .1982.韦博成等译 .BatesD.M.,w从 tSD.G.著.非线性回归分析极其应用 .北京 :中国统计出版社.1997.何晓群 .回归分析与经济数据建模 [M].北京 :中国人民大学出版社 .1997.丁学东 .文献计量学基础 [M].北京 :北京大学出版社 .1993.张军亮 .广义 S曲线非线性回归模型及其在文献计量学中的应用 .硕士论文 .2004何晓群 .陈志良 .回归变量选择与回归误差分析 [M].统计与预测 .1988,3.高惠漩等 .SAS系统SAS/STAT软件使用手册 [M].北京:中国统计一出版社 .1998.[11]李国平 .中国股票市场的可预测性研究 [J].高职论丛 .2006,9(3):5-11.42.陈溟.中国股票市场非线性预测模型研究 .内蒙古科技与经济 [J].2006.23:31-33.[13]BatesJM,GrangerCWJ.TheCombinationofForecast.OperationalResearchQuarterly,1969;20(4):319=325[14]BollerslevT.ChouR,KronerK.ARCHModelinginFinance:aReviewoftheTheoryandEmpiricalEvidenceJournalofEconometrics.1992(52).5-59[15]刘晓斌 .非线性预测在市场研究中的应用 [J].统计与决策 .2001(8)22-23[16]/stock/history.php?code=sh600581&type=history[17]陶建宏.王京芳,张蓉 .股票风险的估计模型及其应用研究 [J].天津职业技术师范学院学报.2004.14(1):74-77

实例中使用的八一钢铁历史数据:开盘价最高价最低价成交量(万股)成交额(万元)收盘价11,274.6512095.109.5829.359.419.09704.416499.249.1539.29.449.011,115.6810341.929.2749.349.569.2953.369002.979.5259.449.799.381,108.8710619.009.4611,313.4212700.969.5679.610.159.62,085.7820487.799.8989.419.579.241,096.4910338.309.5599.649.79.231,264.5511883.309.41109.659.759.431,487.4014202.889.64119.610.29.63,969.1339706.319.74128.859.578.763,390.1131960.859.5522,788.3625915.979.01148.959.248.832,249.7620440.649.15158.989.68.984,727.4943979.509.19168.668.788.522,309.8520144.278.76178.788.98.563,145.7627568.368.64187.918.517.912,161.9718342.648.51197.767.897.651,111.958659.257.73207.367.627.361,000.757558.367.56217.347.517.18959.167102.557.4122887.331,751.1613268.607.34

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论