第六章_回归预测_第1页
第六章_回归预测_第2页
第六章_回归预测_第3页
第六章_回归预测_第4页
第六章_回归预测_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第六章回归分析预测法,王剑,2,.,3,一、“回归”最初的涵义遗传学中的名词,英国生物学家兼统计学家高尔登首先提出来的。回归现代涵义研究自变量与因变量之间的关系形式的分析方法。目的:根据已知自变量来估计和预测因变量的值。例如:,6.1概述,.,4,二、回归分析和相关分析,1、相关关系的概念客观事物之间的相关关系的概念:函数关系。确定性关系,对于某一变量的每一个数值,都有另一变量的确定的值与之对应。例:圆面积对于半径的依存关系,正方形的面积对于边长的依存关系等等。相关关系。反映事物之间的非严格、不确定的线性依存关系。,.,5,1、相关关系,相关关系。反映事物之间的非严格、不确定的线性依存关系。特点:事物之间在数量上确实存在一定的内在联系。表现在一个变量发生数量上的变化,要影响另一个变量也相应地发生数量上的变化。例:事物之间的数量依存关系不是确定的,具有一定的随机性。表现在给定自变量一个数值,因变量会有若干个数值和它对应,并且因变量总是遵循一定规律围绕这些数值平均数上下波动。其原因是影响因变量发生变化的因素不止一个。例:影响工业总产值的因素除了职工数外,还有入定资产原值、流动资金和能耗等因素。,.,6,2、回归分析与相关分析,研究和测度两个或两个以上变量之间关系的方法有回归分析和相关分析。相关分析。研究两个或两个以上随机变量之间线性依存关系的紧密程度。通常用相关系数表示,多元相关时用复相关系数表示。回归分析。研究某一随机变量(因变量)与其他一个或几个普通变量(自变量)之间的数量变动的关系。,.,7,根据回归模型中含有自变量的多少分为:一元回归和多元回归;根据回归模型的性质分为:线性回归和非线性回归;根据回归模型中变量的属性分为:普通回归模型和带虚拟变量的回归模型。,应用回归分析预测需满足条件:1.数据量不能太少(以多于20个较好);2.预测对象与影响因素之间必须存在因果关系;,三、回归模型的分类:,.,8,6.2一元线性回归预测,已知因素x与因素y有某种线性关系,设x为自变量,y为因变量,现有观察值(xi,yi),i=1,2n,则x与y之间的关系可定量表示为:其中N(0,2),称为误差项(或随机干扰),一般认为其服从正态分布。,一元线性回归预测是对两个具有线性关系的变量,建立线性回归模型,根据自变量的变动来预测因变量平均发展趋势的方法。,一、一元线性回归模型,.,9,随机干扰满足以下条件:,(1)表示随机干扰中有正、负两种干扰,平均干扰为0;(2)表示随机干扰有相同的方差;(3)随机干扰不存在序列相关;(4)随机干扰与解释变量无关。,因变量y由于受各种随机因素的影响,故它是一个随机变量,是我们预测的目标变量。,.,10,实际中,用来作为上述关系的近似,称为一元线性回归方程。,方程中参数a,b的估计:最小二乘法基本思想:使得原始数据的观测值与模型的估计值的误差平方和达到最小。即:,二、参数估计,.,11,.,12,例:已知某种商品的销售量同居民的可支配收入有关,现有如下表的统计数据,试建立回归方程,并求出相应参数的最小二乘估计值。,.,13,第一步:绘制散点图,6000,6500,7000,7500,8000,8500,9000,9500,10000,500,550,600,650,700,750,800,850,900,yi(件),xi(10元),950,第二步:设一元线性回归方程为,.,15,第二步:设一元线性回归方程为:,第三步:计算回归系数得:,所求的回归方程为:,6000,6500,7000,7500,8000,8500,9000,9500,10000,500,550,600,650,700,750,800,850,900,yi(件),xi(10元),950,.,16,三、相关系数,在运用一元线性回归模型时,正确地判断两个变量之间的相互关系,选择主要因素作模型的自变量是至关重要的。,.,17,1、离差平方和的分解,用样本数据模拟的回归方程,当给定自变量xi后,与之对应的观察值yi、计算值与平均值之间的关系。,观测值yi的取值大小是上下波动的,这种现象称为变差。变差的产生是由两方面的原因造成的:受自变量变动的影响,即x的取值不同;其他因素(包括观测和实践中产生的误差)影响。,则n次观测值的总离差平方和为:,总离差平方和,总离差平方和,离,离,.,19,2、可决系数,可决系数R2的大小表明了在y的总离差中由自变量x变动所引起的回归偏差所占的比率,它是评价两个变过量之间线性相关关系强弱的一个重要指标。通过R2可以判定回归模型对样本数据的拟合程度,从而评价预测模型的优劣。0R21;R2=1,表明回归模型对所有的样本数据点完全拟合,即所有的样本数据点均落在回归直线上。R2=0,表明回归模型无法解释因变量y的离差,预测模型没有意义。一般情况下,R2越接近1,表明回归平方和占总离差平方和的比重越大,回归模型对样本数据拟合程度越高,模型对预测越有意义。通常,R2在0.8以上,即可认为拟合程度较高。,.,20,R2=0.9911表明该商品的销售量的变化中有99.11%部分可以用居民的可支配收入额来解释。,.,21,3、相关系数:,如果说样本可决系数是衡量回归方程拟合优度的统计量,那相关系数就是用来衡量两个变量之间线性相关关系强弱程度的重要指标。,两个航空公司股价的起落有关联吗?运输行业中运输价格与所运重量有关吗?与运输距离有关吗?关联强度有多大?经济学中的生产价格指数与失业率的关联强度如何?在零售业中,哪些变量与某个特定店的销售额有关?是人口密度,竞争者数,店的规模,广告情况,还是其他变量。,3、相关系数:,.,23,相关系数是一元线性回归模型中用来衡量两个变量之间线性相关关系强弱的重要指标,相关系数的取值范围为-1R1,相关系数为正值表示两个变量之间为正相关;相关系数为负值表示两个变量之间为负相关。相关系数R的绝对值大小表示相关程度的高低。,R的绝对值越接近1,说明回归对各点的配合越密切,x,y的线性关系越好;反之,两者的线性关系越差;其值接近0,就可以认为这两者完全没有线性关系了。相关系数到底多大,才可以确定x和y具有线性关系呢,为了便于查对,人们将R的临界值列为专门的表,计算的相关系数必须大于表上相应的值才可以考虑所得的回归直线预测分析。否则,模型需要重新考虑选用和计算。,.,25,四、显著性检验。,(1)相关系数检验:相关系数的绝对值达到什么程度,才能认为两个变量之间的线性相关关系是显著的?步骤:依据公式计算相关系数R;根据给定的显著性水平,查相关系数临界值表(取值越小,显著性程度越高);查表R(n-2),(n表示样本数目)判别:若|R|R(n-2),表明两个变量之间的线性相关关系显著,相关关系可信度较高,检验通过。否则,说明模型不能用来进行预测,这时,应分析其原因,对回归模型重新调整。,.,26,例:R=0.9216,=0.01,R=0.7977RR,为此显著的正相关。因此可以认为,所求得的回归直线用于近似描述商品的销售量与居民的可支配收入额的相关关系是可靠的,即可信度较高。,(2)t检验:t检验是检验回归系数是否显著异于0。,t检验是通过构造假设检验来检验回归模型与数据是否很好拟合的方法,通过回归模型斜率来看是否显著不等于零。对系数b进行检验的检验步骤:构造t统计量:提出假设:H0:b=0;H1:b0;根据给定的显著性水平,查t分布表得到临界值t/2(n-2),(n表示样本数目)判别:若|t|t/2(n-2),拒绝假设H0:b=0,而接受H1,即认为b显著异于0,因变量y对自变量x的一元线性回归成立。若|t|0.576所以在=0.05的显著性水平上,检验通过,检验说明,两变量之间线性相关关系显著。5、t、F检验。,.,38,(2)控制,控制可以看成是预测的反问题,即要求y落在一定范围内,应如何控制x?亦即对于给定的置信度,求出相应的,作业:某省19781986年居民消费品购买力和居民货币收入统计如下表:1、建立一元线性回归模型。2、对回归模型进行显著性检验(=0.05)。3、若居民货币

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论