第12章 回归分析ppt课件_第1页
第12章 回归分析ppt课件_第2页
第12章 回归分析ppt课件_第3页
第12章 回归分析ppt课件_第4页
第12章 回归分析ppt课件_第5页
已阅读5页,还剩87页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

.,1,第十二章回归分析,学习目标掌握简单线性回归模型基本原理。掌握最小平方法。掌握测定系数。了解模型假定。掌握显著性检验学会用回归方程进行估计和预测。了解残差分析。,.,2,1.P370-14.P380-202.P372-75.P388-283.P380-186.P393-35,习题,.,3,案例讨论:1.这个案例都告诉了我们哪些信息?2.通过阅读这个案例你受到哪些启发?,.,4,根据一个变量(或更多变量)来估计某一变量的方法,统计上称为回归分析(Regressionanalysis)。回归分析中,待估计的变量称为因变量(Dependentvariables),用y表示;用来估计因变量的变量称为自变量(Independentvariables),用x表示。,.,5,第一节简单线性回归模型,只涉及两个变量(一个自变量和一个因变量)之间关系的回归分析称为简单回归分析(Simpleregressionanalysis)。两个变量之间的关系大约呈一条直线的简单回归分析称为简单线性回归分析(Simplelinearregressionanalysis)。,.,6,一、从一个实际问题入手,用回归分析可以预测运行一条商业航空线的成本吗?如果可以,那么哪些变量与这一成本有关呢?,.,7,飞机运行成本,飞机型号,飞行距离,乘客数量,行李或货物重量,天气状况,.,8,为了减少自变量个数,我们做如下假定:飞机类别波音737飞机飞行距离500公里航线可比,而且在每年的相同季节在这种条件下,可以用乘客数来预测飞行的成本吗?,.,9,表12-1是每年相同季节波音737飞机在12条500公里的不同航线不同乘客数时的飞行成本。我们用这些数据以乘客数作为自变量构造模型来预测成本。,.,10,.,11,二、回归模型和回归方程,(12.1),:因变量(随机变量),:自变量(给定变量),:参数,:误差项(随机变量),含义为说明在中不能被和之间线性关系解释的变异性。,.,12,在有关假设中,有一个假设就是的期望值或均值等于0,即,(12.2),如果简单线性回归模型满足了这个条件,那么就意味着的均值或期望值就是一个线性函数。,描述的均值与的关系如何的方程称为回归方程(Regressionequation)。,.,13,在简单线性回归中1.回归方程的图形是一条直线(如图12.1所示);,(12.3),.,14,.,15,2.:的截距;,3.:斜率(回归系数);,的含义:当自变量给定一个具体变动值时,因变量平均变化的量。,.,16,.,17,.,18,三、估计回归方程,估计回归方程(Estimatedregressionequation)就是用样本统计量作为参数的估计值所建立的回归方程。,(12.4),:的估计值,:的估计值,:的估计值,.,19,.,20,第二节最小平方法,最小平方法(Leastsquaresmethod),也称最小二乘法,是将回归模型的方差之和最小化,以得到一系列方程,从这些方程中解出模型中需要的参数的一种方法。,.,21,(一)画散点图,以初步观察成本与乘客数量之间是否呈回归直线。,.,22,(二)建立估计回归方程,(12.5),最小平方法运用样本数据求出和的值,使得因变量的实际观察值与其估计值之差的平方和最小,即,(12.6),.,23,(三)估计回归方程斜率和截距的计算公式,(12.8),.,24,.,25,.,26,.,27,(四)将和的计算结果代入式(12.5)有:,计算结果表明,在其他条件相同情况下,12条航线上波音737飞机各条航线每次飞行时每增加1名乘客,将会使飞行成本平均增加40.70元。,结论:,.,28,*Y=4.48千元二者差0.061千元或61元。,.,29,第三节一元线性回归方程的评价,测定系数估计标准误差,.,30,一、测定系数回归直线与各观测数据的接近程度称为回归直线的拟合优度。度量回归直线的拟合优度最常用的指标是测定系数,(又称可决系数、判定系数)。该指标是建立在对总离差平方和进行分解的基础之上的。,.,31,离差分解图,.,32,离差平方和的分解,两端平方后求和有,(12.9),(12.10),(12.11),.,33,决定系数的取值,R2的取值范围是0,1。R2越接近于1,表明回归平方和占总离差平方和的比例越大,回归直线与各观测点越接近,回归直线的拟合程度就越好。在一元线性回归中,相关系数r的平方等于判定系数,符号与自变量x的系数一致。因此可以根据回归结果求出相关系数。,.,34,(一)残差残差(Residualerror)是因变量的观察值y和因变量的估计值之间的偏差。,例如,上面的例子,,(12.12),.,35,表12-3残差计算表,.,36,(二)误差平方和,残差平方的总和称为误差平方和(Sumofsquaresoferror,SSE)。,(12.13),SSE的值是用估计回归方程估计样本中因变量的值时所产生误差的一种测度。,.,37,(三)总离差平方和,因变量的值与其均值之间离差的平方和称为总离差平方和(Totalsumofsquares,SST)。,(12.14),.,38,(四)回归平方和,因变量的值与其估计值之间离差的平方和称为回归平方和(Sumofsquaresduetoregression,SSR)。,(12.15),.,39,例如;飞行成本案例中各种有关数据计算如下,表12-4计算表,.,40,由表12-4计算结果可知,SSE=0.31434,SSR=2.79775,SST=3.11209,则,.,41,这就是说,在一条商业航线上一架波音737飞机飞行成本的方差中有89.9%可以被乘客数目说明或预测,换句话说,飞行成本Y的方差中不能由X或回归方程解释的有10.1%。,.,42,二、估计标准误,估计标准误:是对各观测数据在回归直线周围分散程度的一个度量值,它是对误差项的标准差的估计。估计标准误反映了用估计的回归方程拟合因变量Y时平均误差的大小。各观测数据越靠近回归直线,sy就越小,回归直线对各观测数据的代表性就越好。与R2不同的是,估计标准误是一个有单位的平均数。,(12.16),.,43,在飞行成本的案例中:sse=0.31414n=12,【统计分析】计算结果表明,在12条商业航线上,每架波音737飞机在飞行500公里和其他条件相同情况下,其飞行成本与它们的平均飞行成本平均相差117.3元。,.,44,三、利用测定系数计算相关系数,样本相关系数,(12.17),例如,在飞行成本的例子中,,.,45,计算结果表明,波音737飞机在相同季节12条航线上,乘客数量与运行成本之间存在线性高度的正相关关系。,.,46,测定系数与相关系数的联系与区别,两种系数都可以用来测量线性相关关系的强弱;两种系数的取值范围不同:测定系数在01之间,相关系数在-1+1之间。两种系数的作用范围不同:相关系数只能用来测定双变量之间的线性相关关系的强弱,测定系数除了可以测量双变量之间线性相关关系的强弱外,还可以用来测量非线性相关关系的强弱和多变量时的相关。因此,测定系数的应用范围比相关系数更广泛。,.,47,第四节模型假定,在进行回归分析时,为了建立适当的模型来说明因变量和自变量之间的关系,需要做出一些假定。简单线性回归的假定模型是:,.,48,要确定假定模型是否恰当,就需要进行显著性检验。显著性检验建立在以下有关假定的基础上:,关于回归模型中误差项的假定(1)误差项是一个随机变量,它的均值或期望值为0,即,(12.18),.,49,(2)对于所有值,误差项的方差()相等,即,(3)误差项值是相互独立的。,(12.19),(12.20),.,50,(4)误差项是一个服从正态分布的随机变量,(12.21),.,51,第五节回归分析中的显著性检验,回归分析中的显著性检验包括两方面的内容:一是对单个自变量回归系数的显著性检验(t检验);二是对整个回归方程(所有自变量回归系数)显著性的整体检验(F检验)在一元线性回归模型中,由于只有一个解释变量X,因此,对10的t检验与对整个方程的F检验是等价的。,.,52,一、单个回归系数显著性的t检验,第1步:提出假设。一般为对于一些具体问题也可能需要进行单侧检验。第2步:确定检验的统计量。可以证明在回归模型的基本假设成立时,如果零假设正确,则有,(12.22),.,53,(12.23),.,54,第3步:计算检验统计量的样本观测值。第4步:进行决策:根据显著性水平a和自由度dfn2确定检验统计量的临界值,tt时拒绝H0;,.,55,例如,已知在飞行成本的例子中,,.,56,查表(P453)=,.,57,由于t=9.43,表明t值落在拒绝域。因此,总体斜率的假设被拒绝,说明X与Y之间线性关系是显著的。即12条航线上,波音737飞机在飞行500公里和其他条件相同情况下,其乘客数量与飞行成本之间的线性关系是显著的。,.,58,单个回归系数的显著性检验的几点说明,为什么要检验回归系数是否等于0?如果总体中的回归系数等于零,说明相应的自变量对y缺乏解释能力,在这种情况下我们可能需要中回归方程中去掉这个自变量。我们也可以对常数项进行t检验,但大部分情况下我们并不关心常数项的检验结果。通常情况下即使常数项在模型中不显著,我们也会在模型中保留常数项,去掉常数项可能会对模型带来不利影响。,.,59,第1步:提出假设。在一元回归为第2步:确定检验统计量:,二、方程整体显著性的F检验,(12.24),.,60,MSE:均方误差(Meansquareerror)是残差平方和(SSE)除以自由度(n-2)所得的一个平均数,它是残差项方差的一个无偏估计量。,(12.25),.,61,例如,在飞行成本的例子中SSE=0.31434,(n-2)=(12-2)=10,则,.,62,MSR:均方回归(Meansquareregression)是回归平方和(SSR)除以它的自由度所得的平均数。,(12.26),.,63,在这一节所考虑的模型里,将回归自由度定义为自变量的个数,则,(12.27),.,64,在双变量回归分析中自变量是1个,所以,MSR=SSR例如,在飞行成本的例子中,SSR=2.79775,所以MSR=SSR=2.79775。,第3步:计算检验统计量的样本观测值。,.,65,第4步:进行决策:根据显著性水平a和自由度1,n2确定检验统计量的临界值Fa,FF时拒绝H0;或者p值,所以,我们拒绝,并得出结论:,当显著性水平为0.05时,F检验提供了必要的统计证据,使我们得出乘客数量与飞行成本之间存在显著性关系的结论。,.,68,在简单回归分析中,还可以利用F值与t值的关系来进行F检验。,例如,在飞行成本的例子中,已知t=9.43,(12.28),.,69,三、解释显著性检验时应注意的两个问题,(一)拒绝了零假设,并得出自变量和因变量之间存在统计显著性关系的结论,并不能使我们认为和之间存在因果关系。,.,70,注意:相关关系因果关系!,典型的错误推断:庆祝生日有利于健康。统计分析表明,庆祝生日次数越多的人越长寿。学生穿的鞋越大,他的识字水平就越高:对小学各年级学生的抽样调查表明,学生的识字水平与他们鞋子的尺寸高度正相关。思考问题:如何证明两个变量之间存在因果关系?,.,71,(二)仅仅能够拒绝零假设和证明了统计的显著性,还不能得出结论:Y和X之间存在线性关系。,.,72,第六节回归估计和预测,一、点估计利用回归方程,对给定的某一特定值时的均值进行估计或预测。例如,上面我们提到的在乘客人数为75人时,对飞行成本的预测就是一种点估计或预测。二、区间估计略,.,73,三、Y均值的置信区间估计,(12.29),.,74,一般地说,当用估计时,不能希望二者正好相等。要推断是如何接近真实均值,就需要根据回归方程求出方差估计值。,(12.30),:的方差,.,75,的标准差为:,(12.31),的置信区间估计公式为:,(12.32),.,76,例如,在飞行成本的模型中,我们要预测当(乘客人数)为73时,在95%的置信度内(飞行成本)的均值。,置信度=95%;,df=n2=122=10;s=0.1773;,.,77,当时,.,78,的置信区间为:,(12.33),.,79,这说明,当时,在95%的可信度下,Y的均值会落在4.424.66千元之间。,.,80,四、预测某个Y值的单个区间,回归预测的另外一种区间是对每个给定自变量的值预测单个Y值的估计区间。,(12.34),.,81,例如,我们利用上一个例子的所有资料,便可预测当X=73时单个Y值的估计区间。,.,82,.,83,五、利用回归模型预测要注意的问题,适用于内插预测进行外推预测时要慎重,.,84,第七节残差分析:有效模型假定,残差分析的一个主要用途就是对回归假设进行检验,帮助我们确定建立回归模型所依据的假设是否恰当。在有关假定的线性回归模型中,对做了4个假定(见教科书东财版P467,机械版381)。,.,85,这些假定为我们用来确定X与Y之间存在显著关系的t检验、F检验以及置信估计区间和预

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论