统计学课件:第8章 相关与回归分析_第1页
统计学课件:第8章 相关与回归分析_第2页
统计学课件:第8章 相关与回归分析_第3页
统计学课件:第8章 相关与回归分析_第4页
统计学课件:第8章 相关与回归分析_第5页
已阅读5页,还剩88页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 1第八章第八章 相关与回归分析相关与回归分析第一节第一节 相关分析基础相关分析基础第二节第二节 简单线性回归简单线性回归 2第一节第一节 相关分析基础相关分析基础1.1.什么是相关。在工作和生活中,我们经常什么是相关。在工作和生活中,我们经常遇到两个变量间关系问题,例如:遇到两个变量间关系问题,例如:受教受教育的育的水平水平工作工作后的后的收入收入预防预防疾病疾病支出支出疾病疾病的发的发病率病率 3第一节第一节 相关分析基础相关分析基础如果两个变量的值是完全确定的对应关如果两个变量的值是完全确定的对应关系,则二者为函数关系。函数关系不是系,则二者为函数关系。函数关系不是统计学的研究对象。例如

2、,计程车费与统计学的研究对象。例如,计程车费与行驶里程的关系。行驶里程的关系。如果两个变量的值有关系,但又不是完如果两个变量的值有关系,但又不是完全确定的对应关系,就属于相关关系。全确定的对应关系,就属于相关关系。例如,收入水平与恩格尔系数的关系。例如,收入水平与恩格尔系数的关系。许多科学都会面临寻找两个变量间相互许多科学都会面临寻找两个变量间相互关系的问题,相关分析有广泛的需求。关系的问题,相关分析有广泛的需求。 42.相关分析要解决哪些问题相关分析要解决哪些问题从统计学的角度我们应当就两个变量的关系从统计学的角度我们应当就两个变量的关系依次提出并解决四个问题:依次提出并解决四个问题: 第一

3、,从数据上看,两个变量间有关系吗?第一,从数据上看,两个变量间有关系吗? 通常,我们可以使用散点图或列联表来直观通常,我们可以使用散点图或列联表来直观地观察变量之间的相关系。地观察变量之间的相关系。第一节第一节 相关分析基础相关分析基础 5第一节第一节 相关分析基础相关分析基础 6第一节第一节 相关分析基础相关分析基础 7第一节第一节 相关分析基础相关分析基础 8第一节第一节 相关分析基础相关分析基础 9第一节第一节 相关分析基础相关分析基础 10第二,如果有关系,关系有多强?第二,如果有关系,关系有多强? 关系有强弱之分,弱的关系通常意义不大,关系有强弱之分,弱的关系通常意义不大,强的关系则

4、对于我们有用。强的关系则对于我们有用。 通过散点图和列联表只能大致看出关系的强通过散点图和列联表只能大致看出关系的强弱,如果要精确地度量相关的强弱,需要使用弱,如果要精确地度量相关的强弱,需要使用各种相关系数。各种相关系数。第一节第一节 相关分析基础相关分析基础 11第三,样本中有关系,总体中也有关系吗?第三,样本中有关系,总体中也有关系吗? 我们得到的数据通常是样本数据,不排除在这我们得到的数据通常是样本数据,不排除在这个样本中因为偶然的原因恰好包括了有关系或没个样本中因为偶然的原因恰好包括了有关系或没有关系的数据,而总体的情况却与之相反。这时,有关系的数据,而总体的情况却与之相反。这时,需

5、要进行检验。需要进行检验。 只有证明总体也具有相同的关系,我们才可以只有证明总体也具有相同的关系,我们才可以继续问下去和分析下去,否则,这个样本只能作继续问下去和分析下去,否则,这个样本只能作为一种特例,继续研究已经没有意义。为一种特例,继续研究已经没有意义。第一节第一节 相关分析基础相关分析基础 12第一节第一节 相关分析基础相关分析基础 13第一节第一节 相关分析基础相关分析基础 14第四,这种关系是因果关系吗?第四,这种关系是因果关系吗? 确定是因果关系,我们可以建立数量模型并确定是因果关系,我们可以建立数量模型并利用它做估计或预测;如果不是因果关系,所有利用它做估计或预测;如果不是因果

6、关系,所有的分析工作可能就此中止。的分析工作可能就此中止。 这是较难回答的一个问题。因为因果关系可这是较难回答的一个问题。因为因果关系可能是建立在经济的、政治的、物理的、生物的等能是建立在经济的、政治的、物理的、生物的等等基础之上,而这些都不是统计学的研究范畴。等基础之上,而这些都不是统计学的研究范畴。因此,对于观察数据,往往无法直接得出准确的因此,对于观察数据,往往无法直接得出准确的结论。但实验数据例外,因为实验时我们往往能结论。但实验数据例外,因为实验时我们往往能够控制影响变量,一般也就能够解释因果关系。够控制影响变量,一般也就能够解释因果关系。第一节第一节 相关分析基础相关分析基础 15

7、例:例:1983至至2008年度留学与离婚数据年度留学与离婚数据第一节第一节 相关分析基础相关分析基础 16第一节第一节 相关分析基础相关分析基础 17第一节第一节 相关分析基础相关分析基础 18问题:能否证明留学与离婚是因果关系?问题:能否证明留学与离婚是因果关系?第一节第一节 相关分析基础相关分析基础 19真相:有其他因真相:有其他因素在影响三个变素在影响三个变量的变化,使之量的变化,使之变化趋势相近。变化趋势相近。第一节第一节 相关分析基础相关分析基础 203.皮尔逊积矩相关系数皮尔逊积矩相关系数相关系数是对相关程度的具体度量;相关系数是对相关程度的具体度量;如果两变量为数量变量,且服从

8、正态分布,如果两变量为数量变量,且服从正态分布,则可以用皮尔逊积矩相关系数来度量其线性则可以用皮尔逊积矩相关系数来度量其线性关联程度。关联程度。因为对数据分布有要求,因此,皮尔逊相关因为对数据分布有要求,因此,皮尔逊相关系数也可称为参数相关系数。系数也可称为参数相关系数。第一节第一节 相关分析基础相关分析基础 212222)y(yn)x(xnyxxynr 工工作作中中常常用用公公式式为为:为为避避免免计计算算离离差差,实实际际yxxysssr 样样本本皮皮尔尔逊逊相相关关系系数数第一节第一节 相关分析基础相关分析基础yxxy 总总体体皮皮尔尔逊逊相相关关系系数数 22第一节第一节 相关分析基础

9、相关分析基础皮尔逊相关系数是两变量的协方差与两变量标皮尔逊相关系数是两变量的协方差与两变量标准差乘积的比值。准差乘积的比值。协方差协方差(covariance):两个变量与其均值离差:两个变量与其均值离差乘积的平均数,可用来度量两变量间的相关强乘积的平均数,可用来度量两变量间的相关强度。度。1 n)yy)(xx(sN)y)(x(iixyyixixy 23第一节第一节 相关分析基础相关分析基础对协方差的理解对协方差的理解xy 24第一节第一节 相关分析基础相关分析基础对协方差的理解对协方差的理解xy 为正数为正数yyxxii 为正数为正数yyxxii 为负数为负数yyxxii 为负数为负数yyx

10、xii 25第一节第一节 相关分析基础相关分析基础对协方差的理解对协方差的理解xy 两变量为线性正相关两变量为线性正相关为较大的正数为较大的正数本例:本例:1 nyyxxsiixy 26第一节第一节 相关分析基础相关分析基础对协方差的理解对协方差的理解xy基本无线性关系。基本无线性关系。,则两变量,则两变量接近于接近于若若两变量为线性负相关;两变量为线性负相关;为较大的负数,则为较大的负数,则若若同理:同理:0 xyxyss 27协方差有量纲即计量单位,从而影响了对相协方差有量纲即计量单位,从而影响了对相关程度的描述。关程度的描述。第一节第一节 相关分析基础相关分析基础注意:体重单位注意:体重

11、单位为千克,协方差为千克,协方差为为4. 579,皮尔,皮尔逊相关系数为逊相关系数为0.781 28协方差有量纲即计量单位,从而影响了对相协方差有量纲即计量单位,从而影响了对相关程度的描述。关程度的描述。第一节第一节 相关分析基础相关分析基础注意:将体重单注意:将体重单位改为克,协方位改为克,协方差为差为4579,为原,为原来的来的1000倍,而倍,而两变量的相关程两变量的相关程度其实并未发生度其实并未发生变化变化 29协方差有量纲即计量单位,从而影响了对相协方差有量纲即计量单位,从而影响了对相关程度的描述。关程度的描述。第一节第一节 相关分析基础相关分析基础注意:将体重单注意:将体重单位改为

12、克,皮尔位改为克,皮尔逊相关系数仍为逊相关系数仍为0.781。这就是。这就是皮尔逊相关系数皮尔逊相关系数的优势:不受计的优势:不受计量单位的影响量单位的影响 30皮尔逊相关系数计算举例:某快餐连锁店开皮尔逊相关系数计算举例:某快餐连锁店开在高校附近的在高校附近的10个分店营业额及学校学生规个分店营业额及学校学生规模资料如下:模资料如下:第一节第一节 相关分析基础相关分析基础分店分店ABCDEFGHIJ季营业额(万元)季营业额(万元)5810588118117137157169149202学生规模(千人)学生规模(千人)2688121620202226为避免计算离差,在原始数据基础上做如下为避免

13、计算离差,在原始数据基础上做如下加工:加工: 31第一节第一节 相关分析基础相关分析基础分店分店学生规模学生规模x季营业额季营业额yx2y2xyABCDEFGHIJ268812162020222658105881181171371571691492024366464144256400400484676336411025774413924136891876924649285612220140804116630704944140421923140338032785252 1401300252818473021040 32第一节第一节 相关分析基础相关分析基础分店分店学生规模学生规模x季营业额季营业

14、额yx2y2xyABCDEFGHIJ268812162020222658105881181171371571691492024366464144256400400484676336411025774413924136891876924649285612220140804116630704944140421923140338032785252 1401300252818473021040 95013001847301014025281013001402104010222222.yynxxnyxxynr 33关于皮尔逊相关系数关于皮尔逊相关系数 r 的说明:的说明: 第一,第一,r 取值在取值在1

15、与与1之间,等于之间,等于1时为完时为完全线性负相关,等于全线性负相关,等于1时为完全线性正相关,等时为完全线性正相关,等于于0时为线性不相关。时为线性不相关。 注意:注意: r等于等于0或接近或接近0时,不代表两变量不相时,不代表两变量不相关(因为可能存在非线性相关关系)。关(因为可能存在非线性相关关系)。第一节第一节 相关分析基础相关分析基础 34第一节第一节 相关分析基础相关分析基础 35关于皮尔逊相关系数关于皮尔逊相关系数 r 的说明:的说明: 第二,通常将第二,通常将 r 的绝对值域划分为三段,的绝对值域划分为三段,0.3以下为弱相关;以下为弱相关;0.3至至0.7为中等相关;为中等

16、相关;0.7以上为以上为强相关。强相关。 但要注意,仅当样本容量足够大时,才可以做但要注意,仅当样本容量足够大时,才可以做这样的判断。这样的判断。第一节第一节 相关分析基础相关分析基础 36关于皮尔逊相关系数关于皮尔逊相关系数 r 的说明:的说明: 第三,判断变量间线性相关程度和是否有意义,第三,判断变量间线性相关程度和是否有意义,与样本容量有关。当样本容量较小时,较高的相与样本容量有关。当样本容量较小时,较高的相关程度也可能没有意义。一个有用的判断法则是:关程度也可能没有意义。一个有用的判断法则是:相相关关关关系系时时,两两变变量量间间具具有有线线性性当当nr2 第一节第一节 相关分析基础相

17、关分析基础 37样本容量样本容量具有线性相关关系的具有线性相关关系的 r 绝对值绝对值21.414241100.6325150.5164200.4472250.4300.3651第一节第一节 相关分析基础相关分析基础 38关于皮尔逊相关系数关于皮尔逊相关系数 r 的说明:的说明: 第四,极端值(离群点、高杠杆点)会影响相第四,极端值(离群点、高杠杆点)会影响相关系数。因此,要注意预先识别和处理极端值。关系数。因此,要注意预先识别和处理极端值。身高210200190180170160150成绩100806040200身高2210200190180170160150成绩10080604020002

18、04. 0r188. 0r第一节第一节 相关分析基础相关分析基础 39关于皮尔逊相关系数关于皮尔逊相关系数 r 的检验的检验 如前所述:样本显示两变量间存在线性关系,如前所述:样本显示两变量间存在线性关系,并不意味着总体也是如此。并不意味着总体也是如此。 因此,必须对相关系数进行检验。因此,必须对相关系数进行检验。0010 :H,:H假假设设方方式式:212rrnt 检检验验统统计计量量: 时时,拒拒绝绝原原假假设设。22 ntt 第一节第一节 相关分析基础相关分析基础 40前例的检验(设显著性水平为前例的检验(设显著性水平为0.05) 。地地不不为为逊逊相相关关系系数数显显著著认认为为总总体

19、体两两变变量量的的皮皮尔尔择择假假设设,即即可可以以故故拒拒绝绝原原假假设设、接接受受备备查查表表得得:已已知知:030626189501950812306221005010950220250.rrnt.t,.,n,.r. 第一节第一节 相关分析基础相关分析基础 414.4.非参数相关系数非参数相关系数如果两变量为数量变量但不服从正态分布或如果两变量为数量变量但不服从正态分布或者分布形态未知,或者两变量为顺序型变量,者分布形态未知,或者两变量为顺序型变量,这时需要使用非参数相关系数。这时需要使用非参数相关系数。非参数相关系数对数据分布没有要求,用途非参数相关系数对数据分布没有要求,用途较广泛。

20、较广泛。斯皮尔曼相关系数和肯达尔的斯皮尔曼相关系数和肯达尔的系数是常用系数是常用的非参数相关系数,度量的都是线性相关强的非参数相关系数,度量的都是线性相关强度。度。第一节第一节 相关分析基础相关分析基础 42如前所述,非参数相关系数也可以称为如前所述,非参数相关系数也可以称为“秩秩相关系数相关系数”,因为它们基于数据排序即,因为它们基于数据排序即“秩秩”计算,而不是依据数据本身的值计算。计算,而不是依据数据本身的值计算。顺序型变量值本身就是顺序型变量值本身就是“秩秩”,可以直接代,可以直接代入公式计算相关系数。入公式计算相关系数。对于数量变量,需要先对变量值排序,然后对于数量变量,需要先对变量

21、值排序,然后代入公式计算。代入公式计算。第一节第一节 相关分析基础相关分析基础 43值的秩。值的秩。个个第第值的秩;值的秩;个个第第式中:式中:或或yi:Sxi:R)SS()RR()SS)(RR()r(iiiiiis22 斯皮尔曼相关系数(斯皮尔曼相关系数(Spearmans rho):):成对的秩差成对的秩差排秩的项目数排秩的项目数)(或(或另一种计算公式:另一种计算公式::d:n)n(ndriniis161212 第一节第一节 相关分析基础相关分析基础 44肯达尔的肯达尔的系数(系数(Kendalls tau):):值的数目。值的数目。组结点组结点的第的第是是式中:式中:)y(xi)y(x

22、)u(t;/ )u(uT;/ )t (tT;/ )n(nTzifzifzif)zsgn()TT)(TT()yysgn()xxsgn(iiiiiijijiji 2121220100012102010 第一节第一节 相关分析基础相关分析基础 45第二节第二节 简单线性回归简单线性回归1.关于回归分析关于回归分析回归分析(回归分析(regression):通过一个或几个变量的通过一个或几个变量的变化去解释另一变量的变化。具体过程包括:变化去解释另一变量的变化。具体过程包括:1.找出自变量与因变量;找出自变量与因变量;2.设定数学模型;设定数学模型;3.计算待定参数;计算待定参数;4.对参数和模型进行

23、检验;对参数和模型进行检验;5.利用模型估计预测。利用模型估计预测。 46自变量(自变量(independent variable):解释变量,解释变量,给定的或可以控制的、用来解释、预测因变给定的或可以控制的、用来解释、预测因变量的变量,一般用量的变量,一般用 x 表示。表示。因变量(因变量(dependent variable):响应变量,由响应变量,由自变量来解释其变化的变量,一般用自变量来解释其变化的变量,一般用 y 表示。表示。自变量为一个时,称为一元回归,也称简单自变量为一个时,称为一元回归,也称简单回归(回归(Simple Linear regression ) ;自变量;自变量

24、多于一个时,称为多元回归。多于一个时,称为多元回归。第二节第二节 简单线性回归简单线性回归 47例:某快餐连锁店开在高校附近的例:某快餐连锁店开在高校附近的10个分店营业个分店营业额及学校学生规模资料如下:额及学校学生规模资料如下:分店分店ABCDEFGHIJ季营业额(万元)季营业额(万元)5810588118117137157169149202学生规模(千人)学生规模(千人)2688121620202226据数据表观察:分店的营业额与附近高校的学生据数据表观察:分店的营业额与附近高校的学生规模存在相关关系。规模存在相关关系。第二节第二节 简单线性回归简单线性回归 48学生规模与分店学生规模与

25、分店季营业额之间的关系季营业额之间的关系可以用一条直线近似可以用一条直线近似地表示,并且是一种地表示,并且是一种正向线性关系。如果正向线性关系。如果能找出这条直线,就能找出这条直线,就可以根据学生规模来可以根据学生规模来估计营业额。估计营业额。第二节第二节 简单线性回归简单线性回归 49 xy102.2.一一元线性回归元线性回归模型与回归方程模型与回归方程一元线性回归模型:一元线性回归模型:式中的式中的 0 和和 1 为回归系数,为回归系数, 为误差项。该模为误差项。该模型表示型表示 y 依赖于依赖于 x 变化,但又不仅仅依赖于变化,但又不仅仅依赖于 x 变变化,误差项说明化,误差项说明 y

26、当中存在不能由当中存在不能由 x 与与 y 间的线间的线性关系所解释的变异性。性关系所解释的变异性。第二节第二节 简单线性回归简单线性回归 50 xyE10)( 一元线性回归方程:一元线性回归方程:进行进行回归分析时,通常要做一些合理的假定。回归分析时,通常要做一些合理的假定。 其其中之一为误差项的数学期望为零,即:中之一为误差项的数学期望为零,即:这就是一元(简单)线性回归方程。这就是一元(简单)线性回归方程。这就意味对于给定的这就意味对于给定的 x 值,值,y 的期望值为:的期望值为:0)( E第二节第二节 简单线性回归简单线性回归 51对对回归模型误差项的假设主要包括:回归模型误差项的假

27、设主要包括:误差项误差项 的的数学期望为零;数学期望为零;对于所有的对于所有的 x 值,值, 的方差是相同的;的方差是相同的; 的值是相互独立的;的值是相互独立的; 是一个正态分布的量。是一个正态分布的量。第二节第二节 简单线性回归简单线性回归 52)(yfxy0 x1xx 2xx 3xx xyE10)( )(iyE)(iyf对回归模型假定的说明:对回归模型假定的说明:第二节第二节 简单线性回归简单线性回归 533.一元线性回归方程的可能形态一元线性回归方程的可能形态 1为正为正 1为负为负 1为为0第二节第二节 简单线性回归简单线性回归 54xbby10 bxay 或或:4.估计的回归方程与

28、回归系数计算估计的回归方程与回归系数计算在实际工作中,在实际工作中,0 和和 1是未知的,因此,我们需是未知的,因此,我们需要用样本数据去估计它们。我们利用样本数据计要用样本数据去估计它们。我们利用样本数据计算算 b0 、b1 (或表述为(或表述为 a、b),分别作为参数),分别作为参数 0 和和 1 的估计值。这样,就得到估计的回归方程:的估计值。这样,就得到估计的回归方程:第二节第二节 简单线性回归简单线性回归 55xbyaxxnyxxynb22)(手工做题求手工做题求 a、b 的公式(根据最小平方法):的公式(根据最小平方法):第二节第二节 简单线性回归简单线性回归 56如前例:某快餐连

29、锁店开在高校附近的如前例:某快餐连锁店开在高校附近的10个分店个分店营业额及学校学生规模资料如下:营业额及学校学生规模资料如下:分店分店ABCDEFGHIJ季营业额(万元)季营业额(万元)5810588118117137157169149202学生规模(千人)学生规模(千人)2688121620202226第二节第二节 简单线性回归简单线性回归 57一、回归分析基础一、回归分析基础分店分店学生规模学生规模x季营业额季营业额yx2y2xyABCDEFGHIJ2688121620202226581058811811713715716914920243664641442564004004846763

30、36411025774413924136891876924649285612220140804116630704944140421923140338032785252 1401300252818473021040 58xy560 斜率斜率 b5 意味着:学意味着:学生规模每增加生规模每增加1千人,分店千人,分店的季营业额将期望增加的季营业额将期望增加5万万元。元。 594.回归方程拟合优度的度量:判定系数回归方程拟合优度的度量:判定系数回归方程对数据分布的拟合效果有优有劣,但回归方程对数据分布的拟合效果有优有劣,但方程本身无法反映拟合效果;方程本身无法反映拟合效果;第二节第二节 简单线性回归简

31、单线性回归 60我们可以考虑使用残差(数据点到回归线沿纵我们可以考虑使用残差(数据点到回归线沿纵轴方向的距离)来描述这个问题:数据点离回轴方向的距离)来描述这个问题:数据点离回归线越近、残差越小。归线越近、残差越小。但残差有量纲,用起来有诸多不便。但残差有量纲,用起来有诸多不便。于是考虑使用无量纲的方法即判定系数。这时,于是考虑使用无量纲的方法即判定系数。这时,需要对因变量的离差(数据与其均值的差)做需要对因变量的离差(数据与其均值的差)做分解。分解。第二节第二节 简单线性回归简单线性回归 61因变量离差用总的平方和因变量离差用总的平方和SST表示,确定了估表示,确定了估计的回归方程之后,计的

32、回归方程之后,SST就被分解为两部分:就被分解为两部分:方程可以解释的部分为回归平方和方程可以解释的部分为回归平方和SSR,方程,方程未能解释的部分为残差平方和未能解释的部分为残差平方和SSE。第二节第二节 简单线性回归简单线性回归 62对因变量离差分解的图示:对因变量离差分解的图示:yy yy y y yy 2)(yySST 2) (yySSE 2)(yySSRSST=SSR+SSE 63yy y y yy y y yy yy yy SST=SSR+SSE 64通常,三个平方和不用离差的方式计算,而是通常,三个平方和不用离差的方式计算,而是使用下式:使用下式: nyySST/)(22nxxn

33、yxxySSR/)()/(222 SSRSSTSSE 第二节第二节 简单线性回归简单线性回归 65二、回归方程的拟合优度二、回归方程的拟合优度分店分店学生规模学生规模x季营业额季营业额yx2y2xyABCDEFGHIJ268812162020222658105881181171371571691492024366464144256400400484676336411025774413924136891876924649285612220140804116630704944140421923140338032785252 1401300252818473021040157301013001847

34、30222 /n/)y(ySST142001014025281013001402104022222 /)/(n/)x(x)n/yxxy(SSR15301420015730 SSRSSTSSE 66判定系数(判定系数(Coefficient of determination)是对)是对估计的回归方程拟合优度的度量。估计的回归方程拟合优度的度量。判定系数表明判定系数表明 y 的全部变异中能被估计的回归的全部变异中能被估计的回归方程解释的部分所占比例,通常用方程解释的部分所占比例,通常用 r2 表示。表示。SSTSSESSTSSRr 12第二节第二节 简单线性回归简单线性回归 67二、回归方程的拟合

35、集优度二、回归方程的拟合集优度STAT统计学第六章 相关与回归分析yy yy yy 0) (2 yySSESSTyyyySSR 22)()(当当 SSR = SST 时,为完时,为完全的拟合,残差平方和全的拟合,残差平方和为为 0 ,判定系数为,判定系数为 1 。 68yy y y yy 0)(2yySSRSSTSSE 当当 SSE= SST 时,为最差时,为最差的拟合,残差平方和最的拟合,残差平方和最大大 ,判定系数为,判定系数为 0 。 69分店分店学生规模学生规模x季营业额季营业额yx2y2xyABCDEFGHIJ2688121620202226581058811811713715716

36、91492024366464144256400400484676336411025774413924136891876924649285612220140804116630704944140421923140338032785252 14013002528184730210409030157300568028400130018473010140252810130014021040102222222222.)()()()y(yn()x(xn()yxxyn(r 702222)()( yynxxnyxxynr判定系数与相关系数的关系:判定系数与相关系数的关系:)()()(222222 yynxxny

37、xxynr第二节第二节 简单线性回归简单线性回归 715.对回归方程的检验对回归方程的检验我们做回归分析的目的是要对总体进行回归估我们做回归分析的目的是要对总体进行回归估计,但依据样本数据建立的回归方程(即所谓计,但依据样本数据建立的回归方程(即所谓“估计的回归方程估计的回归方程”)不一定能用。)不一定能用。因为存在抽样误差,所以估计的回归方程与总因为存在抽样误差,所以估计的回归方程与总体回归方程在斜率是否为零和关联方向上都可体回归方程在斜率是否为零和关联方向上都可能不一致,而这又是至关重要的内容。能不一致,而这又是至关重要的内容。因此我们必须做假设检验。因此我们必须做假设检验。第二节第二节

38、简单线性回归简单线性回归 72第二节第二节 简单线性回归简单线性回归 73b1 的抽样分布的抽样分布 211222211111 nSSEMSEsxnxssxnx,Nbbbb 第二节第二节 简单线性回归简单线性回归 740:0:1110 HH)n( tsbsbtbb211111 )拒绝原假设(双侧检验拒绝原假设(双侧检验时时或或若:若:)n(tt)n(tt2222 第二节第二节 简单线性回归简单线性回归 75三、回归方程的检验三、回归方程的检验分店分店学生规模学生规模x季营业额季营业额yx2y2xyABCDEFGHIJ268812162020222658105881181171371571691

39、492024366464144256400400484676336411025774413924136891876924649285612220140804116630704944140421923140338032785252 140130025281847302104015301420015730SSRSSTSSE0:0:1110 HH62. 858. 0511bsbt用用。明明显显地地不不为为零零,方方程程可可型型的的斜斜率率即即可可以以认认为为总总体体回回归归模模择择假假设设,故故拒拒绝绝原原假假设设、接接受受备备由由于于30622106280250.)(t.t. 83.1321015

40、302nSSEs)检验(设检验(设的的对对0.05560 txy 58. 010140252883.13)(12221xnxssb 76对回归方程的对回归方程的 F 检验检验建立在建立在 F 分布基础上的分布基础上的 F 检验,也能对回归方检验,也能对回归方程做显著性检验。程做显著性检验。F 检验是关于方程总体是否显著的检验,与检验是关于方程总体是否显著的检验,与 t 检验有区别。检验有区别。但在仅有一个自变量的情况下,但在仅有一个自变量的情况下,F 检验与检验与 t 检检验等价,即得出的结论相同。验等价,即得出的结论相同。第二节第二节 简单线性回归简单线性回归 77F 检验的基本程序:检验的

41、基本程序:0:0:1110 HH 21 n,FMSEMSRF拒绝原假设拒绝原假设若:若:,FF 第二节第二节 简单线性回归简单线性回归 78方差方差来源来源平方和平方和自由度自由度均方均方F回归回归误差误差总计总计SSRSSESST1n2n1MSR=SSR/1MSE=SSE/n2MSR/MSE简单线性回归的方差分析表简单线性回归的方差分析表第二节第二节 简单线性回归简单线性回归 79三、回归方程的检验三、回归方程的检验分店分店学生规模学生规模x季营业额季营业额yx2y2xyABCDEFGHIJ268812162020222658105881181171371571691492024366464

42、144256400400484676336411025774413924136891876924649285612220140804116630704944140421923140338032785252 1401300252818473021040001110 :H:H)检验(设检验(设的的对对0.05560 Fxy 74.2514200191.2518914200153015730回归回归误差误差总计总计F均方均方自由度自由度平方和平方和方差来源方差来源ANOVA因此,要拒绝原假设因此,要拒绝原假设325812574050.),(F.F. )。)。存在显著的关系(即存在显著的关系(即之间之

43、间与与检验的结果,可以认为检验的结果,可以认为根据根据01 yxF 806.回归估计回归估计如果估计的回归方程通过了相关的检验,则利如果估计的回归方程通过了相关的检验,则利用该回归方程对样本数据所做的拟合可以认为用该回归方程对样本数据所做的拟合可以认为是好的拟合。是好的拟合。这时,我们使用该方程做回归估计或预测是合这时,我们使用该方程做回归估计或预测是合适的。适的。回归估计有点估计和区间估计之分。回归估计有点估计和区间估计之分。第二节第二节 简单线性回归简单线性回归 81点估计:在估计的方程中代入特定的点估计:在估计的方程中代入特定的 x 值,我值,我们就可以计算出们就可以计算出 y 的一个估

44、计值,这就是点估的一个估计值,这就是点估计。这个点估计值可以是对个别值的估计、也计。这个点估计值可以是对个别值的估计、也可以是对平均值的估计。可以是对平均值的估计。例如连锁店的例子,如果一个分店或多个分店例如连锁店的例子,如果一个分店或多个分店建在学生规模为建在学生规模为 9 千人的高校旁边,其季营业千人的高校旁边,其季营业额的个别值或平均值均为:额的个别值或平均值均为:(万元)(万元)1059560560 xy 第二节第二节 简单线性回归简单线性回归 82区间估计区间估计点估计不会为我们提供关于估计量精度的任点估计不会为我们提供关于估计量精度的任何信息。因此,我们还需要做区间估计。何信息。因

45、此,我们还需要做区间估计。回归分析的区间估计有两种:回归分析的区间估计有两种:一种是置信区间估计,即给定一个一种是置信区间估计,即给定一个 x 值,估值,估计计 y 平均值的区间;平均值的区间;另一种是预测区间估计,即给定一个另一种是预测区间估计,即给定一个 x 值,值,估计估计 y 的一个个别值的区间。的一个个别值的区间。第二节第二节 简单线性回归简单线性回归 83关于关于置信区间估计(以连锁店为例)置信区间估计(以连锁店为例):问题问题:对于所有建在学生规模为:对于所有建在学生规模为 9 千人高校旁千人高校旁边的分店,其季营业额平均水平的边的分店,其季营业额平均水平的1置信区置信区间是多少间是多少?公式公式:y sty )y (E21 置置信信区区间间:的的 n/)x(x)xx(nssy 222122 n)y y(s第二节第二节 简单线性回归简单线性回归 84对于连锁店的例子,如果设对于连锁店的例子,如果设=0.05,查表得,查表得 t0.025(102)= 2.306,再代入之前的计算结果和其,再代入之前的计算结果和其他条件,则所有位于他条件,则所有位于 9 千学生规模的高校附近的千学生规模的高校附近的分店平均季营业额分店平均季营业额95%

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论