第6章_相关分析与回归分析PPT课件_第1页
第6章_相关分析与回归分析PPT课件_第2页
第6章_相关分析与回归分析PPT课件_第3页
第6章_相关分析与回归分析PPT课件_第4页
第6章_相关分析与回归分析PPT课件_第5页
已阅读5页,还剩100页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2022-4-12第六章第六章2022-4-12本本 章章 内内 容容 第一节 相关分析 第二节 一元线性回归 第三节 非线性回归 2022-4-12第一节第一节 相关分析相关分析一、相关关系的概念一、相关关系的概念二、相关关系的种类二、相关关系的种类三、相关分析三、相关分析四、相关分析中应注意的问题四、相关分析中应注意的问题 2022-4-12一、相关关系的概念一、相关关系的概念(一)函数关系与相关关系(一)函数关系与相关关系1.函数关系函数关系 函数关系指变量之间具有的严格的确定性的函数关系指变量之间具有的严格的确定性的依存关系。当一个或几个变量取一定的值时,依存关系。当一个或几个变量取一

2、定的值时,另一个变量有确定值与之相对应。另一个变量有确定值与之相对应。函数关系的例子函数关系的例子某种商品的销售额某种商品的销售额与销售量与销售量之间的关系可表示为之间的关系可表示为为单价为单价圆的面积圆的面积与半径与半径 之间的关系可表示为之间的关系可表示为企业的原材料消耗额企业的原材料消耗额与产量与产量单位产量消耗单位产量消耗原材料价格原材料价格之间的关系可表示为之间的关系可表示为2022-4-12(1 1)变量之间数值是一一对应的确)变量之间数值是一一对应的确定关系定关系, ,可用一个数学表达式表可用一个数学表达式表示。示。 (2 2)设有两个变量)设有两个变量x x和和y y,变量,变

3、量y y 随随变量变量x x 一起变化,并完全依赖于一起变化,并完全依赖于x x ,当变量,当变量x x取某个数值时,取某个数值时,y y 依确定的关系取相应的值,则称依确定的关系取相应的值,则称y y是是x x的函数,记为的函数,记为y y= =f f( (x x) ),其中,其中x x称为自变量,称为自变量,y y称为因变量称为因变量; ;(3 3)各观测点落在一条线上。)各观测点落在一条线上。函数关系的特点:函数关系的特点:2022-4-122.相关关系相关关系 指客观现象之间确实存在的但数量上不是严格指客观现象之间确实存在的但数量上不是严格对应的依存关系。即变量间关系不能用函数关系对应

4、的依存关系。即变量间关系不能用函数关系精确表达,当变量精确表达,当变量x x取某个值时,变量取某个值时,变量y y的取值可的取值可能有几个。能有几个。相关关系的例子相关关系的例子商品的消费量商品的消费量与居民收入与居民收入之间的关系之间的关系商品销售额商品销售额与广告费支出与广告费支出之间的关系之间的关系粮食亩产量粮食亩产量与施肥量与施肥量降雨量降雨量温度温度之间的关系之间的关系收入水平收入水平与受教育程度与受教育程度之间的关系之间的关系2022-4-12相关关系的特点:相关关系的特点:(1 1)变量间关系不能用函数关系)变量间关系不能用函数关系精确表达;精确表达;(2 2)一个变量的取值不能

5、由另一)一个变量的取值不能由另一个变量唯一确定;个变量唯一确定;(3 3)当变量)当变量 x x 取某个值时,变量取某个值时,变量 y y 的取值可能有几个;的取值可能有几个;(4 4)各观测点分布在直线附近。)各观测点分布在直线附近。2022-4-12函数关系与相关关系的联系函数关系与相关关系的联系函数关系往往通过相关关系表现出来。把影响因变量变函数关系往往通过相关关系表现出来。把影响因变量变动的因素全部纳入方程,这时的相关关系就有可能转化动的因素全部纳入方程,这时的相关关系就有可能转化为函数关系。为函数关系。相关关系经常可以用一定的函数形式去近似地描述。相关关系经常可以用一定的函数形式去近

6、似地描述。2022-4-12例:有数据显示世界各国平均每人拥有电视机数例:有数据显示世界各国平均每人拥有电视机数x x及居民预及居民预期寿命期寿命y y之间有很强的正相关,可否认为电视机很多的国家之间有很强的正相关,可否认为电视机很多的国家,居民预期寿命比较长?,居民预期寿命比较长? 有人测试出火灾现场的消防员人数和该场火灾造成的损有人测试出火灾现场的消防员人数和该场火灾造成的损害之间有很强的正相关害之间有很强的正相关 ,可否认为派出的消防员越多造成,可否认为派出的消防员越多造成的损害越大的损害越大 ? (二)相关关系与因果关系(二)相关关系与因果关系因果关系因果关系相关关系;相关关系;现象之

7、间是因果关系同时是相关关系,但是相关关系不现象之间是因果关系同时是相关关系,但是相关关系不一定是因果关系。一定是因果关系。统计只能说明现象间有无数量上的关系,不能说明谁因统计只能说明现象间有无数量上的关系,不能说明谁因谁果。谁果。确定因果关系的方法确定因果关系的方法定性分析。定性分析。2022-4-12自变量:是引起某种结果变化的原因,它是可以控制、给自变量:是引起某种结果变化的原因,它是可以控制、给定的值,常用定的值,常用x表示;表示;因变量:是自变量变化的引起结果量,它是不确定的值,因变量:是自变量变化的引起结果量,它是不确定的值,常用常用y表示。表示。 它们的表现形式有:它们的表现形式有

8、: 一种原因引起一种结果;一种原因引起一种结果; 多种原因引起一种结果;多种原因引起一种结果; 还有变量之间是互为因果的关系。还有变量之间是互为因果的关系。相关分析时,一般不区分原因和结果。相关分析时,一般不区分原因和结果。自变量与因变量自变量与因变量2022-4-12二、相关关系的种类二、相关关系的种类 1. 1. 按相关的程度分按相关的程度分 完全相关完全相关:当一个变量的变化完全由另一个变量所:当一个变量的变化完全由另一个变量所决定时,称变量间的这种关系为为完全相关关系,这决定时,称变量间的这种关系为为完全相关关系,这种严格的依存关系实际上就是函数关系。种严格的依存关系实际上就是函数关系

9、。 不相关不相关:当两个变量的变化相互独立、互不影响时,:当两个变量的变化相互独立、互不影响时,称这两个变量不相关(或零相关)。称这两个变量不相关(或零相关)。 不完全相关不完全相关:当变量之间存在不严格的依存关系时,:当变量之间存在不严格的依存关系时,称为不完全相关。称为不完全相关。 不完全相关关系是现实当中相关关系的主要表现形式,不完全相关关系是现实当中相关关系的主要表现形式,是相关分析的主要研究对象。是相关分析的主要研究对象。2022-4-122. 2. 按相关的方向按相关的方向正相关正相关:当一个变量随着另一个变量的增加当一个变量随着另一个变量的增加(减少)而增加(减少),即两者同向变

10、化时,(减少)而增加(减少),即两者同向变化时,称为正相关。称为正相关。 如家庭收入与家庭支出之间的关系。如家庭收入与家庭支出之间的关系。负相关负相关:当一个变量随着另一个变量的增加当一个变量随着另一个变量的增加(减少)而减少(增加),即两者反向变化时,(减少)而减少(增加),即两者反向变化时,称为负相关。称为负相关。 如产品产量与单位成本之间的关系,单位成本如产品产量与单位成本之间的关系,单位成本会随着产量的增加而减少。会随着产量的增加而减少。2022-4-123 3、 按相关的形式按相关的形式线性相关线性相关:当变量之间的依存关系大致呈现为当变量之间的依存关系大致呈现为线性形式,即当一个变

11、量变动一个单位时,另一线性形式,即当一个变量变动一个单位时,另一个变量也按一个大致固定的增(减)量变动,就个变量也按一个大致固定的增(减)量变动,就称为线性相关。称为线性相关。非线性相关非线性相关:当变量间的关系不按固定比例变当变量间的关系不按固定比例变化时,就称之为非线性相关。化时,就称之为非线性相关。2022-4-124. 4. 按研究变量的多少按研究变量的多少单相关单相关:两个变量之间的相关,称为单相关。两个变量之间的相关,称为单相关。复相关复相关:一个变量与两个或两个以上其他变量一个变量与两个或两个以上其他变量之间的相关,称为复相关。之间的相关,称为复相关。偏相关偏相关:在复相关的研究

12、中,假定其他变量不在复相关的研究中,假定其他变量不变,专门研究其中两个变量之间的相关关系时变,专门研究其中两个变量之间的相关关系时称其为偏相关。称其为偏相关。注意:并非所有的变量之间都存在相关关系,因此需要用注意:并非所有的变量之间都存在相关关系,因此需要用相关分析方法来识别和判断。相关分析方法来识别和判断。2022-4-12三、相关分析三、相关分析 相关分析相关分析就是运用一定的方法对变量之间的依存就是运用一定的方法对变量之间的依存关系密切程度进行测定的过程。关系密切程度进行测定的过程。发生车祸的次数与司机的年龄有关吗发生车祸的次数与司机的年龄有关吗 ? 一年的葡萄酒消耗量(平均每人喝葡萄酒

13、摄取酒精的一年的葡萄酒消耗量(平均每人喝葡萄酒摄取酒精的升数)以及一年中因心脏病死亡的人数(每十万人死升数)以及一年中因心脏病死亡的人数(每十万人死亡人数)之间有关系吗?亡人数)之间有关系吗? 身高与足迹长度有关吗?身高与足迹长度有关吗? 2022-4-12相关分析的主要内容相关分析的主要内容1.1.确定现象之间有无关系确定现象之间有无关系? ?2.2.有什么样的关系?有什么样的关系?3.3.关系的强弱?关系的强弱?5.5.是否伪关系?是否伪关系?4.4.总体也有这种关系吗?总体也有这种关系吗?2022-4-12定性分析定性分析定量分析定量分析相关分析的方法相关分析的方法2022-4-12(一

14、)相关表(一)相关表相关表是一种反映变量之间相关关系的统计表。对于两相关表是一种反映变量之间相关关系的统计表。对于两个基本变量个基本变量x x和和y y,通过观察和实验,我们可以得到关于,通过观察和实验,我们可以得到关于x x和和y y的若干组数据,记为的若干组数据,记为( ( , )(i=1)(i=1,2 2,n)n)。将这些数据按的值由小到大(或由大到小)以序列表表将这些数据按的值由小到大(或由大到小)以序列表表示,即构成相关表。示,即构成相关表。ixiy某地区居民人均收入水平(某地区居民人均收入水平(x x)与食品支出占生活费支)与食品支出占生活费支出的比重出的比重(y)(y)之间具有相

15、关关系,编制相关表如下表:之间具有相关关系,编制相关表如下表:人均收入水平人均收入水平 ( (x x)/)/元元 2803403905306506707908809101050食品支出占生活食品支出占生活费支出的比重费支出的比重 ( (y y)/% )/% 68.367.566.264.956.760.254.449.050.543.62022-4-12用直角坐标系的横轴代表变量用直角坐标系的横轴代表变量x x ,纵轴代表变量,纵轴代表变量y y ,将两,将两个变量间相对应的变量值用坐标点的形式描绘出来,用个变量间相对应的变量值用坐标点的形式描绘出来,用以表明相关点分布状况的图形。以表明相关点

16、分布状况的图形。45505560657020040060080010001200XY(二)散点图(相关图)(二)散点图(相关图)2022-4-12(a)正相关直线相关(b)负相关直线相关(c)正相关曲线相关x x与与y y关系散点图的主要类型关系散点图的主要类型2022-4-12(d)负相关曲线关系(e)负相关直线相关(相关程度较小)(f )不相关2022-4-12(三)相关系数(三)相关系数(相关关系的测度)(相关关系的测度)相关系数的意义:相关系数的意义:(1)对变量之间关系密切程度的度量;)对变量之间关系密切程度的度量;(2)若相关系数是根据总体全部数据计算的,称为总体)若相关系数是根据

17、总体全部数据计算的,称为总体相关系数,记为相关系数,记为 ;若是根据样本数据计算的,则称若是根据样本数据计算的,则称为样本相关系数,记为为样本相关系数,记为 r;(3)对两个变量之间线性相关程度的度量称为简单相关)对两个变量之间线性相关程度的度量称为简单相关系数;系数;(4)将反映两变量间曲线相关关系的统计指标称为非线)将反映两变量间曲线相关关系的统计指标称为非线性相关系数、非线性判定系数;将反映多元线性相关性相关系数、非线性判定系数;将反映多元线性相关关系的统计指标称为复相关系数、复判定系数等。关系的统计指标称为复相关系数、复判定系数等。2022-4-12n1 1、由未分组资料计算相关系数公

18、式、由未分组资料计算相关系数公式:积差法积差法以两个变量与各自均值的离差为基础,通过两个离差以两个变量与各自均值的离差为基础,通过两个离差相乘来反映变量之间相关程度。相乘来反映变量之间相关程度。基本公式:基本公式: yxxyr2其中,其中,nxxx2)(nyyy2)(x x和和y y的协方差的协方差x x的标准差的标准差y y的标准差的标准差nyyxxxy)(2相关系数的计算:相关系数的计算:2022-4-1222)()()(yyxxyyxxr上述公式还可以变换为其它形式,如:nxxxnxxnxnnxxxnxxx22222222)(222)(yynyy22)( nyxxyyyxx)()2()(

19、222xxxxxx2022-4-122222)(1)(11ynyxnxyxnxyr2222)()(yynxxnyxxynr 2222)()(jjjjjiiiiijjiiijjiijfyfyffxfxffyfxfyxfrn2 2、由变量数列资料计算相关系数公式、由变量数列资料计算相关系数公式:2022-4-123、相关系数取值及其意义相关系数取值及其意义相关系数的值介于相关系数的值介于1与与+1之间,即之间,即1r+1。2022-4-12(1 1)当)当r0r0时,表示两变量正相关,时,表示两变量正相关,r0r0时,两变量为负时,两变量为负相关相关; ;(2 2)当)当|r|=1|r|=1时,表

20、示两变量为完全线性相关,即为函时,表示两变量为完全线性相关,即为函数关系数关系; ;(3 3)当)当r=0r=0时,表示两变量间无线性相关关系,它并不时,表示两变量间无线性相关关系,它并不意味着与之间不存在其他类型的关系意味着与之间不存在其他类型的关系; ;(4 4)当)当0|r|10|r|0 0 ,说明两变量,说明两变量之间正线性相关;之间正线性相关;2 2)所有相关点都为负相关,则)所有相关点都为负相关,则 0 0 ,说明两变量,说明两变量之间负线性相关;之间负线性相关;3 3)在全部相关点中,既有正相关、又有负相关和零相)在全部相关点中,既有正相关、又有负相关和零相关,这时计算协方差时就

21、会出现正负抵消。抵消的结果关,这时计算协方差时就会出现正负抵消。抵消的结果为正数,为正相关;为负数就是负相关。为正数,为正相关;为负数就是负相关。2xy2xy2xy2022-4-12【例】根据上述资料,计算人均消费与人均国内生产【例】根据上述资料,计算人均消费与人均国内生产总值的直线相关系数。总值的直线相关系数。2022-4-129938. 02873494547496961395433057667928734613952022998529222222 yynxxnyxxynr将上表计算结果代入公式为:将上表计算结果代入公式为:相关系数较大,这说明人均消费额与人均国内生产总值相关系数较大,这说

22、明人均消费额与人均国内生产总值高度相关。高度相关。 2022-4-12四、相关分析中应注意的问题四、相关分析中应注意的问题 (一)相关系数是说明变量之间线性联系程度的,(一)相关系数是说明变量之间线性联系程度的,相关系数很小的变量间可能存在非线性联系。相关系数很小的变量间可能存在非线性联系。(二)相关系数不能解释两变量间的因果关系,(二)相关系数不能解释两变量间的因果关系,警惕虚假相关导致的错误结论。警惕虚假相关导致的错误结论。(三)不要在相关关系据以成立的数据范围以外,(三)不要在相关关系据以成立的数据范围以外,推论这种相关关系仍然保持。推论这种相关关系仍然保持。2022-4-12第二节 一

23、元线性回归本节内容本节内容 一、回归分析的概念及种类一、回归分析的概念及种类 二、标准的一元线性回归模型二、标准的一元线性回归模型 三、回归估计标标准误差三、回归估计标标准误差 四、可线性化的常用曲线类型四、可线性化的常用曲线类型 2022-4-12一、回归分析的概念一、回归分析的概念1 1、什么是回归分析、什么是回归分析回归:退回。回归一词是由英国生物学家回归:退回。回归一词是由英国生物学家F.GaltonF.Galton在研究人体身高的遗传问题时首先提出的。在研究人体身高的遗传问题时首先提出的。回归分析是回归分析是通过数学模型来研究一个变量(称因变通过数学模型来研究一个变量(称因变量)对另

24、一个或多个变量(称自变量)的数量变量)对另一个或多个变量(称自变量)的数量变化规律,为估计预测提供一个重要的方法。化规律,为估计预测提供一个重要的方法。变量之间的数量变化规律,是指当自变量发生一定变量之间的数量变化规律,是指当自变量发生一定量变化时,平均说来因变量会发生多大量的变化量变化时,平均说来因变量会发生多大量的变化。2022-4-122 2、相关分析与回归分析的关系、相关分析与回归分析的关系 二者的联系:两者都是研究变量之间的相关关系。二者的联系:两者都是研究变量之间的相关关系。相关分析是回归分析的基础和前提,回归分析相关分析是回归分析的基础和前提,回归分析是相关分析的深入和继续。是相

25、关分析的深入和继续。根据相关分析可以判断变量间联系的密切程度,根据相关分析可以判断变量间联系的密切程度,进而确定有无必要建立回归方程。只有当变量进而确定有无必要建立回归方程。只有当变量间有较密切的相关关系时,回归方程才有作用。间有较密切的相关关系时,回归方程才有作用。反过来,若建立了回归方程,可以通过对回归反过来,若建立了回归方程,可以通过对回归系数的检验,来判断变量间是否存在显著相关。系数的检验,来判断变量间是否存在显著相关。2022-4-12二者的区别:二者的区别:(1(1) )相关分析中变量之间的关系是对等的;回归分析中,相关分析中变量之间的关系是对等的;回归分析中,变量之间的关系是不对

26、等的,将变量划分自变量和因变变量之间的关系是不对等的,将变量划分自变量和因变量。量。(2)(2)相关分析中变量都必须是随机变量;回归分析中,自相关分析中变量都必须是随机变量;回归分析中,自变量是给定的,因变量是随机的。变量是给定的,因变量是随机的。(3)(3)相关分析主要是描述两个变量之间线性关系的密切程相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量度;回归分析不仅可以揭示变量 x x 对变量对变量 y y 的影响大的影响大小,还可以由回归方程进行预测和控制;小,还可以由回归方程进行预测和控制;(4)(4)相关分析主要是通过一个指标即相关系数来反映变量相关分析主要是

27、通过一个指标即相关系数来反映变量之间相关程度的大小,相关系数是惟一的。而在回归分之间相关程度的大小,相关系数是惟一的。而在回归分析中,对于互为因果的两个变量析中,对于互为因果的两个变量 ,则有可能存在两个或,则有可能存在两个或多个回归方程。多个回归方程。 2022-4-123、回归模型模型的类型型回归模型回归模型多元回归多元回归一元回归一元回归线性线性回归回归非线性非线性回归回归线性线性回归回归非线性非线性回归回归2022-4-124 4、回归分析步骤:、回归分析步骤:首先对变量之间的关系进行相关分析,并将变首先对变量之间的关系进行相关分析,并将变量分为自变量和因变量;量分为自变量和因变量;其

28、次,找出合适的回归模型(即数学方程式),其次,找出合适的回归模型(即数学方程式),描述变量间的关系;描述变量间的关系;再次,对回归模型进行统计检验;再次,对回归模型进行统计检验;最后,统计检验通过后,利用回归模型,根据最后,统计检验通过后,利用回归模型,根据自变量去估计、预测因变量。自变量去估计、预测因变量。本节介绍标准的一元线性回归分析本节介绍标准的一元线性回归分析。2022-4-12二、标准的一元线性回归模型二、标准的一元线性回归模型2022-4-12 y = b b0 0 b b1 1 x e e 模型中,模型中,y y 是是 x x 的线性函数的线性函数( (部分部分) )加上误差项加

29、上误差项 线性部分反映了由于线性部分反映了由于 x x 的变化而引起的的变化而引起的 y y 的的变化变化 误差项误差项 e e 是随机变量是随机变量反映了除反映了除 x x 和和 y y 之间的线性关系之外的随机因素对之间的线性关系之外的随机因素对 y y 的影响的影响是不能由是不能由 x x 和和 y y 之间的线性关系所解释的变异性之间的线性关系所解释的变异性b b0 0 和和 b b1 1 称为模型的参数称为模型的参数2022-4-12误差误差项项是一个期望值为是一个期望值为0 0的随机变量,即的随机变量,即E E( ()=0)=0。对于一个给定的。对于一个给定的 x x 值,值,y

30、y 的期望的期望值为值为E E ( ( y y ) =) =b b 0 0+ + b b 1 1 x = y- Ex = y- E ( ( y y ) ) 对于所有的对于所有的 x x 值,值,的方差的方差2 2 都相同都相同误差误差项项是一个服从正态分布的随机变量,是一个服从正态分布的随机变量,且相互独立。且相互独立。即即 N N( 0 ,( 0 ,2 2 ) ) 独立性意味着对于一个特定的独立性意味着对于一个特定的 x x 值,它所对应值,它所对应的的与其他与其他 x x 值所对应的值所对应的不相关不相关 对于一个特定的对于一个特定的 x x 值,它所对应的值,它所对应的 y y 值与其他

31、值与其他 x x 所对应的所对应的 y y 值也不相关值也不相关2022-4-12 E( y ) = b b0+ b b1 xb b0b b12022-4-12b b0b b1b b0b b10b1b2022-4-12 iy iyie1b0b2022-4-122022-4-1201)(2100 xyQbbb0)( )(2101xxyQbbb21010 xxxyxnybbbb0b1b2022-4-12 我国人均国民收入与人均消费金额数据我国人均国民收入与人均消费金额数据 单位单位:元元年份年份人均人均国民收入国民收入人均人均消费金额消费金额年份年份人均人均国民收入国民收入人均人均消费金额消费金额

32、1981198219831984198519861987393.8419.14460.86544.11668.29737.73859.972492672893294064515131988198919901991199219931068.81169.21250.71429.51725.92099.564369071380394711482022-4-120b1b2022-4-12 020040060080010001200140005001000150020002500人均消费与人均国民收入的回归人均消费与人均国民收入的回归2022-4-12利用利用Excel拟合一元线性回归方程拟合一元线性回

33、归方程 点击【工具】点击【工具】【数据分析】【数据分析】【回归【回归】 在【回归】对话框中【在【回归】对话框中【Y Y值输入区域】框输入:值输入区域】框输入: $B$2:$B$26$B$2:$B$26 在【在【X X值输入区域】框输入:值输入区域】框输入:$C$2:$C$26$C$2:$C$26 在【输出区域】框输入:在【输出区域】框输入:G2G2 单击单击【确定【确定】 2022-4-12估计方程的求法(估计方程的求法(Excel的输出结果)的输出结果)niiyxxSnt1221)() 2(bniiyxxxnSnt12220)()(1) 2(b2022-4-12离差平方和的分解离差平方和的分

34、解1. 因变量因变量 y 的取值是不同的,的取值是不同的,y 取值的这种取值的这种波动称为变差。变差来源于两个方面波动称为变差。变差来源于两个方面由于自变量由于自变量 x 的取值不同造成的的取值不同造成的除除 x 以外的其他因素以外的其他因素(如如x对对y的非线性的非线性影响、测量误差等影响、测量误差等)的影响的影响2. 对一个具体的观测值来说,变差的大小可对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差以通过该实际观测值与其均值之差 来来表示表示回归方程的显著性检验回归方程的显著性检验2022-4-12离差平方和的分解离差平方和的分解(图示)(图示)y2022-4-12离差

35、平方和的分解离差平方和的分解 (三个平方和的关系)(三个平方和的关系)2. 两端平方后求和有两端平方后求和有1. 从图上看有从图上看有22)()()(yyyyyy) )(2) () (22yyyyyyyy0) )(x10yyyyy成立时,可证明bb2022-4-12总变差平方总变差平方和和(SST)(SST)回归平方和回归平方和(SSR)(SSR)残差平方和残差平方和(SSE)(SSE)2022-4-12离差平方和的分解离差平方和的分解 (三个平方和的意义(三个平方和的意义)1.总平方和总平方和(SST)反映因变量的反映因变量的 n 个观察值与其均值的总离个观察值与其均值的总离差差2.回归平方

36、和回归平方和(SSR)反映自变量反映自变量 x 的变化对因变量的变化对因变量 y 取值变化取值变化的影响,或者说,是由于的影响,或者说,是由于 x 与与 y 之间的线之间的线性关系引起的性关系引起的 y 的取值变化,也称为可解的取值变化,也称为可解释的平方和释的平方和3.残差平方和残差平方和(SSE)反映除反映除 x 以外的其他因素对以外的其他因素对 y 取值的影响,取值的影响,也称为不可解释的平方和或剩余平方和也称为不可解释的平方和或剩余平方和2022-4-12样本决定系数样本决定系数 (判定系数(判定系数 )1. 回归平方和占总离差平方和的比例回归平方和占总离差平方和的比例2. 反映回归直

37、线的拟合程度反映回归直线的拟合程度3. 取值范围在取值范围在 0 , 1 之间之间4. 1,说明回归方程拟合的越好;,说明回归方程拟合的越好; 0,说明回归方程拟合的越差,说明回归方程拟合的越差5. 判定系数等于相关系数的平方,即判定系数等于相关系数的平方,即 2r2r2r2r2)(r2022-4-12判定系数与相关系数的关系判定系数与相关系数的关系判定(判定(可决可决)系数)系数相关系数相关系数就模型而言就模型而言就两个变量而言就两个变量而言说明自变量对因变量的说明自变量对因变量的解释程度解释程度度量两个变量线性依存度量两个变量线性依存程度。程度。度量不对称的因果关系度量不对称的因果关系度量

38、不含因果关系的对度量不含因果关系的对称相关关系称相关关系取值:取值:0,1取值:取值:1,1(2)区别)区别2022-4-12判定系数与相关系数的关系判定系数与相关系数的关系 (1)联系)联系 数值上,可决系数等于应变量与解释变数值上,可决系数等于应变量与解释变量之间简单相关系数的平方量之间简单相关系数的平方:222222222222222()()()()iiiiiiiiiiiiiyxx yxRyyxyx yrxyb2022-4-12估计标准误差估计标准误差1.实际观察值与回归估计值离差平方和的均方根实际观察值与回归估计值离差平方和的均方根2.反映实际观察值在回归直线周围的分散状况反映实际观察

39、值在回归直线周围的分散状况3.从另一个角度说明了回归直线的拟合程度从另一个角度说明了回归直线的拟合程度4.计算公式为计算公式为注:上例的计算结果为注:上例的计算结果为14.9496782022-4-12回归方程的显著性检验回归方程的显著性检验 (线性关系的检验(线性关系的检验 )1. 检验自变量和因变量之间的线性关系是否检验自变量和因变量之间的线性关系是否显著显著2. 具体方法是将回归离差平方和具体方法是将回归离差平方和(SSR)同剩余同剩余离差平方和离差平方和(SSE)加以比较,应用加以比较,应用F检验来检验来分析二者之间的差别是否显著分析二者之间的差别是否显著如果是显著的,两个变量之间存在

40、线性如果是显著的,两个变量之间存在线性关系关系如果不显著,两个变量之间不存在线性如果不显著,两个变量之间不存在线性关系关系2022-4-12回归方程的显著性检验回归方程的显著性检验 (检验的步骤)(检验的步骤)1. 提出假设提出假设H0:线性关系不显著:线性关系不显著2. 计算检验统计量计算检验统计量F3.确定显著性水平确定显著性水平 ,并根据分子自由度,并根据分子自由度1和和分母自由度分母自由度n-2找出临界值找出临界值F 4.作出决策:若作出决策:若F F ,拒绝拒绝H0;若若Ft,拒绝,拒绝H0; t t=2.201,拒绝,拒绝H0,表明,表明人均人均收入与人均消费之间有线性关系收入与人

41、均消费之间有线性关系对前例的回归系数进行显著性检验对前例的回归系数进行显著性检验( 0.05)2022-4-12回归系数的显著性检验回归系数的显著性检验(Excel输出的结果)输出的结果)SUMMARY OUTPUTSUMMARY OUTPUT回归统计回归统计Multiple RMultiple R0.9987038210.998703821R SquareR Square0.9974093220.997409322Adjusted R SquareAdjusted R Square0.9971738060.997173806标准误差标准误差14.9496776614.94967766观测值观

42、测值13 13CoefficientsCoefficients标准误差标准误差t Statt StatP-valueP-valueLower 95%Lower 95%Upper 95%Upper 95%InterceptIntercept54.2228639254.22286392 8.993978698.99397869 6.0287966.0287968.56501E-058.56501E-05 34.427240334.4272403 74.018487574.0184875X Variable 1X Variable 10.526377140.52637714 0.008088550.

43、00808855 65.0768265.076821.39842E-151.39842E-15 0.508574350.50857435 0.544179930.5441799300808855. 052637714. 0111bbbSt99397869. 822286392.54000bbbStniiyxxxnSS122)()(10bniiyxxSS12)(1b2022-4-12例:研究某市城镇居民人均鲜蛋需求量例:研究某市城镇居民人均鲜蛋需求量Y(公斤公斤)与人均可与人均可支配收入支配收入X(元,(元,1980年不变价计)的关系年不变价计)的关系设定模型:设定模型:1995-2005年的样

44、本数据年的样本数据参数估计参数估计:模型估计结果:模型估计结果:12tttYXubb年年份份19951996199719981999200020012002200320042005Y14.414.414.414.717.016.318.018.518.219.317.1X847.3851.0884.2903.7984.11035.31200.91289.81432.91539.01633.616.57,1145.61,11YXn220.005tttx yxb1210.54YXbb10.540.005ttYX2022-4-12判定系数计算举例判定系数计算举例 例例1:由前面的估计结果可计算出:由

45、前面的估计结果可计算出 有数据有数据Y可计算出:可计算出:21 0 .7 4te234.0419ty 22210 .6 8 4 5ttery2022-4-12区间估计举例区间估计举例 估计 : 给定 查df=9的t分布临界值 参数区间估计:222()0.001iSExb221.19332ten0.050.025(9)2.262t22222()()SESEbbbb2P-tt=1-2(0.00260.0079)0.95Pb2022-4-12计算统计量判断:因 ,拒绝说明 显著不为0,X对Y有显著影响参数的显著性检验举例参数的显著性检验举例*222220.0055.000.001()()tSESEb

46、bbbb*0.00255.00(9)2.262tt02:0Hb2b02:0Hb2022-4-12回归分析结果的报告回归分析结果的报告经过模型的估计、检验,得到一系列重要的数经过模型的估计、检验,得到一系列重要的数据,为了简明、清晰、规范地表述这些数据,据,为了简明、清晰、规范地表述这些数据,计量经济学通常采用了以下规范化的方式:计量经济学通常采用了以下规范化的方式: 例如:回归结果为例如:回归结果为 (24.5902)352.000.5300iiYX(76.5826)(0.0216)(4.5963)t 20.98698rdf标准误差标准误差SEt 统计量统计量可决系数和自由度可决系数和自由度2

47、022-4-12利用回归方程进行估计和预测利用回归方程进行估计和预测1. 根据自变量 x 的取值估计或预测因变量 y的取值2. 估计或预测的类型点估计y 的个别值的点估计区间估计y 的平均值的置信区间估计y 的个别值的预测区间估计2022-4-12利用回归方程进行估计和预测利用回归方程进行估计和预测(点估计)(点估计)2022-4-12 2022-4-12利用回归方程进行估计和预测利用回归方程进行估计和预测 (区间估计)(区间估计)1. 点估计不能给出估计的精度,点估计值与实际值之间是有误差的,因此需要进行区间估计2. 对于自变量 x 的一个给定值 x0,根据回归方程得到因变量 y 的一个估计

48、区间3. 区间估计有两种类型置信区间估计预测区间估计2022-4-12 y 的平均值的置信区间估计 1.利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的平均值E(y0)的估计区间 ,这一估计区间称为置信区间2. E(y0) 在1-置信水平下的置信区间为niixyxxxxnSnty1220201)2(2022-4-12【例】根据前例,求出人均国民收入为1250.7元时,人均消费金额均值95%的置信区间解:根据前面的计算结果 712.57,Sy=14.95,t(13-2)2.201,n=13 置信区间为712.5710.265人均消费金额95%的置信区间为702.305

49、元722.835元之间2022-4-12利用回归方程进行估计和预测利用回归方程进行估计和预测(预测区间估计(预测区间估计) y 的个别值的预测区间估计 1.利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的一个个别值的估计区间,这一区间称为预测区间 2. y0在1-置信水平下的预测区间为2022-4-12【例】根据前例,求出1990年人均国民收入为1250.7元时,人均消费金额的95%的预测区间 解:根据前面的计算结果有 712.57,Sy=14.95,t(13-2)2.201,n=13置信区间为712.5734.469人均消费金额95%的预测区间为678.101元7

50、47.039元之间2022-4-12置信区间、预测区间、回归方程置信区间、预测区间、回归方程2022-4-121.1. 因变量因变量 y y 与与 x x 之间不是线性关系之间不是线性关系2.2. 可通过变量代换转换成线性关系可通过变量代换转换成线性关系3.3. 用最小二乘法求出参数的估计值用最小二乘法求出参数的估计值4.4. 并非所有的非线性模型都可以化为线性模型并非所有的非线性模型都可以化为线性模型第三节 非线性回归2022-4-12几种常见的非线性模型 指数函数2. 线性化方法两端取对数得:lny = ln + b x令:y = lny,则有y = ln + b x1. 基本形式:3.

51、图像2022-4-12 幂函数2. 线性化方法两端取对数得:lg y = lg + b lg x令:y = lgy,x= lg x,则y = lg + b x1. 基本形式:3. 图像2022-4-12 双曲线函数2. 线性化方法令:y = 1/y,x= 1/x, 则有y = + b x1. 基本形式:3. 图像2022-4-12 对数函数2. 线性化方法x= lgx , 则有y = + b x1. 基本形式:3. 图像2022-4-12 S 型曲线2. 线性化方法令:y = 1/y,x= e-x, 则有y = + b x1. 基本形式:3. 图像2022-4-12非线性回归(举例) 【例】为

52、研究生产率与废品率之间的关系,记录数据如下表。试拟合适当的模型。废品率与生产率的关系废品率与生产率的关系生产率(周生产率(周/单位单位)x1000200030003500 4000 4500 5000废品率(废品率(%)y5.26.56.88.110.210.313.02022-4-1204812160200040006000生产率生产率废废品品率率生产率与废品率的散点图2022-4-121.用线性模型:y =b0b1x+e ,有 y = 2.671+0.0018x2.用指数模型:y = b x ,有 y =4.05(1.0002)x3.比较 直线的残差平方和5.3371指数模型的残差平方和6

53、.11。直线模型略好于指数模型2022-4-12本章小结本章小结1.相关系数与相关分析相关系数与相关分析2.一元线性回归模型、回归方程与估计的回归方一元线性回归模型、回归方程与估计的回归方程程3.多元线性回归模型、回归方程与估计的回归方多元线性回归模型、回归方程与估计的回归方程程4.回归方程与回归系数的显著性检验回归方程与回归系数的显著性检验5.非线性回归的线性化非线性回归的线性化2022-4-122022-4-12 1.1.什么是相关关系?它与函数关系有何区别和联系?什么是相关关系?它与函数关系有何区别和联系? 2.2.相关关系的种类有哪些?相关关系的种类有哪些? 3.3.简述相关系数的概念

54、及其取值范围。简述相关系数的概念及其取值范围。 4.4.简单直线相关分析有什么特点?简单直线相关分析有什么特点? 5.5.与相关分析比较,回归分析有哪些特点?与相关分析比较,回归分析有哪些特点? 6.6.回归直线方程中的参数回归直线方程中的参数a和和b的几何及经济含义是什的几何及经济含义是什么?么? 7.7.简述相关分析和回归分析的区别和联系。简述相关分析和回归分析的区别和联系。 8.8.什么是估计标准误?它有哪些作用?什么是估计标准误?它有哪些作用?2022-4-12A A、研究变量之间的变动关系、研究变量之间的变动关系 B B、研究变量之间的数量关系、研究变量之间的数量关系C C、研究变量

55、之间相互关系的密切程度、研究变量之间相互关系的密切程度 D D、研究变量之间的因果关系、研究变量之间的因果关系A A、单相关单相关 B B、复相关复相关 C C、正相关正相关 D D、负相关负相关2.2.两个变量之间的相关关系叫两个变量之间的相关关系叫( )1 1、相关分析是(相关分析是( )2022-4-123.3.相关分析对资料的要求是相关分析对资料的要求是( )A A、两变量均是随机变量两变量均是随机变量 B B、两变量均不是随机的两变量均不是随机的 C C、自变量是随机的,因变量不是随机的自变量是随机的,因变量不是随机的D D、两变量均不是随机的两变量均不是随机的 4.4.相关系数的取

56、值范围是相关系数的取值范围是 ( )A A、0r1 0r1 B B、-1-1r r1 1 C C、-1r1 -1r1 D D、-1r0-1r0 2022-4-125 5、每一吨铸铁成本(元)倚铸件废品率、每一吨铸铁成本(元)倚铸件废品率 ()变动的回归方程为:()变动的回归方程为: y c = 56 + 8 x ,这意味着这意味着( )A A、废品率每增加废品率每增加1 1,成本每吨增加,成本每吨增加6464元元 B B、废品率每增加废品率每增加1 1,成本每吨增加,成本每吨增加8 8 C C、废品率每增加、废品率每增加1 1,成本每吨增加,成本每吨增加8 8元元 D D、如果、如果废品率增加废品率增加1 1,则每吨成本增加,则每吨成本增加5656元元 2022-4-121 1、相关分析中的负相关是指、相关分析中的负相关是指 ( )()( )()( )()( )()( ) A A、自变量数值增加,因变量数值也增加自变量数值增加,因变量数值也增加 B B、自变量数值增加,因变量数值相应减少自变量数值增加,因变量数值相应减少 C C、自变量数值减少,因变量数值也减少、自变量数值减少,因变量数值也减少 D D、自变量数值减少,因变量数值相应增加自变量数值减少,因变量数值相应增加 E E、自变量数值增加,因变量数值不变、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论