统计学原理课件:第八章 相关回归分析_第1页
统计学原理课件:第八章 相关回归分析_第2页
统计学原理课件:第八章 相关回归分析_第3页
统计学原理课件:第八章 相关回归分析_第4页
统计学原理课件:第八章 相关回归分析_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第一节第一节 相关分析的基本问题相关分析的基本问题第二节第二节 相关关系的测度相关关系的测度第三节第三节 回归分析回归分析第四节第四节 回归方程的建立回归方程的建立第五节第五节 估计标准误差估计标准误差了解相关关系的概念及种类;掌握相关分析的原理、几种常用相关系数的测定方法及相关系数取值含义;掌握回归分析的原理、方法及应用,重点掌握简单线性回归方程的拟合及应用,明确直线回归方程中待定参数的含义。 具体要求具体要求第一节第一节相关分析的基本问题相关分析的基本问题 一、一、相关关系与函数关系相关关系与函数关系 二、二、相关关系的种类相关关系的种类 三、三、相关分析的主要内容相关分析的主要内容 一、

2、1. 1. 函数关系函数关系现象之间存在的确定性的数量依存关系现象之间存在的确定性的数量依存关系 )(xfy 圆的面积圆的面积S与半径与半径r之间的数量关系之间的数量关系 GDP与总产出及中与总产出及中间投入之间的关系间投入之间的关系 例:例:2.2.相关关系相关关系 也称统计相关,是指现象之间存在的也称统计相关,是指现象之间存在的非确定性非确定性的数量依存关系的数量依存关系 非一一对应非一一对应商品价格与商品需商品价格与商品需求量之间存在的变求量之间存在的变动关系动关系 例:例:施肥量与农作物产施肥量与农作物产量的关系量的关系 )(xfy2.2.函数关系与函数关系与相关关系的联系与区别相关关

3、系的联系与区别 联联系系区区别别函数关系有时也可能表现为相关关系相关关系通常要利用相应的函数关系式来表现 确定性依存关系与非确定依存关系确定性依存关系与非确定依存关系 二、1.1.确定变量之间有无相关关系及其表确定变量之间有无相关关系及其表现形式现形式 三、2.确定相关关系的密切程度确定相关关系的密切程度3.检验现象统计相关的显著性检验现象统计相关的显著性 4.广义上讲,相关分析还包括拟合回归广义上讲,相关分析还包括拟合回归方程方程 第二节第二节相关关系的测度相关关系的测度 一、一、相关关系的一般测度相关关系的一般测度 二、二、相关系数的测定相关系数的测定 三、三、等级相关系数的测定等级相关系

4、数的测定 一、 (1)简单相关表)简单相关表 年份 销售额(万元) 流通费用(万元) 1998 1999 2000 2001 2002 2003 2004 2005 2006 10 16 32 40 74 120 197 246 345 1.8 3.1 5.2 7.7 10.4 13.3 18.8 21.2 28.3 销售额与流销售额与流通费用相关通费用相关表表 销售额4003002001000流通费用3020100散点图散点图 (2)分组相关表)分组相关表适用场合:原始资料较多适用场合:原始资料较多种类:种类:单变量分组表单变量分组表只对自变量进只对自变量进行分组,因变量不分组行分组,因变量

5、不分组 双变量分组表双变量分组表将自变量和因将自变量和因变量都进行分组变量都进行分组 家庭月收入(元) 家庭户数(户) 家庭月平均支出(元) 8000 以上 70008000 60007000 50006000 40005000 30004000 20003000 10002000 1000 以下 3 3 6 9 8 34 20 11 6 3025 2820 2652 2486 2255 1960 1536 976 662 某市家庭收入与消费支出相关表某市家庭收入与消费支出相关表 家庭月收入1 0 0 0 08 0 0 06 0 0 04 0 0 02 0 0 00家 庭 月 支 出4 0 0

6、 03 0 0 02 0 0 01 0 0 00散点图散点图 单变量分组单变量分组家庭月支出(元) 家庭月收入(元) 500 以下 500 1000 1000 1500 1500 2000 2000 2500 2500 3000 3000以上 合计 8000 以上 70008000 60007000 50006000 40005000 30004000 20003000 10002000 1000 以下 2 3 1 4 5 3 1 6 9 4 2 1 14 7 1 3 5 5 13 2 1 2 2 1 1 1 1 3 3 6 9 8 34 20 11 6 合 计 5 13 20 24 27 8

7、 3 100 家庭收入与消费支出相关表家庭收入与消费支出相关表 双变量分组双变量分组 二、相相关系数是在关系数是在直线相关直线相关条件下,表明两个现条件下,表明两个现象之间相关关系的方向和密切程度的综合性象之间相关关系的方向和密切程度的综合性指标。一般用符号指标。一般用符号r r表示。表示。类型类型直线相关系数直线相关系数 等级相关系数等级相关系数 1.1.直线相关系数的计算直线相关系数的计算(1)积差法)积差法yxxyr2r直线相关系数; x变量数列 x的标准差; y变量数列 y的标准差; xy2变量数列 x与 y的协方差。 nxxx2)(nyyxxxy)(nyyy2)(22yyxxyyxx

8、r序列 x y )(xx 2)(xx )(yy 2)(yy )(yyxx 1 2 3 4 5 6 7 8 9 10 16 32 40 74 120 197 246 345 1.8 3.1 5.2 7.7 10.4 13.3 18.8 21.2 28.3 -110 -104 -88 -80 -46 0 77 126 225 12100 10816 7744 6400 2116 0 5929 15876 50625 -10.4 -9.1 -7 -4.5 -1.8 1.1 6.6 9 16.1 108.16 82.81 49 20.25 3.24 1.21 43.56 81 259.21 1144

9、946.4 616 360 82.8 0 508.2 1134 3622.5 合计 1080 109.8 0 111606 0 648.44 8413.9 万元)(12091080nxx万元)(2 .1298 .109nyy9891. 044.6481116069 .841322yyxxyyxxr例例销售额销售额流通费用流通费用(2)简捷计算法)简捷计算法22222222nxyxyrnxxnyyxyx yxxyy 当平均数有很多小数位或除不尽当平均数有很多小数位或除不尽时时 ,比较方便。,比较方便。序列 x y 2x 2y xy 1 2 3 4 5 6 7 8 9 10 16 32 40 74

10、 120 197 246 345 1.8 3.1 5.2 7.7 10.4 13.3 18.8 21.2 28.3 100 256 1024 1600 5476 14400 38809 60516 119025 3.24 9.61 27.04 59.29 108.16 176.89 353.44 449.44 800.89 18 49.6 166.4 308 769.6 1596 3703.6 5215.2 9763.5 合计 1080 109.8 241206 1988 21589.9 2222()()nxyxyrnxxnyy228 .10919889108024120698 .109108

11、09 .2158999891. 039.765631 .75725(3)分组资料的简捷计算法公式)分组资料的简捷计算法公式fyyfxxfyyxxr22yxxyfyyfxxfyyxxr22xfx组的次数; yfy组的次数; xyfx与 y交叉组的次数。 单变量分组单变量分组双变量分组双变量分组(4)直线相关系数直线相关系数r的统计检验的统计检验 01:0:0HH 在0H成立情况之下,有以下t 统计量: ) 2(122ntrnrt 在给定显著性水平之下,当/2(2)ttn,即表示总体线性相关系数显著 不等于零,即线性相关关系(在一定程度上)是存在的。 (5)直线相关系数直线相关系数r的取值含义的取

12、值含义 三、等级2.2261(1)DRn n 例:某公司例:某公司6位员工的学历及其年终能力考核结论如位员工的学历及其年终能力考核结论如表表7-6所示,求学历与能力的相关系数。所示,求学历与能力的相关系数。 员工序号 学历 等级 x 能力考核 等级 y D=x-y D2 1 2 3 4 5 6 硕士 本科 本科 本科 专科 专科 1 3 3 3 5.5 5.5 良好 良好 优秀 一般 一般 较差 2.5 2.5 1 4.5 4.5 6 -1.5 0.5 2 -1.5 1 -0.5 2.25 0.25 4 2.25 1 0.25 合 计 21 21 0 10 7143. 035610611612

13、2nnDrs3. 141nnirkn样本容量样本容量 , i换位总次数换位总次数 38. 0110101441kr上图的例子,有上图的例子,有 相关分析只能说明两个变量之间的相互相关分析只能说明两个变量之间的相互依存关系,并不一定代表因果关系。在计算依存关系,并不一定代表因果关系。在计算相关系数之前,一般要先做定性分析,否则相关系数之前,一般要先做定性分析,否则就有可能因为数据的偶然巧合,得到较高的就有可能因为数据的偶然巧合,得到较高的相关系数,从而把虚假相关视为可信的相关。相关系数,从而把虚假相关视为可信的相关。 说说 明明请您举例!请您举例!第三节第三节回归分析回归分析 一、回归分析的意义

14、一、回归分析的意义 二、二、回归分析与相关分析的区别与联系回归分析与相关分析的区别与联系 三、回归分析的主要内容三、回归分析的主要内容 四、回归模型的种类四、回归模型的种类 一、回归分析的意义相关分析的不足:只能相关分析的不足:只能分析现象之间相关关系的分析现象之间相关关系的方向和相关的密切程度,但不能判断现象之间具方向和相关的密切程度,但不能判断现象之间具体的数量变动依存关系,也不能根据相关系数来体的数量变动依存关系,也不能根据相关系数来估计或预测因变量估计或预测因变量y可能发生的数值。可能发生的数值。 回归分析:就是对具有相关关系的两个或两个回归分析:就是对具有相关关系的两个或两个以上变量

15、之间数量变化的一般关系进行测定,以上变量之间数量变化的一般关系进行测定,确定因变量和自变量之间数量变动关系的数学确定因变量和自变量之间数量变动关系的数学表达式,以便对因变量进行估计或预测的统计表达式,以便对因变量进行估计或预测的统计分析方法。分析方法。 关系:相关分析的主要任务是研究变量间相关系:相关分析的主要任务是研究变量间相关关系的表现形式和密切程度,而回归分析关关系的表现形式和密切程度,而回归分析是在相关分析的基础上,进一步研究现象之是在相关分析的基础上,进一步研究现象之间的数量变化规律。间的数量变化规律。 123( ,)pyf x xxx变量变量x xi i与随机变量与随机变量y y的

16、回归模型一般表示为的回归模型一般表示为 “因变量因变量”或或“被被解释变量解释变量”(dependent variable)“解释变量解释变量”或或“自变量自变量”(independent variables)随机变量随机变量您知道您知道“回归回归”这个词的本来含义这个词的本来含义吗吗?19世纪末,英国著名统计学家世纪末,英国著名统计学家Francis Galton研究孩研究孩子及他们父母的身高时发现,身材高的父母,他们子及他们父母的身高时发现,身材高的父母,他们的孩子也高,但这些孩子平均起来并不像他们的父的孩子也高,但这些孩子平均起来并不像他们的父母那样高;对于比较矮的父母,他们的孩子比较矮

17、,母那样高;对于比较矮的父母,他们的孩子比较矮,但这些孩子的平均身高要比他们的父母的平均身高但这些孩子的平均身高要比他们的父母的平均身高高。高。Galton把这种孩子的身高向中间值靠近的趋势称把这种孩子的身高向中间值靠近的趋势称之为一种回归效应。回归这个术语便开始传播开来。之为一种回归效应。回归这个术语便开始传播开来。现在的回归分析已经没有原来的含义,但这种说法现在的回归分析已经没有原来的含义,但这种说法一直沿袭下来,重在表明这是研究数值变量之间关一直沿袭下来,重在表明这是研究数值变量之间关系的方法。系的方法。“回归回归”的本来含义的本来含义二、回归分析与相关分析的关系二、回归分析与相关分析的

18、关系 联系联系 :二者都是对客观事物数量:二者都是对客观事物数量依存关系的分析依存关系的分析。一方面,相关分析是回归分析的一方面,相关分析是回归分析的基础和前提基础和前提。另一。另一方面,回归分析是相关分析的方面,回归分析是相关分析的深入和继续深入和继续。 区别区别 : 1 1)回归分析中变量之间的关系是不对等的)回归分析中变量之间的关系是不对等的 2 2)在两个变量互为因果的情况下,可以配合两个)在两个变量互为因果的情况下,可以配合两个回归方程回归方程 3 3)在回归分析中,确定回归方程时只要求因变量)在回归分析中,确定回归方程时只要求因变量是随机变量,而自变量为给定的值;是随机变量,而自变

19、量为给定的值; 三、回归分析的主要内容1.1.根据研究目的和现象之间的内在联系,确根据研究目的和现象之间的内在联系,确 定自变量和因变量;定自变量和因变量;2.2.确定回归分析模型的类型及数学表达式;确定回归分析模型的类型及数学表达式; 3.3.对回归分析模型进行评价与诊断;对回归分析模型进行评价与诊断; 4.4.根据给定的自变量数值确定因变量的数值。根据给定的自变量数值确定因变量的数值。 四、回归分析模型的种类线性回归线性回归非线性回归非线性回归一元回归一元回归线性回归线性回归非线性回归非线性回归多元回归多元回归回归模型回归模型第四节第四节回归方程的建立回归方程的建立 一、简单线性回归方程的

20、建立一、简单线性回归方程的建立 二、二元线性二、二元线性回归方程的建立回归方程的建立 三、非线性回归模型三、非线性回归模型 一、简单线性回归分析(一)简单线性回归模型(一)简单线性回归模型 理论模型理论模型yxbxayc估计模型估计模型回归参数回归参数回归参数的估计值回归参数的估计值 两点说明:两点说明:1. a是直线的截距,是直线的截距,b是直线是直线的斜率的斜率 ;2.因变量因变量y的估计值的估计值记为记为yc误差项误差项 (二)参数估计销售额销售额流通费用流通费用wwwwwwwwwwThe question is:Which straight line fits best?思路:思路:离

21、差的平方和最小离差的平方和最小最小二乘法最小二乘法2)(mincyyQ2)(minbxayQ0)(20) 1)(2xbxaybQbxayaQ2xbxaxyxbnay 22)(xxnyxxynbxbyabxayc设估计模型为设估计模型为bxayc斜率斜率b的含义为:自变量的含义为:自变量x每增加(或减每增加(或减少)一个单位,因变量少)一个单位,因变量y将将增加(或增加(或减少)减少)b个单位。个单位。 例:某企业对车例:某企业对车间间9名学徒工进名学徒工进行调查,得到学行调查,得到学徒期限与每天产徒期限与每天产量情况如右表所量情况如右表所示,要求建立以示,要求建立以日产量为因变量日产量为因变量

22、的回归方程。的回归方程。 编号 学徒期(年)x 日产量(件)y xy 2x cy 2)(cyy 1 0.5 50 25 0.25 44.58 29.3764 2 1 80 80 1 88.33 69.3889 3 1 100 100 1 88.33 136.1889 4 1.5 130 195 2.25 132.08 4.3264 5 2 150 300 4 175.84 667.7056 6 2 170 340 4 175.84 34.1056 7 2 180 360 4 175.84 17.3056 8 2.5 220 550 6.25 219.58 0.1764 9 2.5 240 60

23、0 6.25 219.58 416.9764 合计 15 1320 2550 29 1320 1375.55 22 xxnyxxynb83. 09155 .8791320 xbya5 .8736315015299132015255092所以回归方程为所以回归方程为yc=0.83+87.5x斜率斜率b的其他公式的其他公式 22)(xxnyxxynb2222xxyxxyxxyxyrb回归系数回归系数b和相关系数和相关系数r是有联系的是有联系的 二、多元线性回归模型二、多元线性回归模型 多元线性回归的一般方程式为:多元线性回归的一般方程式为: nncxbxbxbxbay332211同样根据最小二乘法

24、原理,可得:同样根据最小二乘法原理,可得: 222112222211221212211112211nnnnnnnnnnnnxbxxbxxbxayxxxbxbxxbxayxxxbxxbxbxayxxbxbxbnay一般都要用统计软件来计算参数一般都要用统计软件来计算参数 三、非线性回归模型三、非线性回归模型 对于非线性回归,通常采用变量代换法将非线性对于非线性回归,通常采用变量代换法将非线性模型线性化,从而将曲线回归问题转化为线性回模型线性化,从而将曲线回归问题转化为线性回归问题,再按照线性模型的方法来处理。归问题,再按照线性模型的方法来处理。 1 1、指数曲线模型、指数曲线模型 bxayaby

25、cxclnlnln2、对数曲线模型、对数曲线模型 即可令xxxbaycln,ln3、双曲线模型、双曲线模型 即可令xxyyxbayccc1,1,114、幂函数曲线模型、幂函数曲线模型 xbayaxycbclglglg5、抛物线模型、抛物线模型 即可令2212,xxxxcxbxayc第五节第五节 估计标准误差估计标准误差1.变差的产生变差的产生在直线回归中,因变量在直线回归中,因变量y的大小取值是不的大小取值是不同的,它围绕平均值上下波动。同的,它围绕平均值上下波动。y 取值的取值的这种波动称为这种波动称为变差变差。变差来源于两个方面。变差来源于两个方面:一是由于自变量一是由于自变量 x 的取值

26、不同造成的;二的取值不同造成的;二是除是除 x 以外的其他因素以外的其他因素(如如x对对y的非线性的非线性影响、测量误差等影响、测量误差等)的影响造成的。的影响造成的。 一、回归方程判定系数 yyyyyycc两边平方得两边平方得 2222yyyyyyyyyycccc两边求和并两边求和并化简得化简得222yyyyyycc反映由于反映由于 x 与与 y 之间的线性关系引起的之间的线性关系引起的 y 的取的取值变化,也称可解释的变差。值变化,也称可解释的变差。222ccyyyyyy2222)()(xxbxbabxayyc因为回归变差占总变差的比例,称为判定系数。回归变差占总变差的比例,称为判定系数。

27、 二、回归估计标准误二、回归估计标准误q在散点图上可以拟合一条与各观测点配合最佳在散点图上可以拟合一条与各观测点配合最佳的直线,但这些观测点所代表的若干对观测值,的直线,但这些观测点所代表的若干对观测值,只是从总体中抽取的一个样本。由观测值求出的只是从总体中抽取的一个样本。由观测值求出的回归直线称为样本回归直线,它只是总体回归直回归直线称为样本回归直线,它只是总体回归直线的一个估计线,因此在做回归分析时需要对拟线的一个估计线,因此在做回归分析时需要对拟合的回归方程的代表性进行衡量。合的回归方程的代表性进行衡量。 q估计误差的大小能反映估计值的准确性。但估计误差的大小能反映估计值的准确性。但实际值实际值y与估计值与估计值y yc c离差之和为离差之和为0, ,因为正离差与因为正离差与负离差抵消了。显然离差的平方和可以衡量准负离差抵消了。显然离差的平方和可以衡量准确性确性 2)(22nyyScyx n-2为自由度,这是因为按最小二乘法求解两个为自由度,这是因为按最小二乘法求解两个参数参数a和和b,受到两个正规方程的约束,失去了两,受到两个正规方程的约束,失去了两个自由度。个自由度。 离差平方和的平均数称为剩余方差,即离差平方和的平均数称为剩余方差,即对剩余方差开方即得对剩余方差开方即得回归估计标准误回归估计标准误,又称估,又称

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论