版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、(函数关系)(1)是一一对应的确定关系(2)设有两个变量 x 和 y ,变量 y 随变量 x 一起变化,并完全依赖于 x ,当变量 x 取某个数值时, y 依确定的关系取相应的值,则称 y 是 x 的函数,记为 y = f (x),其中 x 称为自变量,y 称为因变量(3)如是线性关系则各观测点落在一条线上 第1页/共77页现象之间客观存在的不严格、不确定的数量依存关系称为相关关系。2.相关 关系当一个或几个变量取一定的值时,另一个变量有不确定值与之相对应,这种不确定性的数量依存关系称为相关关系。第2页/共77页变量间的关系(相关关系)(1)变量间关系不能用函数关系精确表达;(2)一个变量的取
2、值不能由另一个变量唯一确定;(3)当变量 x 取某个值时,变量 y 的取值可能有几个;(4)如果是线性关系,各观测点分布在直线周围。第3页/共77页(相关关系) 相关关系的例子相关关系的例子商品的消费量商品的消费量(y)与居民收入与居民收入(x)之间的关系之间的关系商品销售额商品销售额(y)与广告费支出与广告费支出(x)之间的关系之间的关系粮食亩产量粮食亩产量(y)与施肥量与施肥量(x1) 、降雨量降雨量(x2) 、温度温度(x3)之间的关系之间的关系收入水平收入水平(y)与受教育程度与受教育程度(x)之间的关系之间的关系父亲身高父亲身高(y)与子女身高与子女身高(x)之间的关系之间的关系第4
3、页/共77页3、相关关系与函数关系的区别与联系 (1)函数关系是数学研究的范畴,相关关系是统计学研究的范畴。(2)相关分析需要利用函数关系数学表达式来研究,所以相关关系是相关分析的研究对象,函数关系是相关分析的工具第5页/共77页二、相关关系的种类学习成绩与学习时间;血压与年龄;亩产量与施肥量经济增长与人口增长、科技水平、自然资源、管理水平等之间的关系;第6页/共77页 三、相关分析的主要内容 相关分析是指对两个或两个以上现象之间数量上的不确定依存关系进行的统计分析。具体来说: 1、判断现象之间有无相关关系以及具体的表现形式; 2、确定相关关系的密切程度和方向 3、检验现象统计相关的显著性 4
4、、广义讲,相关分析包括回归分析。第7页/共77页定性分析定量分析第二节相关分析的方法一、一、相关关系的判断相关关系的判断第8页/共77页(一)相关表判断(一)相关表判断 1.1.简单相关表:未分组资料(对自变量数列有简单相关表:未分组资料(对自变量数列有序排列后观察相应的因变量数值的变化,以判断是序排列后观察相应的因变量数值的变化,以判断是否相关,方向如何?)否相关,方向如何?) 2.2.分组相关表:分组相关表: (1 1)单变量分组相关表(对自变量分组并计算次)单变量分组相关表(对自变量分组并计算次数,对应的因变量不分组,计算平均值,进行比较数,对应的因变量不分组,计算平均值,进行比较判断。
5、)判断。) (2 2)双变量分组相关表(对自变量因变量都进行)双变量分组相关表(对自变量因变量都进行分组后制成的相关表。注意:自变量放在纵栏,分组后制成的相关表。注意:自变量放在纵栏,因变量放在横栏。因变量放在横栏。第9页/共77页单变量分组相关表单变量分组相关表:自变量分组且计算次数,因变量只:自变量分组且计算次数,因变量只计算平均数。计算平均数。30 家同类企业的有关资料家同类企业的有关资料产量产量(件)(件)x x企业数企业数平均单位成本平均单位成本(元)(元)y y202030304040505080809 95 55 56 65 516.816.815.615.615.015.014
6、.814.814.214.2第10页/共77页2、双变量分组相关表:双变量分组相关表:对自变量与因变量均进行分组。对自变量与因变量均进行分组。注:自变量注:自变量X X轴;因变量轴;因变量Y Y轴。轴。 30 家同类企业的有关资料家同类企业的有关资料产量产量 x x(件)(件)单位成本单位成本 y y( (元元/ /件件) )20203030404050508080合合计计18181616151514144 44 41 13 32 21 13 31 11 13 32 21 14 44 49 910107 7合计合计9 95 55 56 65 53030第11页/共77页(二)利用散点图判断(s
7、catter diagram)第12页/共77页(三)通过计算相关系数进行判断(三)通过计算相关系数进行判断这是利用有关的两变量的具体数值,采用一定的这是利用有关的两变量的具体数值,采用一定的方法计算出能反映变量之间相互关系的统计数字方法计算出能反映变量之间相互关系的统计数字(相关系数),以说明变量之间相关的密切程度。(相关系数),以说明变量之间相关的密切程度。常用的有皮尔逊线性相关系数。常用的有皮尔逊线性相关系数。第13页/共77页(一)皮尔逊线性相关系数(一)皮尔逊线性相关系数r第14页/共77页第15页/共77页第16页/共77页2、直线单相关系数r的计算公式(过程) (1)计算自变量数
8、列的标准差 (2)计算因变量的标准差 (3)计算两者的协方差 协方差表示X和Y两变量相对与各自均值所造成的共同平均离差 (4)计算相关系数 nxxx2)(nyyy2)(nyyxxxy)(2ryxxyr2第17页/共77页3.相关系数的其他公式 (1)积差法公式: (2)积差法展开式: (3)简捷公式: ()()xyxxyyrn 2222()()nxyxyrnxxnyyyyxxxyLLLyyxxyyxxr22)()()(第18页/共77页22)()()(yyxxyyxxr yxnxyyyxxxyL1)(222)(1)(xnxxxxxL令222)(1)(ynyyyyyLyyLxxLxyLr 第19
9、页/共77页 的作用1、显示x与y之间的相关方向正相关XYyy xx )(一)(二)(三)(四),(11yx),(nnyx00)()()()()(2ryyxxyyxxxy正相关三一2xy第20页/共77页负相关XYyy xx )(一)(二)(三)(四),(11yx),(nnyx00)()()()()(2ryyxxyyxxxy负相关四二第21页/共77页2、显示x与y之间的相关程度。)()()()()(yyxxAyyxx图三一密集分布图A散乱分布图BXYPXY偏小偏大)()(yyxxyyxx第22页/共77页负相关)()()()()(yyxxAyyxx图四二密集分布图A散乱分布图BXYXY偏小偏
10、大)()(yyxxyyxx第23页/共77页不相关00)(0:2xyyyxxxxA图 图A图BXYXYxx yy 00)(0:2xyyyxxyyB图之间无直线相关与yx第24页/共77页归纳 的作用第一、显示x与y之间的相关方向负相关正相关无直线相关000000222rrrxyxyxy之间的相关程度越低与越小之间的相关程度越高与越大yxyx第二、显示x与y之间的相关密切程度nyyxxxy)(2nyyxxxy)(22xy第25页/共77页 x、 y的作用1、使不同变量的协方差标准化直接对比。yxnyyxx)(r第26页/共77页 试根据下列资料计算直线相关系数:5 .146xy6 .12x3 .
11、11y2 .1642x1 .1342y 第27页/共77页 2222222)()(nynynnxnxnnynxnxyn2222)()(yyxxyxxy第28页/共77页例如:某企业某种产品产量与单位成本的资料如下:计算直线相关系数产量(千件)单位成本(元/件)273372471373469568理论上可以先通过定性判断、理论上可以先通过定性判断、画散点图等确定两个变量间是画散点图等确定两个变量间是否有关系,在此基础上可以直否有关系,在此基础上可以直接用公式计算相关系数。公式接用公式计算相关系数。公式的选择可以根据实际的资料和的选择可以根据实际的资料和计算条件来确定。计算条件来确定。注意注意:在
12、计算相关系数时,无:在计算相关系数时,无需确定自变量和因变量,所以需确定自变量和因变量,所以x,y 的确定是任意的。的确定是任意的。第29页/共77页相关系数计算表产量x(千件)单位成本y(元/件)xyx2y2273146453293722169518447128416504137321995329469276164761568340254624合计 21355148179302682222()()nxyxyrnxxnyy第30页/共77页解225 .12959.1987109 .88323.87703105 .1299 .88318()(yyxxnyxxynr92.
13、 09 .323409.9575375.15846答:即账单消费额与小费之间存在着高度的正线性相关关系。10,18.13031,59.1987,23.87703, 8 . 5 .129, 9 .88322nxyyxyx餐餐饮饮消消费费额额与与小小费费数数据据如如下下:单单位位:美美元元 消消 费费 33.5 50.7 87.9 98.8 63.6 107.3 120.7 78.5 102.3 140.6 小小 费费 5 5. .5 5 5 5. .0 0 8 8. .1 1 1 17 7 1 12 2 1 16 6 1 18 8. .6 6 9 9. .4 4 1 15 5. .4 4 2 2
14、2 2. .4 4 第31页/共77页关于相关系数的解释1、相关系数为0,不一定不相关,只能说明不存在线性相关。2、基于平均数进行相关分析与基于个体数据进行相关分析,其相关程度不一样。如:一项研究中,关于个人收入和教育的成对数据产生了一个0.4的线性相关系数,但当使用区域平均时,线性相关系数变为0.7。3、相关系数具有对称性。yxxyrr第32页/共77页注意事项: (1)注意实际意义 进行相关回归分析要有实际意义,不可把毫无关系的两个事物或现象用来作相关回归分析。例如,有人说,孩子长,公园里的小树也在长。求孩子和小树之间的相关关系就毫无意义,用孩子的身高推测小树的高度则更加荒谬。 (2)注意
15、虚假相关 两个事物间能计算出相关系数,并不一定能证明事物间有内在联系,例如,有人发现,对于在校儿童,鞋的大小与阅读技能有很强的相关关系。然而,学会新词并不能使脚变大,而是涉及到第三个因素 年龄。当儿童长大一些,他们的阅读能力会提高而且由于长大也穿不下原来的鞋。第33页/共77页 (3)利用散点图 对于性质不明确的两组数据,可先做散点图,在图上看它们有无关系、关系的密切程度、是正相关还是负相关,是直线相关还是曲线相关,然后再进行相关分析。 (4)注意变量范围 相关分析和回归方程仅适用于产生样本的原始数据范围之内,出了这个范围,两变量的相关关系和回归关系不能就此得到说明。第34页/共77页 4 4
16、、相关系数的显著性检验、相关系数的显著性检验 一般情况下,总体相关系数是未知的,通常有样本相关一般情况下,总体相关系数是未知的,通常有样本相关系数系数r r作为近似的估计值。样本不同,作为近似的估计值。样本不同, r r的值不同,是的值不同,是随机变量,能否用随机变量,能否用r r说明总体的相关程度,就需要考察说明总体的相关程度,就需要考察样本样本r r的可靠程度,也就是进行显著性检验。的可靠程度,也就是进行显著性检验。 如如r r的抽样分布服从正态分布的假设成立,用正态分布的抽样分布服从正态分布的假设成立,用正态分布来检验。但对来检验。但对r r抽样分布的讨论可知,这种假设的风险抽样分布的讨
17、论可知,这种假设的风险很大,所以通常对很大,所以通常对r r用用t t分布检验,该检验可用于小样分布检验,该检验可用于小样本也可用大样本。本也可用大样本。 检验步骤检验步骤 (1 1) (2 2)计算检验的统计量计算检验的统计量 (3 3)进行判断)进行判断0:0:10HH)2(122ntrnrt第35页/共77页yxxynLxy2261362664785115151937928663342362610676141522)(xxnLxx222613950391522)(yynLyy81346481346428663341519379yyxxxyLLLr9950. 0第36页/共77页相关系数的
18、显著性检验(实例) 对相关系数进行显著性检(0.05)1.提出假设:H0: ;H1: 02.计算检验的统计量种食物需求量和地区人口增加量第37页/共77页1.等级相关的含义斯皮尔曼相关系数2.等级相关的优缺点第38页/共77页) 1(6122nnDrs第39页/共77页例:以下是两组消费者对十种商品的评分资料,据此计算两组资料间的等级相关系数编号甲组评分乙组评分183 878 6280 684 8.5385 984 8.5490 1080 7579 575 4.5672 373 2.5777 486 10868 170 1970 275 4.51081 773 2.5合计计算等级相关系计算等级
19、相关系数,首先应将原数,首先应将原数据转化为等级,数据转化为等级,本例中甲组最低本例中甲组最低分是分是68分,则可分,则可将它的等级数定将它的等级数定为为1,70分的等级分的等级数就是数就是2,72分的分的为为3,依次类推,依次类推,如果两个数值相如果两个数值相等,则值以平均等,则值以平均位置数代替。位置数代替。第40页/共77页等级相关系数计算表编号甲组评分乙组评分等级x 等级yD2183788 6 4280846 8.56.25385849 8.50.254908010 7 9579755 4.50.25672733 2.50.25777864 1036868701 10970752 4.
20、56.251081737 2.520.25合计82.25第41页/共77页5 . 0) 1(6122nnDrs第42页/共77页第三节回归分析的基本问题第三节回归分析的基本问题 “回归”一词最早源于生物学。英国生物学家高尔顿,根据1078对父子身高的散点图发现,虽然身材高的父母比身材矮的父母倾向有高的孩子。但平均而言,身材高大的其子要矮些,身材矮小的其子要高些。这种遗传上身高区域一般,退化到平均的现象,高尔顿称为回归。 一、回归分析的含义 (一)回归分析的目的:探求变量间的不确定性数量关系。 (二)回归分析的概念及实质 1.回归分析概念:是对具有相关关系的两个或两个以上变量之间的数量变化进行测
21、定,配合一定的模型,以便给出自变量的值对因变量进行估计或预测的一种统计分析方法。 2.回归分析的实质:是在相关分析的基础上,研究现象间的数量变化规律 。第43页/共77页二、回归分析与相关分析的区别(1)相关分析中,变量 x 变量 y 处于平等的地位,毋需确定自变量、因变量,而回归分析必须区别。变量之间有前后因果关系时,确定较为容易;变量之间互为因果关系或没有明显因果关系时,根据研究目的确定。(2)相关分析中所涉及的变量 x 和 y 都是随机变量;回归分析中,因变量 y 是随机变量,自变量 x 则是给定的。(3)相关分析主要是描述变量之间有无关系?密切程度如何?回归分析则进一步揭示变量 x 对
22、变量 y 的影响大小,并可以由回归方程进行预测或估计,具有较强的应用性(4)在没有明显因果关系的两个变量 x 和 y 中可求得两个回归方程,也就是回归方程不具有对等性。而相关系数却只有一个,也就是相关系数具有对等性。(5)在线性回归方程中,自变量的系数称为回归系数,它与相关系数同号,也能表明相关的方向。第44页/共77页三、回归分析的内容三、回归分析的内容 (一)根据研究目的和变量间的内在联系,确定自变量和因变量(一)根据研究目的和变量间的内在联系,确定自变量和因变量 例例 粮食产量(粮食产量(y y) 施肥量(施肥量(x x););消费支出(消费支出( y y ) 国民收入(国民收入( x
23、x ););火灾损失额(火灾损失额( y y ) 火灾发生地与最近一个消防站之间的距离火灾发生地与最近一个消防站之间的距离( x x )。)。 (二)确定回归分析模型的类型及数学表达式(二)确定回归分析模型的类型及数学表达式 (三)建立模型(解参数)(三)建立模型(解参数) (四)对回归分析模型进行评价(四)对回归分析模型进行评价 (五)预测(五)预测 例例 消费与收入的回归方程:消费与收入的回归方程: y= a+bx= 200+0.15xy= a+bx= 200+0.15x 已知已知 x x确定确定y y:估计或预测:估计或预测 第45页/共77页四、回归模型的种类线线 性性 回回 归归非非
24、 线线 性性 回回 归归一一 元元 回回 归归线线 性性 回回 归归非非 线线 性性 回回 归归多多 元元 回回 归归回回 归归 模模 型型第46页/共77页 (一)简单回归与多元回归:根据变量个数划分(一)简单回归与多元回归:根据变量个数划分 1.1.简单回归分析模型是指只有一个自变量和一个因简单回归分析模型是指只有一个自变量和一个因变量的回归分析模型;变量的回归分析模型; 2.2.多元回归分析模型是指多个自变量与一个因变量多元回归分析模型是指多个自变量与一个因变量组成的回归分析模型。(增加了自变量的个数)组成的回归分析模型。(增加了自变量的个数) (二)线性回归与非线性回归:按变量间相互关
25、系的形(二)线性回归与非线性回归:按变量间相互关系的形态分态分 1.1.线性回归模型是指变量间的关系为直线趋势的模线性回归模型是指变量间的关系为直线趋势的模型形态;型形态; 2.2.非线性回归模型是指变量间的关系为曲线趋势的非线性回归模型是指变量间的关系为曲线趋势的模型形态模型形态 上述四种情况交叉结合为简单线性回归和简单非线上述四种情况交叉结合为简单线性回归和简单非线性回归,多元线性回归和多元非线性回归等不同类型性回归,多元线性回归和多元非线性回归等不同类型第47页/共77页五、一元(简单)线性回归模型(一(一) )描述因变量描述因变量 Y Y如何依赖于自变量如何依赖于自变量 X X 和误差
26、项和误差项 的方程称为的方程称为回归模型回归模型(二)一元线性回归模型可表示为(二)一元线性回归模型可表示为 Y Y= + = + X X + + Y Y是是 X X 的线性函数部分加上误差项的线性函数部分加上误差项 线性部分反映了由于线性部分反映了由于 X X 的变化而引起的的变化而引起的 Y Y 的变的变化化误差项误差项 是随机变量是随机变量, ,反映了除反映了除 X X和和 Y Y之间的之间的线性关系之外的随机因素对线性关系之外的随机因素对Y Y的影响,是不能的影响,是不能由由 X X 和和 Y Y之间的线性关系所解释的变异性。之间的线性关系所解释的变异性。由于由于 的值是非固定的,从而
27、使的值是非固定的,从而使X X和和 Y Y呈现非确定呈现非确定性关系性关系 和和 称为模型的参数称为模型的参数误差项误差项 是一个服从正态分布的随机变量是一个服从正态分布的随机变量, ,且独立且独立. .即即 _ _N(0, )N(0, )。2第48页/共77页回归估计方程 bxaybxayc1. 在回归模型中,在回归模型中,X是自变量,是可控的,是自变量,是可控的,Y是随机变量是随机变量对上述的一元线性回归模型两端取数学期望,即得一对上述的一元线性回归模型两端取数学期望,即得一元线性回归方程:元线性回归方程:E(Y)= + + X这一模型表明这一模型表明Y的期望值是的期望值是X的线性函数。的
28、线性函数。其中:其中: 和和 是待定系数,是待定系数, 是回归系数,它表示自变量是回归系数,它表示自变量 x 每变动每变动一个单位时,一个单位时, 因变量因变量Y的平均变动值的平均变动值。 由于总体回归参数由于总体回归参数 和和 是未知的,必需利用样本数据去估是未知的,必需利用样本数据去估计。得一元线性回归估计方程计。得一元线性回归估计方程第49页/共77页(六)方程的参数的估计方法-最小二乘法 要使所拟合的直线最理想,必须使实际值与估计值的偏差最小,因此需数学的方法,即利用“离差平方和最小”原理,拟合出最佳直线。 最小二乘法最小二乘法:通过使Y的实际值与Y的预测值之间垂直离差的平方和达到最小
29、所确定的回归方程。第50页/共77页根据上述的论述,最小平方法满足的条件是: 和把回归方程 代入对a、b参数求导得: 2)(mincyyQ0)(cyy0) 1( )(2bxay0)(2xbxay2)(mincyyQbxayc第51页/共77页整理得两个方程 求得 xbnay2xbxaxy xbyaxxnyxxynb22)(b回归系数,反映自变量X每变动(增加或减少)一个单位所引起因变量 平均变动b个单位的量。第52页/共77页在计算相关系数时,我们曾列出了一个企业的产量和单位成在计算相关系数时,我们曾列出了一个企业的产量和单位成本的两组数据,通过计算,我们得出了这两个变量呈现高度本的两组数据,
30、通过计算,我们得出了这两个变量呈现高度负相关的结论。那么进一步研究,来看看它们之间到底呈现负相关的结论。那么进一步研究,来看看它们之间到底呈现怎样的数量关系呢?产量的变动对成本的具体影响又是如何怎样的数量关系呢?产量的变动对成本的具体影响又是如何呢?我们可以用最小二乘法来求解参数,作出判断和预测。呢?我们可以用最小二乘法来求解参数,作出判断和预测。第53页/共77页例3 回归分析计算表产量x(千件)单位成本y(元/件)xyx2273146437221694712841637321994692761656834025合计 21426148179由于是进行回归分析,所由于是进行回归分析,所以必须确
31、定自变量和因变以必须确定自变量和因变量,在无明显因果关系时,量,在无明显因果关系时,理论上可以拟合两条回归理论上可以拟合两条回归方程,视要求选择。而如方程,视要求选择。而如果变量间有明显因果关系果变量间有明显因果关系时,必须将时,必须将“因因”作为自作为自变量,变量,“果果”作为因变量。作为因变量。本例中我们研究产量变动本例中我们研究产量变动对成本的影响,故以产量对成本的影响,故以产量为为 x,成本为成本为y。第54页/共77页2226 1481 21 4261.82()6 7921426211.8277.3766nxyxybnxxaybx 解得:解得:则成本依产量回归的方程为则成本依产量回归
32、的方程为: yc=77.37-1.82x回归系数回归系数b=-1.82说明当产量每增加说明当产量每增加1千件时,单位成本平均下降千件时,单位成本平均下降1.82元。两者呈负相关。元。两者呈负相关。同时,用回归方程还可以进行预测,例:当产量达到同时,用回归方程还可以进行预测,例:当产量达到10千件时,千件时,单位成本单位成本yc=77.37-1.82 10 =66.55元。元。第55页/共77页例为研究用餐消费与小费支出的关系,随机抽取了10位用餐顾客,得样本数据如下(用EXCEL软件生成的散点图)请拟合样本回归方程请拟合样本回归方程5.55129.48.1171615.418.622.5051
33、015202533.550.763.678.587.998.8107102121141系列1第56页/共77页解:通过散点图可近似看出呈线性关系,故设两者有关系bxay18.13031,59.198723.87703, 5 .129, 9 .883,1022xyyxyxn166. 009.9575375.158469 .88323.87703105 .1299 .88318.1303110)(222xxnyxxynb723. 139.88166. 095.12nxbnyxbyaxbxay166. 0723. 1: 回归方程经济意义:用餐消费每增加经济意义:用餐消费每增加100100美元,小费支
34、出平均增加美元,小费支出平均增加16.616.6美元。美元。餐餐饮饮消消费费额额与与小小费费数数据据如如下下:单单位位:美美元元 消消 费费 33.5 50.7 87.9 98.8 63.6 107.3 120.7 78.5 102.3 140.6 小小 费费 5 5. .5 5 5 5. .0 0 8 8. .1 1 1 17 7 1 12 2 1 16 6 1 18 8. .6 6 9 9. .4 4 1 15 5. .4 4 2 22 2. .4 4 第57页/共77页六、回归系数与相关系数的关系 yxyyxxyyxxxxxxxyyyxxxybLLbLLLLLLLLyynxxnyxxyn
35、r 2222)()(第58页/共77页xxxyLLxxnyxxynb 22)(yxbr rbxy(1)两者是同向的;(2)r反映变量的相关方向与密切程度; b反映自变量变动一个单位时因变量的平均变动b个单位。第59页/共77页 1.已知变量y依x的直线回归方程的斜率为b,又知变量y和x之间的相关系数是r,那么x变量依y变量的直线回归方程斜率是多少? 2.已知直线回归方程yc =1.35+4.2x, =6, r=0.9 试求y72x2xyx和第60页/共77页八、判断回归方程拟合程度的指标1.说明回归直线的拟合程度的指标。是对回归直线的代表性大小的衡量。2.实际观察值与回归估计值离差平方和的均方
36、根。3.反映实际观察值在回归直线周围的分散状况。 如果所有的点都落在直线上说明观测值与预测值之间没有差异,所以估计不存在误差,显然这种精确估计是不可能的 ,所以需要一个指标来反映根据X得到的Y预测值的精确程度,即估计标准误差,用于度量相对于回归直线的离散程度4. 计算公式为由样本资料计算由样本资料计算的平均误差与ccyxyynyyS2)(2拟合效果越好平均离差越小越小拟合效果越差平均离差越大越大yxS(一)回归估计标准误差(一)回归估计标准误差第61页/共77页编号编号 x千千人人 y十十吨吨 y 22.5905+0.530122.5905+0.5301x 2) (yy 1 1 274274
37、162162 167.8379167.8379 33.927233.9272 2 2 180180 120120 118.0085118.0085 3.81223.8122 3 3 375375 223223 221.378221.3780 0 2.48492.4849 4 4 205205 131131 131.261131.2610 0 0.06810.0681 5 5 8686 6767 68.179168.1791 1.23641.2364 6 6 265265 169169 163.067163.0670 0 35.046635.0466 7 7 9898 8181 74.54037
38、4.5403 41.496941.4969 8 8 330330 192192 197.5235197.5235 30.355130.3551 9 9 195195 116116 125.96125.960000 98.970798.9707 1010 5353 5555 50.685850.6858 18.458418.4584 1111 430430 252252 250.5335250.5335 1.99671.9967 1212 372372 234234 219.7877219.7877 201.8362201.8362 1313 236236 144144 147.6947147.
39、6947 13.492513.4925 1414 157157 103103 105.8162105.8162 7.77717.7771 1515 370370 212212 218.7275218.7275 45.105445.1054 合计合计 36263626 22612261 536.0644536.0644 )(4215. 62150644.53622) (十吨nyyyxS计算例子计算例子下表是有关下表是有关15个地区某种食物需求量和地区人口增加量的资料。个地区某种食物需求量和地区人口增加量的资料。第62页/共77页 .回归估计标准误的简化计算公式 (利用 可推导出上述公式) bxa
40、ycxbnay2xbxaxy22)(22nxybyaynyyScyx第63页/共77页(二)判定系数(二)判定系数(回归模型拟合程度的评价)(一)离差平方和(总变差)的分解(一)离差平方和(总变差)的分解1. 因变量 y 的取值是不同的,y 取值的这种波动称为总变差。变差来源于两个方面: 由于自变量 x 的取值不同造成的; 除 x 以外的其他随机因素的影响。2. 对一个具体的观测值来说,总变差的大小可以通过该实际观测值与其均值之差 来表示。判定系数是从另一角度说明回归直线拟合程度的又一度量值。判定系数是从另一角度说明回归直线拟合程度的又一度量值。它的引入是从离差平方和的分解入手的。它的引入是从
41、离差平方和的分解入手的。第64页/共77页y总变差构成图解:总变差构成图解:第65页/共77页从图中我们可将总变差分解从图中我们可将总变差分解2222)()()(xxbxbabxayyc、变差的分解、变差的分解 第66页/共77页(1 1)总平方和)总平方和( (SST)SST)反映因变量的反映因变量的 n n 个观察值与其均值的总离差个观察值与其均值的总离差(2 2)回归平方和)回归平方和( (SSRSSR) )反映由于反映由于 x x 与与 y y 之间的线性关系引起的之间的线性关系引起的 y y 的取的取值变化,也称可解释的平方和。说明自变量值变化,也称可解释的平方和。说明自变量 x x
42、 的变化对因变量的变化对因变量 y y 取值变化的影响。取值变化的影响。(3 3)残差平方和)残差平方和( (SSESSE) )反映除反映除 x x 以外的其他因素对以外的其他因素对 y y 取值的影响,也称取值的影响,也称为不可解释的平方和或剩余平方和。为不可解释的平方和或剩余平方和。第67页/共77页(二)判定系数(二)判定系数判定系数判定系数:回归变差占总变差的比重222)()()(yyyyyycc222222)()()()()()(yyyyyyyyyyyycc的比重占SSTSSRyyyyc22)()(2r判定系数222)()(1yyyyrc的拟合效果差对越大越小的拟合效果好对越小越大y
43、yyyryyyyrcccc2222)()(第68页/共77页222222222)()()()()(rryyxxbyyyyyxxyc2222)()()(xxbxbabxayycxbaybxayc在在直线相关中,判定系数就是相关系数的平方。直线相关中,判定系数就是相关系数的平方。直线相关中判定系数的作用呈函数关系与yxyyrc12无线性相关与yxyyrc 02呈线性相关关系与yxr102第69页/共77页由于222)()(1yyyyrc22)()(yyyyc此外,判定系数就测量变量之间的相关关系而言,具有独立的意义。它不仅适用此外,判定系数就测量变量之间的相关关系而言,具有独立的意义。它不仅适用线
44、性相关,也适用非线性相关。线性相关,也适用非线性相关。公式如下:公式如下:22)()(1yyyyrc2221yyxSr21 rSyyx第70页/共77页 例已知下列资料,试计算判定系数与估计标准误。收入收入 x x支出支出 y yx x2 2y y2 2xyxy20203030333340401515131326263838353543437 79 98 811115 54 48 810109 9101040040090090010891089160016002252251691696766761444144412251225184918494949818164641211212525161664641001008181100100140140270270264264440440757552522082083803803153
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 巡查组上下班考勤制度
- 幼儿园安全考勤制度
- 按摩店考勤制度
- 教育行政机关考勤制度
- 水利局岗位考勤制度
- 沈阳建行员工考勤制度
- 镇执法部门考勤制度
- 2026年度新疆生产建设兵团医院高层次人才引进20人备考题库参考答案详解
- 2025年梅河健康研究院招聘备考题库完整答案详解
- 中医护理低钾患者的技巧
- 2025官方版标准劳动合同【范本】
- DB41∕T 2454-2023 测量仪器检定校准证书有效性确认技术规范
- 村级残疾人专职委员工作总结
- 会计核算利润讲解
- 田野调查方法课件
- 神经重症患者的气道管理策略
- 2025年山东省中考物理试题含答案
- 工业数据采集技术
- 建设项目用地预审与选址意见书办事指南(2025版)
- 爆破工程技术培训课件
- 公共资产置换协议书
评论
0/150
提交评论