《统计学》教案第七章 相关关系分析法_第1页
《统计学》教案第七章 相关关系分析法_第2页
《统计学》教案第七章 相关关系分析法_第3页
《统计学》教案第七章 相关关系分析法_第4页
《统计学》教案第七章 相关关系分析法_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、PAGE PAGE 40第七章 相关关系分析法 (相关与回归)教学内容:1.相关关系的概念、种类、相关关系分析的主要内容2.简单线形相关分析方法3.简单直线回归方程的配合方法4.判定系数、估计标准误差的含义、计算及其应用5.曲线回归方程、多元线性回归方程的配合方法6.其它相关系数的含义、计算及应用场合教学重点: 1.简单线形相关分析方法2.简单直线回归方程的配合方法3.判定系数、估计标准误差的含义、计算及其应用教学难点:相关系数的计算、回归方程的配合、估计标准误差的计算及其应用.授课学时:7学时第一节 相关关系分析概述一、相关关系的的概念现实中,任何现象的存在都不是孤立的,它们是互相联系,彼此

2、制约的。例如在家庭收入和消费支出之间,施肥量与粮食收获量之间,广告费支出与商品销售额之间等等,无不存在着一定的关系。现象之间的相互关系归纳起来可以区分为两种不同的类型:一种是函数关系(确定性关系),另一种是相关关系(非确定性关系)。函数关系:指变量之间存在着严格的依存关系,在这种关系中,当自变量取定一个数值时,因变量会有一个完全确定的值和它对应。如图1-1所示。或对于某一变量的每一个数值,另一变量都会有唯一确定的值与之相对应,并且这种关系可用一个数学表达式反映出来。如圆的面积=圆周率半径2距离=速度时间(在匀速条件下)销售额=销售量销售价格(价格一定时)xy图1-1相关关系:指现象之间确实存在

3、的、但关系值不固定的相互依存关系。或现象之间客观存在的不确定的数量依存关系。即变量之间确实存在着一定的相互关系,在这种关系中,当一个现象发生数量变化时,另一现象也相应地发生数量变化,但其关系值是不固定的(不唯一的),一个变量取定一个值时,另一个变量会有若干数值与之相对应,这些数值之间表现出一定的波动性,但又总是围绕着它们的平均数而上下波动的。如图1-2所示。例如,粮食亩产量与施肥量之间存在一定的关系,但在同样的施肥量下,每亩粮食产量可能出现不同的数值,并不存在严格的依存关系。因为对每亩耕地的产量来说,它不仅和施肥量有关,而且还取决于种子的品质,密植程度,耕作深度,土地的贫瘠程度,降雨量等,这就

4、造成了在同样的施肥量下,其亩产量也并不完全相等。亩产量与施肥量的这种关系称为相关关系。又如,某种日用品的销售量与当地居民的人口数有一定的关系,人口愈多,销售量越大,但不能说两个地区的人口相等,销售量也就相等,这里很难给出一个确切的关系,日用品的销售量还和居民的收入水平、消费水平、消费习惯等有关。这种日用品的销售量与居民人口数之间的关系也属于相关关系。身高与体重之间的关系是非常密切的,但身高1.75米的人可以表现为许多不同的体重等。广告费投资与商品销售量之间有一定的关系,但是,在广告费投入相等的情况下,商品销售量不一定相等。y x图1-2在各种生产活动和经济过程中,许多经济的、技术的因素之间都存

5、在着这种相关关系。从程度上、数量上、种类上分析现象之间相关关系的理论和方法就称为相关关系分析法。二、相关关系的种类现象之间的相互关系是很复杂的。它们各以不同的方向,不同的程度相互作用着,并表现出不同的类型。(一)按相关的程度分为:完全相关、不完全相关和不相关完全相关:两种现象之间,其中一个现象的数量变化完全由另一个现象的数量变化所确定,则这两种现象之间的关系为完全相关。在这种情况下,相关关系即成为函数关系,也可以说函数关系是相关关系的一个特例。如圆面积=r2销售额=销售量价格(价格固定)不相关:若两种现象之间彼此互不影响,其数量变化各自独立,则为不相关。或:一种现象的数量变化完全不受另一现象数

6、量变化的影响,则称这两种现象为不相关。如原油储存量与生产工人的出勤率是无关的,棉纱纤维长度与工人人数多少是无关的等。不完全相关:若两种现象之间的关系介于完全相关和不相关之间,则称其为不完全相关。若现象之间的相关点分布远离函数关系,表明两变量之间的相关关系很小;若两个变量之间的分布很接近于函数关系,就说明两个变量之间的相关关系很密切。一般的相关现象都是指这种不完全相关,它是相关关系分析的研究对象。(二)、按变量之间相关关系的方向分(按相关的性质分)正相关负相关正相关:当一个变量x的值增加(或减少),另一个变量y的值也随之增加(或减少),二者是同方向变动的,这种相关关系成为正相关。或:两个相关现象

7、之间,当一种现象的数量由小(大)变大(小),另一个现象的数量也相应地由小(大)变大(小) ,则称其为正相关。例如,家庭的消费支出随着收入的增加而增加;随着技术水平的提高,产品合格率也不断提高;收入水平(y)与受教育程度(x)之间的关系;商品的消费量(y)与居民收入(x)之间的关系等。负相关:当一个变量x的值增加(减少)时,另一个变量y的值随之减少(增加),二者是反方向变动的,这种相关关系成为负相关。或当一种现象的数量由小(大)变大(小),而另一种现象的数量相反地由大(小)变小(大),则称其为负相关。例,商品流转的规模越大,单位流通费用越低;劳动生产率水平提高,单位产品成本随之下降;样本的单位数

8、越多,抽样误差愈小;物价越高与消费量越少等等。正相关、负相关若用散点图表示,分别如图1-3中的(1)、(2)。图1-3(三)按相关的形式分直线相关曲线相关直线相关:当一个变量发生增减变动时,另一变量随之发生大体均等的增减变动,在图形上这种变动关系近似地表现为一条直线(y增长量大致相同)。或一种现象的一个数值和另一种现象相应的数值,在平面坐标系中确定为一个点,称为散点(或相关点),若相关点大致分布在一条直线的周围,则为直线相关。如图1-3中的(1)、(2)曲线相关:当一个变量发生变动时,另一变量的值也随之发生变动,但这种变动是不均等的,在图形上,其观察点分布在各种不同的曲线周围。或现象相关点的分

9、布表现为各种不同的曲线形式,如图1-4中(3)、(4)。图1-4(四)按研究变量的多少分单相关(一元相关)复相关(多元相关)单相关:两个变量之间的相关关系为单相关。例如收入额与消费支出额之间的关系。复相关:三个或三个以上变量之间的相关关系称为复相关。如:同时研究商品的销售额、广告费支出、居民收入水平之间的关系;研究某种商品的需求量与价格水平及人们的收入水平之间的关系。实际工作中,若存在多个自变量对一个因变量的关系,可以抓住其中最主要的因素研究其相关关系。三、相关关系分析的主要内容(任务)相关关系分析的目的在于研究现象之间相互依存关系的形式及密切程度,并用一定的数学形式把这种关系反映出来,为统计

10、估算和预测提供重要的依据和方法 。具体包括:(一)确定经济现象之间是否存在相关关系及相关关系的种类。经济现象间有无相关关系是能否运用相关关系分析法的前提。确定经济现象之间有无相关关系的方法有两种:一是作定性判断,它是从经济现象之间的本质联系着手,根据有关的理论及实践经验进行分析研究来判断的;二是绘制相关图表。(二)确定经济现象之间相关关系的密切程度当经济现象之间存在相关关系时,就要测定它们之间关系的密切程度,为进一步分析研究问题提供依据。确定现象之间相关关系密切程度的方法是:绘制相关图和计算相关系数。相关图对相关关系的密切程度可以得出粗略的判断,而相关系数能从数量上对经济现象之间的相关程度做出

11、明确的反映。(三)建立经济现象之间数量变动关系的数学方程式(确定相关关系的数学表达式)为了测定现象之间数量变化上的一般关系,必须使用函数关系的数学公式作为相关关系的数学表达式,称为回归方程,用以说明自变量发生变动时,因变量平均来说会发生多大的变化。(四)确定因变量估计值误差的程度根据变量之间变动关系的数学方程式可以计算出各个因变量的估计值,这些估计值与实际值之间肯定有差异,差异小,表示推算结果的准确度高;差异大,准确度低。而准确度的高低又关系到回归方程的实用价值。所以相关分析还要测定因变量估计值和实际值之间差异的大小,用以反映因变量估计值的准确程度。这种用来反映因变量估计值准确程度的指标叫估计

12、标准误差。简单直线相关分析 简单直线相关分析内容是否存在相关关系相关关系的种类相关关系的密切程度在进行相关分析时,首先对现象之间是否存在依存关系进行定性分析;其次,利用相关图表粗略地反映相关变量之间依存关系的形式、方向;最后计算相关系数,准确反映相关变量之间关系的密切程度。一、相关表和相关图(一)相关表将相关的两个变量的对应数值按照一定的顺序或规格排列在一张表格上所形成的统计表。按照资料是否分组相关表分为简单相关表分组相关表1.简单相关表:指资料未经分组,只将一个变量的数值按照从小到大(或时间)顺序、并配合相应的另一个变量的变量值一一对应排列起来形成的表。其步骤是:第一、将某一变量的变量值按照

13、一定顺序排列第二、对应地平行列出另一变量的变量值例1,为了研究分析机床使用年限和年维修费用之间的关系,可从抽取的12台机床中取得12对数据,见表2-1。从表中可以直观地看出,尽管在同样的使用年限下,年维修费用也存在着差异。但总的来看,随着使用年限的增加,年维修费用也在不断地增加,两者之间呈现出正相关的关系。表2-1序 号机床使用年限(年)年维修费用(元)1240022540335204464054740656007580086700967601069001188401291080例2,某地职工工资总额与城镇储蓄存款余额的相关表,见表2-2 。从表中资料可以看出,随着该地职工工资总额的增加,城镇

14、储蓄存款余额也呈现出增加的趋势,这说明两个变量之间存在着正相关的关系。表2-2年 份职工工资总额(亿元)城镇储蓄存款余额(亿元)20024011.520034012.220044113.520054315.520064720.320075228.3合 计2.分组相关表:是根据分组资料绘制的相关表。当原始资料很多,简单相关表编制和使用起来很不方便时,这时往往对原始资料进行分组整理,编制成分组相关表。根据分组的情况不同,分组相关表分为单变量分组表和双变量分组表。(1)单变量分组表:在具有相关关系的两个变量中,只对一个变量(自变量)进行分组,并计算出每组的次数,对应的另一个变量(因变量)不分组,只计

15、算其平均值,这样制成的表为单变量分组相关表,见表2-3 。 单变量分组相关表可使资料简化,从而更清析地反映出两变量之间的相关关系。从表2-3中可以看出,机床使用年限和年维修费用之间存在着正相关的关系。表2-3使用年限(年)机床数(台)平均维修费用(元/年)224703152042690527006378781840911080合 计12(2)双变量分组相关表:指在具有相关关系的两个变量中,对两个变量同时进行分组所形成的统计表。即对自变量和因变量都进行分组所编制的分组相关表。这种表的形状类似棋盘,故又称为棋盘式相关表,其编制步骤为:分别确定两个变量分组的组数 设计棋盘式表格计算各组的次数并放到相

16、对应的方格之中。对于上例,若将机床使用年限分为7组,年维修费用也分为7组,可设计一个77的棋盘式方程表,将次数置入方格之中,便形成了双变量分组相关表。一般情况下,自变量的数值放在宾词栏(上端),且数值从左到右按由小到大的顺序排列;因变量放在表的主词栏(左端),且数值自上而下由大到小的顺序排列;最后计算各组相对应的次数,并设计两个合计栏,分别表明各个变量分组的次数分布情况。见表2-4。由表2-4可以看出,两个变量之间呈正相关的关系,即机床使用年限越长,年平均维修费用越多。表2-4年维修费用(元)机床使用年限(年)合计23456891000-110011900-100011800-90011270

17、0-800123600-700112500-600112400-50011合 计212231112(二)相关图相关图又叫散点图,它是在平面坐标系中(以横轴表示自变量x,纵轴表示因变量y),将相关表中两个变量对应值用相关点(散点、坐标点)形式描绘出来,通过观察相关点的分布情况,大致看出两个变量之间有无相关关系及相关的类型、密切程度。现将表2-1资料绘制成相关图如图2-1。从图中可以看出,机床使用年限和年维修费用之间存在着比较密切的相关关系,而且两者之间的变动趋势基本呈现直线型的。使用年限图2-1二、相关系数(一)相关系数的概念根据相关图和相关表可以初步判断经济现象之间有无相关关系,以及相关的趋势

18、和形态。但是,这种直观的判断是粗略的,为了准确反映现象之间相关关系的密切程度,需要计算相关系数。在各种相关关系中,单相关是最基本的相关关系,它是复相关的基础,单相关有线性相关和非线性相关两种。而简单线性相关系数是最基本的,它是计算其它相关系数的基础。这里所说的相关系数指简单线性相关系数。相关系数:是说明两种现象之间直线相关关系密切程度的统计分析指标。或:在线性相关条件下,用来说明两个变量之间相关关系密切程度的统计分析指标。(二)相关系数的一般公式及其剖析计算相关系数的方法很多,以英国统计学家皮尔逊(Karl Pearson)的积差法用得最为普遍,其它的如等级相关系数、点双列相关系数、相关系数、

19、偏相关系数等都是在这个相关系数的基础上推导出来的,用以不同的场合,说明不同的问题(后面分别介绍)。积差法相关系数:是通过两个变量与各自平均数的离差的乘积来反映两个变量之间相关关系的密切程度的。其基本公式如下: 式中,r为相关系数,为x变量数列的平均值,n为变量值的项数 为y变量数列的平均值,为x变量数列的标准差,为y变量数列的标准差, 为x与y的协方差,为变量x的标准差, 为变量y的标准差.相关系数公式的剖析:相关系数是由协方差组成的。1、协方差的作用显示x、y是正相关、负相关显示x与y之间线性相关关系的密切程度 协方差是两个变量离差乘积的平均数,用来度量x,y关系的一个重要指标,其作用在于:

20、示x与y是正相关还是负相关。在平面坐标系上以两个变量的平均值为原点将第一象限划为四个象限,由于其原点是平均数,所以各相关点的位置都改由它们的离差来决定。 其原坐标中第一对观测值的坐标点为(),而在新的坐标图中表示为,其余类推。 当相关点分布在新坐标系中的第一象限时,为正,为正,所以为正数;当相关点分在新坐标系中第二象限时,为负,为正,为负;当分布在第三象限时,为负,为负,则为正;当相关点分布在第四象限时,为正,为负,则为负。 由此看来,r的正负号完全取决于协方差的正负号:当 为负时,r为负,点大多分布在2、4象限;为正时,r为正 ,点大多布在1、3象限。协方差显示x与y相关程度的大小A、当相关

21、点在新坐标的四个象限散乱分布时,如图2-2,表示x与y线性相关程度很低,这时的正负项相互抵消,几乎等于0,绝对很小,从而r的绝对值也很小,表明相关程度很低。弱相关图2-2B、当相关点分布在线上,表示y与x值的变化无关;或相关点分布在线上,表示x与y值的变化无关,这时离差乘积都等于0,从而相关系数等于0,二者不相关。见图2-3.y y X x 图2-3. 无线性相关关系 C、当相关点的分布十分靠近于一直线上,如图2-4中所示,表示x与y线性相关关系越密切,这时很少或者没有正负项相抵消,则积差和的绝对值较大,从而相关系数的绝对值较大,表示x与y相关关系密切。正线性相关图2-42、标准差,的作用 消

22、除离差积乘中两个变量原有计量单位的影响使r局限在-1至1之间协方差已经可以显示两个变量之间相关关系的性质和密切程度,那么,为什么在相关系数中还要将协方差除以标准差呢?上式可变为,它意味着x,y与各自平均值的离差,分别以各自的标准差为尺度加以标准化,然后再求标准数量的协方差。经过离差标准化,再求其协方差,有两方面的作用:将名数转化为不名数不同现象其使用价值不同,计量单位不同,为了消除积差中两个变量原有计量单位的影响,将两个变量的离差除以变量数列的标准差(平均离差),使之成为相对积差,然后将它们的乘积加总除以项数,标准化结果将名数表示的协方差化为不名数,这样的相关系数可以比较不同现象之间相关程度的

23、高低。如土地面积和施肥量、粮食亩产和耕作深度,某地消费量与居民人数等,计量单位是不同的。将相关系数的值局限在-1到+1之间。不同的量,协方差的数值大小不同,不便于说明问题,将离差标准化的结果使r的绝对值不超过1,相关系数在-1与+1之间变动,这就便于比较和说明问题。证明: 同理: 2r+20 r-1同理:根据 可得 2r+20 r1 则 -1r+1当 时,x与y完全线性相关。 时,x与y无线性相关关系 越接近于1,表明x与y的相关程度越高。例如,现有两项资料,其协相关相等,但相关的程度却有很大的差异(举例说明协方差必须标准化),见表2-5、表2-6。资料2-5中, =3 , =2 协方差计算过

24、程见表2-5。表2-5xyx-3(x-3)2y-2(y-2)2(x-3)(y-2)11-24-11221.5-11-0.50.250.5320000042.5110.50.250.55324112151001000.255资料2-6 =3 =2 其协方差计算过程见表2-6。表2-6xYx-3(x-3)2y-2(y-2)2(x-3)(y-2)11.25-24-0.750.56251.521-111113200000431011152.75240.750.56251.515100100301255 两种资料虽然协方差都等于1,但是相关的程度是不同的,资料2-5所有相关点落在直线y=0.5+0.5x

25、上,具有完全线性相关的关系,即函数关系(增长量均等);而资料2-6的相关点只在直线y=0.5+0.5x周围波动;它们的相关关系并不那么密切,这是因为两项资料的变异情况不同(增长量不均等),所以不能用协方差来比较它们相关的密切程度(计量单位x与y也不等)。 若对协方差分别以它们的来除,求得相关系数就可以相互比较资料2-5: 资料2-6: 这表明资料2-5的相关程度比资料2-6的相关程度高,这个结论是符合实际情况的。(三)相关系数的简化式利用前面相关系数公式,计算相当繁琐,我们可以利用代数推演的方法得到相关系数的简化式。简化式的主要目的是直接利用原始数值或已有的计算指标来计算相关系数。演变过程如下

26、:由于 同理 则有 或 若资料分组时, 则公式转化为: 例如:某工厂机床使用年限和年维修费资料如表2-7。试计算相关系数。表2-7合计机床使用年限(x)年维修费(元)X2Y2xy124004160000800225404291600108033520927040015604464016409600256054740165476002960656002536000030007580025640000400086700366900004200967603657760045601069003681000054001188406470560067201291080811166409720合计60852

27、035.2642880046560解:根据资料 n=12,由简化公式计算相关系数需要计算x2,y2,xy见表2-7。 =0.8913 表明机床使用年限和年维修费用之间存在着高度的正线性相关关系。判断相关关系密切程度的标准为:0.3 微弱相关0.30.5 低度相关0.50.8 显著相关0.81 高度相关三、简单直线相关分析的特点 1.用于相关分析的两个变量是对等的关系,不分自变量和因变量;2.只能计算出一个相关系数;3.相关系数r的有正负号。分别表示正相关,负相关;4.用于相关分析的两个变量均为随机变量。四、时间数列自身相关(一) 意义 前面研究了两个变量之间相关关系的理论及方法,其主要特征是:

28、当一个变量发生变动时,另一个变量将随着作相同方向或相反方向的变动,它是从静态上和现象截面上来研究的。除此之外,还有另一种相关关系,即时间数列的自相关,它是从动态上来研究的。 时间数列的自相关:是就一个变量自身来考察的,随着时间的不同,一个变量在其前后期的数值之间所表现出一定的依存关系,这种关系叫时间数列的自身相关,简称自相关。 研究时间数列的自相关对于分析社会经济现象的规律性及进行经济预测都有很重要的意义。如各年生猪上市量与其前一年上市量之间,某地区历年粮食总产量之间,历年铁路货运量之间,己形成的工业生产水平将会影响明年或后年的工业生产水平等。(二)自相关系数的测定前面相关系数反映x、y两个变

29、量之间线性关系的密切程度。设是一个时间数列,共有n项,用表示各项水平, t=1、2、n若将逐期向后移动一个间隔时期,得到yt-1数列,称为移后一期的时间数列;若将时间数列逐期向后移动两期而yt-2,称为移后两期的时间数列这样得到的一系列新的时间数列统称为时间移后动态数列。如表2-8。表2-8t12345ny1Y2y3y4y5yt-1y1y2y3y4yn-1yt-2y1y2y3yn-2由于原时间数列的水平项数是有限的,而每次组成的新数列都是将原数列逐期后移而得,因此的项数比少一项,比少两项,比少k项。下面以k表示移后的期数,表示移后期为k的时间数列(对应值的项数是新数列的项数)。当K=1时,则新

30、数列为yt-1首先可以把和yt-1看成是由两个不同变量组成的时间数列,并计算其相关系数,来研究和yt-1之间的关系。时间数列自相关中的相当于y,而yt-1相当于自变量x,二者的关系表示本期与前期的相关关系,则其中: 同理可计算和 yt-2两个数列的自相关系数是本期和移后两期的时间数列之间的相关系数,同理表示和移后期为k的时间数列yt-k之间的相关系数。移后K期,对应项数就为K项,所以应从k+1开始。一般最常研究的是本期和前期的自相关关系(举例)。例如,某地区历年工农业总产值资料如表2-9,试计算自相关系数。表2-8 单位:万元年度产值上年产值1995(218)19963002189000047

31、52465400313.86199736030012060090000108000381.801998460360211600129600165600430.261999520460270400211600239200454.352000580520336400270400301600598.852001620580384400336400359600652.362002640620409600384400396800688.022003600640360000409600384000705.862004620600384400360000372000670.19200568062046420

32、0384400421600688.202006670680448900462400455600741.532007710670504100448900475700732.61合计67606268399180035352243745100解:根据自相关系数计算公式的要求,需计算、,见表2-9。根据表中资料,相关系数为:=0.9775计算结果说明该地区各年工农业总产值与上年工农业总产值之间存在着高度的正相关关系。判明这种关系后,可配合自身回归方程,根据当年的工农业总产值就可预测下年的工农业总产值。(回归部分讲) 简单直线回归分析一、回归分析的意义就一般意义而言,相关关系分析包括相关分析和回归分析两

33、方面的内容,因为相关与回归都是研究两个变量相关关系的分析方法。但就具体问题解决的方法而言,回归分析和相关分析是有明显差别的。相关分析:分析现象之产是否存在相关关系及相关关系的种类(形式、性质),并且利用相关系数说明在直线相关的条件下,两种现象之间相关关系的方向,密切程度,但不能说明两种现象之间因果变动的数量关系,即无法从一个变量的变化来推测另一个变量大致变动多少。回归分析法:指对具有相关关系的两个或两个以上的变量之间数量变化的一般关系进行测定,确立一个相应的数学表达式,以便从一个已知的量来推测另一个未知量。或:用数学方程式来反映经济现象之间数量变化的一般关系的方法叫回归分析法。这里的数学表达式

34、叫回归方程,一般用的较多的是直线回归方程,即用一条直线来表明具有相关关系的变量之间的一般数量关系。简单直线回归分析的特点:1、在两个变量之间必须根据研究的目的确定哪个是自变量,哪个是因变量。如,即因果关系。相关分析的两个变量之间是对等的关系,不必确定哪个是自变量 ,哪个是因变量;而回归分析的两个变量之间一个是自变量,一个是因变量,二者不是对等的关系,而是因果关系。2、在没有明显因果关系的两个变量中,可配合两个回归方程。相关分析中,相关系数只有一个,而在回归分析中,若两个变量之间无明显的因果关系,可配合两个回归方程,一个是y依x的回归方程(x为自变量),另一个是x依y的回归方程(y是自变量)。如

35、身高与体重的两个变量,可以以身高为自变量,体重为因变量,说明身高变化时体重变化的影响;也可以以体重为自变量,身高为因变量,说明体重变化对身高的影响。值得注意的是,若两个变量存在明显的因果关系时,只能配合一条回归直线,另一条配合出来也没意义。如施肥量与农作物亩产量之间,只能以施肥量为自变量,亩产量为因变量,分析施肥量的变动对亩产量的影响。而反过来分析亩产量的变动对施肥量的影响,那是毫无意义的。3、回归方程的作用在于给出自变量的数值来估计因变量的可能值。一种回归方程只能作一种推算,即给出自变量的值,推断因变量平均变动的数值,推算的结果表明变量之间具体的数量变动关系,它不是抽象的系数关系。4、直线回

36、归方程中,自变量的系数b称为回归系数。回归系数的符号为正时表示正相关,为负表示负相关。(与相关系数的正负号一致)5、回归分析中,因变量是随机的,而把自变量当作研究时可以控制的量。即在给定不同自变量的数值下,观察对应的因变量数值的变化情况。回归分析有一元回归和多元回归之分,有线性和非线性之分,线性回归是基本的,这里只介绍一元线线性回归。二、直线回归方程的建立和求解配合直线回归方程的前提条件是:两个变量之间确实存在线性相关关系,而且其相关的紧密程度至少是显著的。若变量之间无真正的线性相关关系,配合直线回归方程就毫无意义。(一)回归方程的建立配合直线回归方程的意思是要找到一条直线,用直线上的点来代表

37、所有的相关点。但是为代表所有的相关点,可以画出无数条直线,哪一条直线是最理想的呢?符合“离差平方和为最小值”这个条件的直线最理想。离差是指因变量的实际值和直线上的估计值(理论值)的差距。每个相关点和直线上的对应点都有一个离差,离差有正有负,有大有小,离差之和为零。把所有的离差加以平方全成为正数,可表明其绝对距离。若一条直线它和实际相关点的离差平方和为最小值,则这条直线 是最合理的。根据=最小值这个条件所配合的方程叫最小平方法。简单直线方程为: 令则 根据极值原理 即 即 整理得 联立求解得: 例如,前面表2-7资料,试配合直线回归方程。解:要计算b,需求出、则 这个方程中的数值与符号表示:a=

38、329.25这是维修费用的起点值,在相关图上表现为x=0时,y的值为329.2元(即截距);b=76.15元,指机床使用年限增加一年(一个单位)时,维修费用的平均增加值为76.15元,其正负号表示正相关,负相关,说明使用年限和维修费用之间存在着正相关关系。将x代进方程,可得出,是根据表3-1中资料有规则的变动而推算出来的直线上的估计值(理论值)。见表3-1。表3-1序 号机床使用年(年)x维修费用(元)y124004800481.552254041080481.553352091560557.2044640162560633.8554740162960633.8565600253000710.

39、0075800254000710.0086700364200786.1596760364560786.15106900365400786.15118840646720938.4512910808197201014.6合 计608520352465608520.00(二)回归系数b和相关系数r之间的关系回归系数b和相关系数r之间存在着密切的数量关系,在计算中,可以利用已知的一个推算出另一个。其关系如下: 分子分母同乘 得 三、估计标准误差(一)估计标准误差的含义回归方程的一个重要意义在于根据自变量的已知值推算因变量的可能值。理论值和实际值有时可能一致,有时不一致,这就产生了估计值的代表性问题,当

40、理论值与实际值y一致时,表明推断准确,的代表性强;不一致表明的代表性差。回归直线的代表性如何,一般是通过估计标准误差指标加以检验的。它是用来说明回归直线代表性大小的统计指标,其原理与前面讲过的衡量平均数的代表性的原理相同,不同的是,前面说明平均数的代表性,而这里说明的是平均线或趋势线的代表性。(二)估计标准误差的计算方法1.根据因变量的实际值和估计值的离差计算 估计标准误差越小,则所有的y值都靠近,即关系越密切;越大,则所有的实际值都远离,关系越不密切。公式中分母用的是n-2。n表示变量值可以自由变动的个数。从n中减去2,是因为这里根据实际资料已计算了a、b两个参数值,当再用这些点估计回归直线

41、时,y就已经失去了两个自由度,这两个单位的变量值必须受a、b值和其余n-2个单位的数值制约,所以误差应除以n-2。若大样本n很大时,2可忽略不计,例如,根据表3-1的资料计算估计标准误差,相关资料计算见表3-2。表3-2机床使用年限(年)x维修费(元)y2400481.55-81.556650.402540481.5558.453116.403520557.70-37.701421.294640633.856.1537.824740633.85106.1511267.825600710.00-110.0012100.005800710.0090.008100.006700786.15-86.1

42、57121.826760786.15-26.15683.826900786.15113.8512961.828840938.4598.459296.40910841014.6065.404277.16合 计85208520.0078030.75解:根据估计标准误差的计算公式得:计算结果,估计标准误差是88.33元,这就是说,维修差的实际值和估计值是有差距的,这个差距有的大,有的小,平均来说为88.33元。显然,这个数值越大,表明估计值的代表性小,这个数值越小,则说明估计值的代表性大。若s=0说明y和平均来说没有差距。2根据a、b两个参差数计算估计标准误差前一种方法在实际观察值很多,且数值很大时

43、,计算十分麻烦,需计算出所有的估计值及。若已经有了直线回归方程的参数值,可用下列公式小样本下: 大样本下: 证明: 已知 例如,根据表3-1资料计算估计标准误差。 =88.34计算结果和前公式一致。(三)估计标准误差和相关系数的关系在讲估计标准误差和相关系数的关系前先介绍一下离差平方和的分解。1.离差平方和的分解从相关关系的含义中我们知道,当x取定一个数值时,y含有若干个数值和它对应,这些数值都是围绕着它们的平均值上下波动的。Y取值的这种波动现象称变差。变差的大小可以通过观察值y与平均数的离差来表示。而全部n次观察值的总变差之和为0,即,所以只能对其加以平方后求和,用表示,以下简称y的总变差。

44、见图3-1。xy图3-1 离差分解图由图3-1可以看出:总变差=估计误差(剩余误差)+回归误差即对于某一点来讲,其变差为:对此式加以平方,然后对所有n点求和得总变差:因为后一项为0,所以 令 它表明总变差的产生受两个因素的影响:受自变量x变动的影响由于x与y的线性依存关系而引起y的变化部分称为回归变差。(2)估计误差指除了x与y的线性依存关系影响以外的一切因素对y的影响部分,即总变差中减去回归变差后剩余的部分。两个变量之间关系的密切程度可由Q决定:A.若估计误差Q为最大值,等于总变差,这时,即,这时,与完全重叠,y的大小不受x的影响。B.若估计值为最小值0时,表示所有的点y都落在上,所以x与y

45、完全线性相关。C.若Q的数值愈小,表明所有的观察点离回归线愈近,因而也就表示x与y的线性关系愈密切。由此看来,两个变量之间关系的密切程度完全由Q来确定,Q越小,y与x的关系越密切,Q愈大,x与y关系愈不密切。2.估计标准误差与相关系数的关系根据方差分解公式得: 由公式推导可得以下几个关系式估计标准误差与相关系数的关系式: , 若已知r和 ,也可直接计算。 称为判定系数或可决系数, 表示以判明的因素在总变差中所占比重,占的比重越大,观察点与回归线的距离越近。 ,这里的r称为方差法相关系数,它既适合于线性相关,也适合于非线性相关。r只取正值,但并不意味着表示正相关。线性相关时,相关的性质即是正相关

46、、还是负相关,由回归系数b决定;在非线性相关条件下,用R表示,称为相关指数。例如,5位同学学习时间与学习成绩如表3-3。试计算方差法相关系数、可决系数及估计标准误差。表3-3每天学习时数x平均成绩 y44041.2-22484-1.21.4466051.6-248.470.5675056.8-12144-6.846.24107072.4864-2.45.76139088.0287842.04.004031031001480128.00解:经过计算,其直线回归方程为 要计算r,首先在表中计算出、r表明学习时数与成绩之间存在着高度的正相关关系(性质由回归系数b=5.2确定)。r2说明在总变差中,有

47、91.35%可以由回归方程来解释,即已判明的因素在总变差中所占的比重为91.35% (分)说明理论分数(回归值)与实际分数y之间平均误差为6.5分,这个数字与平均成绩62分对比约占10.48%四、简单自身回归方程在自相关分析中,求出了自相关系数,若自相关程度至少是显著的,下一步就是选择合适的方程以表达二者之间的依存关系及其变动规律性,这种方程称为自回归方程。与前面不同的是,自回归方程不是反映性质不同的变量之间依存关系,而是反映同一个时间的数列中按不同移后期而得的数列与原数列之间的依存关系。这时移后期数列水平 是自变量,是因变量,它反映的是当自变量变动时,平均来说,将随着作怎样的变动。当时间数列

48、自身的相关关系近似地表现为直线形态时,可用直线回归方程表示在自回归方程中,以哪个移后期水平作自变量n,一个是看研究的对象、目的,另一个是取决于绝对值最大的自相关系数。要求解方程中的a和b,可按最小平方法。 例如,根据表2-8中某地区历年工农业总产值资料(自相关系数中),配合自回归方程。解: n=12 b说明每变动一个单位,将平均增加0.8197,b的正负号与r一致,与为高度的正相关关系。将各年的代入方程可得出各年的估计值()万元第四节 一元曲线回归及多元线性回归一、一元曲线回归分析在实际中,有时两个变量之间的相关关系并非线性关系,而是近似于某种非线性关系即曲线关系,则可为其配合曲线方程进行分析

49、。(若自变量的增加不是导致因变量均衡地变化,可配合曲线方程)在实践中,对已掌握的资料,应充分利用相关表、相关图,对相关点的分布特征进行分析判断,并结合一些已知的函数图形知识,选择合适的回归方程,用可行的方法求解参数(一般用最小二乘法)。许多情况下,非线性回归问题可以通过变量的变换转化成线性回归方程。(长期趋势方程配合中已经介绍)。若增长速度大致相同,若二级增长量大致相同时,若y比x的变化慢时用对数方程,若观察值的倒数的一级增长量大致相等时,可为其配合逻辑曲线等。二、多元线性回归分析前面反映的是某一因变量与一个自变量之间的关系,称为一元回归分析,但是,有时一种现象的变动往往会受若干个因素变动的影

50、响。如粮食亩产量的高低,同时会受施肥量、种子质量、温度、降雨量、耗作深度等因素的影响。统计中研究一个因变量与多个自变量之间相互关系的理论和方法称为多元回归(复回归)分析 多元线性回归分析分为多元线性回归分析和多元非线性回归分析,这里只讨论多元线性回归分析。 多元回归方程:是用于表达一个因变量和多个自变量之间相互关系的一种数学模型。当研究因变量y与n自变量、 的关系时,方程为: 、为回归系数,表示当其它自变量都固定不变时,该自变量变动一个单位,而使y平均变动的数值。一般来说,在y的所有影响因素中,可以找出几个主要影响因素,一般三个为宜,则方程为:求解其参数a、仍用最小二乘法。第五节 其它相关系数

51、的介绍积差法相关系数r是常用的一种方法,但它只能测定两个连续变量之间线性相关关系的密切程度,对于二分型变量和多个变量之间相关程度无法直接测定。一、复相关系数(线性条件下)它是测定两个或多个变量对某一特定变量之间关系密切程度的指标。当研究的是三个自变量与一个因变量的平均相关程度时,复相关系数可以用下式表示 ,其余两个同理。当R=1时, y与、为完全相关关系。当R=0时,表明y与、不存在线性相关关系。R愈接近1,线性相关愈密切,相反R愈接近0,线性相关关系愈不密切。实际中,经常计算多元判定系数,它反映在y的所有影响因素中,我们所选取的几个因素对它的影响占多大的比重。值愈接近100%,说明选取的因素

52、愈为主要因素,考虑的因素越完全。二、偏相关系数在多元相关中,任意两个变量之间都可能存在相关关系,为了单纯反映一个变量对另一个变量的相关程度,必须剔除其它因素的影响。偏相关系数表示y对自变量x的纯(净)依赖程度。例如身高与体重之间的相关,其间有年龄因素存在,年龄对于身高和体重都有关系,若不剔除年龄因素身高与体重之间的相关就不是单纯的。又如高考学生的各科考分之间也决不是两科之间的单纯关系(如语文对物理与数学之间关系的影响)。为了控制或剔除其它因素的影响,统计学中提出了偏相关或纯相关系数。偏相关系数用以说明两个变量之间的真正关系。而前面讲的相关系数叫简相关系数,r则可能由于其他因素的影响而反映的仅仅

53、是非本质的联系,甚至可能完全是假象。计算r主要是用它来计算其它相关系数的。一级偏相关系数:剔除1个因素影响其中,K为剔除因素,表示剔除了K的影响后i与j之间的净相关关系。如剔除语文影响后,数学与物理之间的关系;剔除时间因素影响后,人口与国民收入之间的关系等。二级偏相关关系不数:剔除2个因素影响三、点双列相关(连续变量与二分型变量关系)在x与y两个变量数列中,若一个变量属于连续变量,而另一个变量属于“二分”型变量(男、女;成功、失败;对、错;合格、不合格等),为了测定二分型变量对另一连续型变量之间关系的密切程度,则用点双列相关系数用表示。是非标志的标准差;连续变量y的标准差; P具有某种属性的单

54、位占总体单位数的比重; 不具有某种性的单位占总体单位数的比重;与具有某种属性的单位对应的y的平均值;与不具有某种属性的单位对应的y的平均值。例如,有14名学生(男9人,女5名),男生统计学成绩分别为65、68、70、71、72、72、74、75、81,女生的成绩分别为62、65、70、73、80。试计算性别与学习成绩的相关系数。解:男生所占比重 女生所占比重,又知男生的平均成绩,女生的平均成绩,则 说明统计学成绩与性别无关。另外还可计算耐用时数与产品质量(合格、不合格品)之间的关系等。四、相关系数(均为二分型变量)当两个关联着的变量都是二分型的,要研究这两个变量之间相关关系的密切程度则用相关系

55、数。符号表示见表5-1。表5-1 y 次数f x101ab0cdn例如,婚姻状态与性别的关系,总的调查25岁以上的412人,男女各半,其状况如表5-2。表5-2性 别合计女 性男 性婚姻已 婚未 婚111(a)95 (c)84 ( b)122(d)195217合 计206206412解:说明婚姻状态与性别之间关系很微弱。五、等级相关系数(英国:斯皮尔曼spearman相关系数)等级相关系数在样本的容量不大时是一种计算比较简便的方法。它是将相关着的两个变量分别从小到大的顺序排列成等级顺序(1、2、3),形成两个序数数列,然后再测定这两个数列之间相关关系的密切程度的方法,它既适合品质标质,也适合数

56、量标志。在赋予等级时,若有相同的数值时,按其应有的等级赋予其平均等级,如,有两个人的数学成绩是65分,应排为5、6级,就各赋予5.5级。公式为: d为对应等级之差若两个对应变量等级相等时,d=0,完全正相关;若x与y的编号一致,即增加,应有规律地增加,二者为正相关,反之为负相关。若两种等级恰好相反,完全负相关。等级相关系数没有相关系数r准确。例1,某企业工人数和产值资料见表5-3,试计算等级相关系数。表5-3企业工人数x产值(万元)yx等级y标志等级等级差数d134523110024854245.5-1.52.2535153753244622406424541730220064504537-41676554275.51.52.2588156489-169925731010011087850981合计6107446030.5解:说明工人人数和总产值之间存在高度的正相关关系。例2,某企业组织一次技术操作劳动竞赛,参赛者是不同技术等级工人中的佼佼者,事后按竞赛优胜名次排列如表5-4。表5-4竞赛名次x12345678技术等级y67582341-5-5-2-43337252541699949146解:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论