应用统计学相关与回归分析_第1页
应用统计学相关与回归分析_第2页
应用统计学相关与回归分析_第3页
应用统计学相关与回归分析_第4页
应用统计学相关与回归分析_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

函数关系指的是变量之间存在着的严格的依存关系,它们之间的关系值是固定的,对于某一变量的每一个值,都有另一个变量的完全确定的值与之相对应。例如,圆的面积等于圆周率乘以半径的平方。第1页/共52页第一页,共53页。相关关系是指变量之间确实存在的但关系值不固定的相互依存关系。在这种关系中,当一个(或几个)变量的值确定以后,另一个变量的值虽与它(或它们)有关,但却不能完全确定。这是一种非确定性的关系。例如,电视机的拥有率与人均收入水平有关,但对于人均收入水平相同的地区,其电视机的拥有率可能不尽相同。在客观事物中,尤其是在经济现象中,相关关系普遍存在。统计很有必要对这种关系进行研究。第2页/共52页第二页,共53页。在相关关系中,通常,在相互联系的现象之间存在着一定的因果关系,这时就把其中的起着影响作用的现象具体化,通过一定的变量反映出来,这样的变量称为自变量。由于受到自变量变动的影响而发生变动的变量称为因变量。第3页/共52页第三页,共53页。在相关关系中,有时两个变量之间只存在相互联系而并不存在明显的因果关系。确定哪一个是自变量,哪一个是因变量,主要决定于研究的目的。例如,在粮食亩产量与施肥量之间,施肥量这一变量是自变量,亩产量这一变量是因变量。当研究的是两个变量之间的关系时,通常以符号X表示自变量,以符号Y表示因变量。第4页/共52页第四页,共53页。二、相关关系的种类相关关系从不同的角度可以划分成不同的类型。(一)正相关与负相关从相关的方向看,相关关系可以分为正相关和负相关。第5页/共52页第五页,共53页。负相关是指相关变量之间的变化趋势相反,即当自变量的值增加,因变量的值随之减少;当自变量的值减少,因变量的值随之增加。例如,产品产量与单位产品成本之间的关系。正相关是指相关变量之间的变化趋势相同,即当自变量的值增加,因变量的值也随之增加;当自变量的值减少,因变量的值也随之减少。例如,汽车的使用年限与汽车的修理费用之间的关系。第6页/共52页第六页,共53页。(二)线性相关与非线性相关从相关的形式上来看,相关关系可分为线性相关和非线性相关。线性相关也称直线相关,是指相关的两个变量之间变化的趋势呈线性或近似于线性。即自变量发生变动,因变量随之发生变动,其增加或减少量是大致均等的,从图形上看,其观察点的分布近似表现为直线形式。第7页/共52页第七页,共53页。非线性相关也称曲线相关,是指相关的两个变量之间变化的趋势呈非线性。即自变量发生变动,因变量随之发生变动,但其增加或减少量不是均等的,从图形上看,其观察点的分布表现为各种曲线形式。第8页/共52页第八页,共53页。(三)单相关和复相关从相关变量的个数来看,相关关系可分为单相关和复相关。单相关是指两个变量之间的相关关系。复相关是三个或三个以上变量之间的相关关系。例如,仅仅考虑施肥量对产量的影响,这就是一种单相关;如果除了施肥量之外,再考虑降雨量及深耕程度对产量的影响,则这种相关关系就是一种复相关。第9页/共52页第九页,共53页。三、回归与相关分析的概念在对变量之间存在的相关关系进行分析研究时,最常用的方法就是回归分析和相关分析。回归分析和相关分析是相互联系的,它们从不同方面研究变量之间相关关系的本质。回归分析是用来研究变量之间关系的可能形式的统计方法。它把两个或两个以上变量之间的变动关系加以模型化,用数学函数表达变量之间的关系。运用这种方法时,最终的目的通常在于预测或估计与某一个或某几个变量的给定值相对应的另一变量的数值。第10页/共52页第十页,共53页。相关分析是研究如何计量变量之间关系强度的统计方法。它能确定变量之间相关的程度,即变量之间某种关系的确切程度有多大。回归分析和相关分析既有联系,又有区别。就其研究对象来说,两者都是研究变量之间的相关关系。但就彼此研究变量之间关系的性质来看,两者存在明显的区别。回归分析中,必须将相关变量区分为自变量和因变量,以确定其关系的可能形式,所研究变量属于非对等关系。相关分析中,计量变量之间关系的强度,不必区分自变量与因变量,所研究变量属于对等的关系。第11页/共52页第十一页,共53页。四、相关图表对现象变量之间是否存在相关关系以及存在怎样的相关关系进行分析、作出判断,这是进行回归和相关分析的前提。通过编制相关表和相关图,可以直观地、大致地判断现象变量之间是否存在相关关系以及关系的类型。第12页/共52页第十二页,共53页。(一)相关表相关表是表现现象变量之间相关关系的表格。例如,为研究商店人均月销售额和利润率的关系,调查10家商店取得10对数据,以人均销售额为自变量,利润率为因变量,编制简单相关表如下表。第13页/共52页第十三页,共53页。人均销售额与和利润率相关表编号人均月销售额(千元)利润率(%)1234567891013345667783.06.26.68.110.412.612.316.316.818.5第14页/共52页第十四页,共53页。(二)相关图所谓相关图,是把相关的两个变量之间的关系在平面直角坐标(第一象限)中反映出来。通常将自变量(x)置于横轴上,因变量(y)置于纵轴上,而将两个变量相对应的变量值用坐标点形式描绘出来。相关图就是用相关点的分布状况来描述相关关系的,所以又称为散点图。根据相关图,可以直观地看出变量之间相关关系的模式。第15页/共52页第十五页,共53页。例如,前述人均月销售额与利润率的关系,可用相关图表示如下:利润率(%)人均销售额(千元)1

20人均销售额与利润率相关图51015

2

3

84

567第16页/共52页第十六页,共53页。从图中,我们可以清楚地看出,这两个变量之间相关的方向(即正相关)以及相关的具体形式(直线相关)(a)直线关系(b)反直线关系(c)正曲线关系第17页/共52页第十七页,共53页。(e)较分散的

反直线关系(d)反曲线关系(f)没有关系x与y的一些可能关系的散点图第18页/共52页第十八页,共53页。上图说明了相关图中的一些可能关系。图(a)和(b)表示的是正的和反的直线关系,即正线性相关和负线性相关。图(c)和(d)分别表示的是正的和反的曲线关系,即正非线性相关和负非线性相关。图(e)中是散布域很宽的反直线关系。散布域越宽,则表明变量之间的联系程度越差。图(f)中的图象表明两个变量之间没有什么关系。第19页/共52页第十九页,共53页。§2.简单线性回归一、回归直线的确定如果变量x和y相关,并且从相关图表中可以看出它们之间大致形成一种直线关系,我们就可在相关图上求出一条与各点最相配合的直线。第20页/共52页第二十页,共53页。由于这些点所代表的若干对数据——观察值,只是相互有一定关系的变量x、y的总体中的一个样本,故这样求出的直线是总体回归直线的估计线。在估计线上的点的纵坐标是相应于x的y的估计值。y=a+bx如果这个y的估计值用y表示,则估计线的方程可写为第21页/共52页第二十一页,共53页。这叫做样本回归直线。它是y对x的回归线,表明y对x的平均关系。式中x为受控制的自变量,通常由研究者事先选定数值。a为样本回归直线y的截距,它是样本回归直线通过纵轴的点的y坐标;b为样本回归直线的斜率,它表示当x增加一个单位时y的平均增加数量,b又称回归系数。第22页/共52页第二十二页,共53页。如何确定回归直线方程呢?也就是说怎样确定方程中的参数a、b呢?若用(xi,yi)(i=1,2,…n)表示n组观察值,则对任意给定的xi

,可得y的估计值为这些数值同实际值yi之间存在着误差;yi=a+bxii=yi

yi=

yi

a

bxi第23页/共52页第二十三页,共53页。Q(a,b)=2=(yabx)2为最小。这样便把寻找适当直线问题转化为使Q(a,b)达到最小条件下求出a、b的问题。在回归分析中,人们普遍采用的是最小二乘法原则。根据最小二乘法的原则,欲使所求回归直线y=a+bx最适合于实际资料,必须使每个xi对应的指标实测值yi与回归直线确定的估计值yi的离差平方之和为最小,即必须使第24页/共52页第二十四页,共53页。因为Q(a,b)是a、b的非负二元函数,所以其最小值无疑是存在的。根据数学中的极值原理,令:满足上述条件的a、b即为所求的未知参数。由化简得(yabx)=0(yabx)x=0第25页/共52页第二十五页,共53页。即:y=na+bxxy=ax+bx2上述方程组称为标准方程组。解之,得:a=ybx第26页/共52页第二十六页,共53页。因此即可确定回归方程式为:y=a+bx这个方程称为在给定样本条件下的一元线性回归方程,对应的直线称为样本回归直线。显然,回归方程对于不同的样本是有差别的,因而,它具有经验的特征,所以在实用上,也将它叫做经验公式。为了简化上述回归系数b的表达形式,引入如下离差乘积的和式:Lxy=(xx)(yy)第27页/共52页第二十七页,共53页。Lxx=(xx)2于是,回归系数可简化为为了相关性检验的需要,顺便引入关于y的离差平方和:Lyy=(yy)2第28页/共52页第二十八页,共53页。求回归方程式的系数往往是通过列表进行的。这里,我们以下表资料为倒,通过求某钢铁厂炼钢精炼时间对含碳量的回归方程,说明回归方程的确定。10.9100炉次含碳量(%)

(x)精炼时间(分)

(y)某钢铁厂十个炉次钢液含碳量和精炼时间10234567892.01.01.21.41.51.61.71.81.9105235130145170175190190220第29页/共52页第二十九页,共53页。可以看出,x与y之间的关系近似为直线关系。我们可以对其配合一条回归直线。为计算回归方程的系数a、b,我们先对原始数据进行加工。第30页/共52页第三十页,共53页。yx2y2xy1001051301451701751901902202350.811.001.441.962.252.562.893.243.614.001000011025169002102528900306253610036100484005522590105156203255280323342418470166023.762943002642炉次x123456789100.91.01.21.41.51.61.71.81.92.015.0原始数据加工表第31页/共52页第三十一页,共53页。于是:第32页/共52页第三十二页,共53页。所以:故精炼时间关于含碳量的回归方程为:y=14.9525+120.635x第33页/共52页第三十三页,共53页。计算结果表明,这个方程显示着钢水溶液的含碳量每增加0.1%,则精炼时间平均来说大约要延长12.06分。根据回归方程,可以给出自变量的任一数值估计或预测因变量的平均可能值。y=14.9525+120.6352.2=150.4445(分)例如,求含碳量2.2%所需的精炼时间:第34页/共52页第三十四页,共53页。二、估计平均误差回归方程的一个重要作用在于根据自变量的已知值估计因变量的可能值。这个估计值和真正的实际值可能一致,也可能不一致。例如,当含碳量为1.8%时,推算的炼钢时间为202.19分钟,而实际为190分钟,相差12.19分钟。这就产生了估计公式即回归方程的可靠性问题,也就是说,根据回归方程计算的估计值,其代表性如何?第35页/共52页第三十五页,共53页。为了度量估计公式即回归方程的可靠性,通常计算估计平均误差。估计平均误差度量观察值回绕着回归直线的变化程度或分散程度。通常用Sy代表估计平均误差,其计算公式为:第36页/共52页第三十六页,共53页。

注意,公式中根号内的分母是n2,而不是n。这是由于Q=(yy)2有两个线性关系的约束,一是,一是,因而,Q=(yy)2的自由度为n2。第37页/共52页第三十七页,共53页。当实际观测值很多,而且数值较大时,根据上述公式计算估计平均误差十分麻烦。借助下列公式,可以简化计算步骤,所得计算结果也相一致。估计平均误差是一个衡量回归方程代表性大小的分析指标。估计平均误差愈大,则数据点围绕回归直线的分散程度就愈大,回归方程的代表性愈小。估计平均误差愈小,则数据点围绕回归直线的分散程度愈小,回归方程的代表愈大,其可靠性愈高。第38页/共52页第三十八页,共53页。§3.相关系数相关分析是用以说明变量之间相关程度的统计工具。相关分析常常与回归分析联合使用,以衡量回归方程所表示的因变量变化的精确度如何。相关分析也可单独用于衡量变量之间的联系程度。本节我们讨论两个变量之间线性相关程度问题。两个变量之间线性相关程度的描述通常采用相关系数。第39页/共52页第三十九页,共53页。一、相关系数的意义我们回过头来考察一下线性回归中指标y的值yi与回归估计值yi的离差平方和。记于是有:Q=Lyy(1r2)r称为相关系数。它是在线性相关条件下用来说明两个变量之间相关关系密切程度的指标。第40页/共52页第四十页,共53页。因为Q≥0,Lyy≥0,故相关系数有一个重要性质:|r|≤1r=1(1)1<r=0(2)r=0(3)r=0(4)0<r<1(5)r=1(6)

相关图与相关系数经验关系第41页/共52页第四十一页,共53页。由于Lyy对于一组实测数据来讲是定值,故由Q=Lyy(1r2)可知,当|r|较大接近于1时,离差平方和Q就较小而接近于0,此时,y与x高度相关。特别当|r|=1时,称它们是完全相关的,上图(1)、(6)所示。当|r|较小而接近于0时,Q就大,y与x的相关关系很弱,特别当r=0时,称它们线性无关。如上图(3)、(4)所示第42页/共52页第四十二页,共53页。由于Lxy可正可负,所以相关系数r也可正可负。若r>0则称y与x正相关,如上图(5)、(6)所示。此时,随着x的增大(或减小),y将呈现增大(或减小)的趋势。特别对于上图(6)的情形,由于r=1,故称完全正相关。若r<0,则称y与x负相关,如上图(1)、(2)所示。此时,随着x的增大(或减小),y将呈现减小(或增大)的趋势。特别对于图(1)的情形。由于r=1,故称为完全负相关。第43页/共52页第四十三页,共53页。应当注意,相关系数r只表明x与y之间的线性关系的密切程度和方向。当r很小甚至为0时,只表明x与y之间的线性关系不密切,或不存在线性关系,并不表示x与y之间就没有关系,可能二者之间有非线性关系。如上图(4)所示,x与y之间就存在着曲线关系。第44页/共52页第四十四页,共53页。二、相关系数的计算我们已经知道,相关系数的公式为:第二节中我们介绍了离差乘积的和式:第45页/共52页第四十五页,共53页。于是有:第46页/共52页第四十六页,共53页。如果将分子分母同乘以n,又可得:根据第二节中炼钢厂钢液含碳量与精炼时间资料,可计算相关系数。那里,我们已经求得:第47页/共52页第四十七页,共53页。于是其相关系数为:计算得出r=0.9892,表明精炼时间和含碳量之间为正相关关系。而且r值接近于1,表示两者关系很密切。第48页/共52页第四十八页,共53页。三、线性相关的显著性检验回归方程在一定程度上揭示了变量之间的内在联系,但它所揭示的规律性是否显著?只有当相关系数r的绝对值

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论