第七章-相关与回归分析PPT课件_第1页
第七章-相关与回归分析PPT课件_第2页
第七章-相关与回归分析PPT课件_第3页
第七章-相关与回归分析PPT课件_第4页
第七章-相关与回归分析PPT课件_第5页
已阅读5页,还剩119页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

.,1,第七章相关与回归分析,第一节相关分析的基本问题第二节相关关系的测度第三节回归分析的基本问题第四节回归分析的模型,.,2,教学目的和要求,教学目的:培养对双变量数据资料进行相关分析和回归分析的基本能力。教学要求:了解相关关系的概念及种类;掌握相关分析的原理、几种常用相关系数的测定方法及相关系数取值含义;掌握回归分析的原理、方法及应用,重点掌握简单线性回归方程的拟合及应用,明确直线回归方程中待定参数的含义。教学重点:相关分析与直线回归的基本步骤与方法,直线相关与直线回归系数的意义,相关分析与直线回归的应用。,.,3,变量间的关系,.,4,变量间的关系,人们每时每刻都在关心事物之间的关系。比如,职业种类和收入之间的关系、政府投入和经济增长之间的关系、广告投入和经济效益之间的关系、治疗手段和治愈率之间的关系等等。这些都是二元的关系。还有更加复杂的诸多变量之间的相互关系,比如企业的固定资产、流动资产、预算分配、管理模式、生产率、债务和利润等诸因素的关系是不能用简单的一些二元关系所描述的。,.,5,例1:广告投入和销售额之间的关系,.,6,这是什么关系?,这两个变量是否有关系?显然,它们有关系;这从散点图就很容易看出。基本上销售额是随着广告投入的递增而递增。如果有关系,它们的关系是否显著?这也可以从散点图得到。当广告投入在6万元以下,销售额增长很快;但大于这个投入时,销售额增长就不明显了。因此,这两个变量的关系是由强变弱。这些关系是什么关系,是否可以用数学模型来描述?本例看上去是可以拟合一个回归模型(后面会介绍),但绝不是线性的(用一条直线可以描述的)。具体细节需要进一步的分析,.,7,(关于某项政策调查所得结果),大致可以看出总体上赞成的人较多,女性赞成的多,低收入赞成的多!,.,8,前言,变量间的关系:一类是变量间存在着完全确定性的关系,这类变量间的关系称为函数关系。另一类是变量间关系不存在完全的确定性关系,不能用精确的数学公式来表示,这些变量间都存在着十分密切的关系,但不能由一个或几个变量的值精确地求出另一个变量的值。这些变量间的关系称为相关关系,把存在相关关系的变量称为相关变量。相关变量间的关系:一种是因果关系,即一个变量的变化受另一个或几个变量的影响;另一种是平行关系,即两个以上变量之间共同受到另外因素的影响。,.,9,变量间的关系及分析方法,函数关系有精确的数学表达式(确定性的关系)直线回归分析一元回归分析变量间的关系因果关系曲线回归分析(回归分析)多元线性回归分析多元回归分析相关关系多元非线性回归分析(非确定性)简单相关分析直线相关分析平行关系复相关分析(相关分析)多元相关分析偏相关分析典型相关分析相关分析(correlationanalysis):研究呈平行关系的相关变量之间的关系。回归分析(regressionanalysis):研究呈因果关系的相关变量间的关系。表示原因的变量称为自变量,表示结果的变量称为因变量。自变量与因变量:回归分析事先都要确定自变量与因变量,相关分析一般无需确定自变量与因变量。,.,10,第一节相关分析的基本问题,相关关系的概念相关关系的种类相关分析的主要内容,.,11,案例例如:在某地区调查100名青年人的最大志愿,假定其中有40%选择快乐家庭、50%选择理想工作和10%选择增广见闻。我们要问:为什么这些青年人的最大志愿会有不同?又假定我们发现这些青年人的教育水平可以分为高(大学及以上程度)、中(高中及中专程度)和低(初中及以下程度)三个等级,每个等级人数分别占10%,60%和30%。我们就可以追问:青年人的志愿与其教育水平是否相关呢?换言之,是否因为教育水平不同,所以人生志愿也不同?统计研究必须探求现象之间的这种究竟是什么性质的关系,以及这种关系的密切程度如何?从统计学的角度来看,相关分析是最基本的分析变量之间关系密切程度的工具。,.,12,一、变量间的关系之一(函数关系),是一一对应的确定关系设有两个变量x和y,变量y随变量x一起变化,并完全依赖于x,当变量x取某个数值时,y依确定的关系取相应的值,则称y是x的函数,记为y=f(x),其中x称为自变量,y称为因变量各观测点落在一条线上,.,13,变量间的关系(函数关系),函数关系的例子某种商品的销售额(y)与销售量(x)之间的关系可表示为y=px(p为单价)圆的面积(S)与半径之间的关系可表示为S=R2企业的原材料消耗额(y)与产量(x1)、单位产量消耗(x2)、原材料价格(x3)之间的关系可表示为y=x1x2x3,.,14,变量间的关系之二(相关关系),变量间关系不能用函数关系精确表达一个变量的取值不能由另一个变量唯一确定当变量x取某个值时,变量y的取值可能有几个各观测点分布在直线周围,.,15,变量间的关系(相关关系),相关关系的例子商品的消费量(y)与居民收入(x)之间的关系商品销售额(y)与广告费支出(x)之间的关系粮食亩产量(y)与施肥量(x1)、降雨量(x2)、温度(x3)之间的关系收入水平(y)与受教育程度(x)之间的关系父亲身高(y)与子女身高(x)之间的关系,.,16,相关关系与函数关系的联系,(1)都可用函数式加以描述,但表达式不同;(2)函数有时也可能表现为相关关系;(3)相关分析有时需要利用函数关系数学表达式来研究;(4)相关关系是相关分析的研究对象,函数关系是相关分析的工具。,.,17,二、相关关系的概念,所谓相关,是指一个变量的值与另一个变量的值具有连带性。即一个变量的值发生变化,另一个变量的值也有变化。相关关系就是指这种变量之间存在的相互依存关系。其特点为一个现象的数量确定,另一个现象的变量往往同时出现几个不同的数值,并围绕平均数上下波动。,.,18,三、相关关系的类型,.,19,相关关系的图示,.,20,四、相关分析的研究内容,相关分析的主要内容归纳起来有:(1)确定变量之间有无相关关系及其表现形式;(2)确定相关关系的密切程度。,.,21,第二节相关关系的测度,一、相关关系的判断二、相关系数的测定,.,22,一、相关分析的判断,(一)定性判断:理论知识和经验(二)利用相关表判断1.简单相关表:是资料未经分组的相关表,它是把因素标志值按照从小到大的顺序并配合结果标志值一一对应而平行排列起来的统计表。,.,23,1.简单相关表,销售额与流通费用相关表,散点图,.,24,某市家庭收入与消费支出相关表,散点图,2.分组相关表:是在简单相关表的基础上,将原始数据进行分组而编成的统计表。(1)单变量分组相关表:自变量分组并计算次数,而对应的因变量不分组,只计算其平均值。单变量分组相关表的特点:使冗长的资料简化,能够更清晰地反映出两变量之间相关关系。,.,25,家庭收入与消费支出相关表,(2)双变量分组相关表:自变量和因变量都进行分组而制成的相关表,这种表形似棋盘,故又称棋盘式相关表。P174注意:自变量放在纵栏,因变量放在横栏,.,26,(三)利用相关图判断1、相关图:利用直角坐标系第一象限,把自变量置于横轴上,因变量置于纵轴上,而将两变量相对应的变量值用坐标点形式描绘出来,用以表明相关点分布状况的图形。2、相关图被形象地称为相关散点图,从这张图可以看出什么相关性呢?,.,27,3、如果标志分了组,结果标志表现为组平均数,所绘制的相关图就是一条折线,这种折线又叫相关曲线。,.,28,四组数据(每个有两个变量的样本)的散点图,.,29,二、相关关系的测定(一)直线单相关的测定1.相关系数的概念:说明变量之间相关关系密切程度和方向的统计分析指标,一般用r表示。相关系数的特点:(1)大小处于-1,+1之间,绝对值为0,1;(2)绝对值越接近于1,相关程度越高;r=1表示完全相关;(3)越接近于0,相关程度越低;r=0表示变量之间不相关;(4)r0表示正相关,r0.8高度相关。,.,30,简单相关关系的取值及其意义,-1.0,+1.0,0,-0.5,+0.5,r,.,31,简单相关系数的大小取决于自变量数列的标准差、因变量数列的标准差和两数列的协方差三个因素。相关系数的计算公式:其中自变量数列的标准差为因变量数列的标准差为两个数列的协方差为,简单相关关系的测定公式,.,32,积差法公式:,积差法公式,.,33,积差法公式的简化公式,得到公式:,.,34,对公式进一步简化:,.,35,相关系数的简捷公式,相关系数的简捷公式,或化简为,.,36,简单相关系数的方向和程度的决定因素,根据公式,可以看出:简单相关系数为正或负,主要取决于式子,若则说明是正相关;,则是负相关;,则是零相关。可见简单相关系数的实质,是通过协方差来说明相关关系密切程度的。,.,37,用简捷公式的相关系数计算表,理论上可以先通过定性判断、画散点图等确定两个变量间是否有关系,在此基础上可以直接用公式计算相关系数。公式的选择可以根据实际的资料和计算条件来确定。注意:在计算相关系数时,无需确定自变量和因变量,所以x、y的确定是任意的。,.,38,用简捷公式的相关系数计算表,即单位成本与产量间存在着高度的线性负相关关系。,.,39,简单相关系数的算例,【例】在研究我国人均消费水平的问题中,把全国人均消费额记为y,把人均国民收入记为x。我们收集到19811993年的样本数据(xi,yi),i=1,2,,13,数据见下表,计算相关系数。,.,40,在计算时可以列出表格,将需要的数据列在表中的相应位置,以免出错。,解:根据样本相关系数的计算公式有人均国民收入与人均消费金额之间的相关系数为0.9978,说明两者之间是高度线性相关的。,.,41,相关系数的测算例子,.,42,简单相关系数的显著性检验(概念要点),1.检验两个变量之间是否存在线性相关关系等价于对回归系数b1的检验采用t检验检验的步骤为提出假设:H0:;H1:0,计算检验的统计量:,确定显著性水平,并作出决策若tt,拒绝H0若tt(13-2)=2.201,拒绝H0,人均消费金额与人均国民收入之间的相关关系显著,.,44,(二)时间序列自相关的测定,前面讲到的是在静态的条件下,两个变量之间的相关,即在同一时间下,对变量之间依存关系的测度。在统计研究中,对研究对象进行动态的跟踪研究是十分常见的,而这是变量往往采用时间序列来表示的。这种变量之间在动态上的依存关系表现为两种方式:(1)时间数列的自相关:即某一个变量自身随时间不同,其数值在前后期之间表现出一定的依存关系(2)两个或两个以上时间数列间的相关:即两个或两个以上的变量在不同时间中表现出一定的依存关系。(在后面的时间数列分析中会涉及到),.,45,时间序列自相关系数可以说是简单相关系数的一种特殊情况。按照滞后期数(n)的不同,称为n阶自相关系数。其计算公式为:,时间序列自相关的测定(计算公式),.,46,滞后2期的公式为:由此类推,可以得到滞后n期的时间序列自相关系数。滞后期数是可以按照需要变化的。但是滞后期数的选择与时间序列的观测点总数有关。,.,47,与简单相关系数的分类相同,时间序列自相关也可分为正相关与负相关、线性相关与非线性相关等。其取值范围仍为-1,1。其系数的检验方法也可以采用简单相关系数的检验方法。,.,48,.,49,(三)等级相关的测定,例子:假定有四名学生(A、B、C、D),他们的数学成绩与英语成绩的等级分别如下表所示:此时,如何测定这两列等级的相关关系呢?,.,50,1.等级相关的含义:就是把有关联的数量标志或品质标志的具体表现按等级次序排列,形成X和Y这两个序列,再测定这两个序列之间的相关程度,得到的相关系数即为等级相关系数。2.等级相关的优缺点优点:简单易行、应用广泛,适用于不精确计量标志。缺点:精确度稍差于按积差法计算的相关系数斯皮尔曼相关系数、肯特尔相关系数,等级相关的概念及特点,.,51,斯皮尔曼rho系数(原理),例如,我们可以将一组学生按入学成绩和第一学年结业成绩的顺序来排队,如果将入学考试成绩的评秩记为X1,X2,.XN,而学年结业成绩的评秩记为Y1,Y2,.YN,我们就可以用秩相关来决定X和Y之间的相关性。如果对所有的都有时,入学考试名次和学年成绩之间的相关才算完全,因而用各个差值,来表示两组评秩之间偏离程度看来是合乎逻辑的。如果两组秩之间的相关是完全的,则每个d都应为零。di越大,两个变量之间的相关就越不完全。在计算相关系数时,直接用di是不合适的。一个困难是,当我们想决定总的偏差程度时,正的di和负的会抵消掉。如果使用di2,就可以克服这一困难。,.,52,等级相关的计算步骤:(1)定等级;(2)配对观测值的等级差D;(3)求D的平方并加总;(4)代入公式:,斯皮尔曼系等级相关系数,.,53,例2:以下是两组消费者对十种商品的评分资料,据此计算两组资料间的等级相关系数,计算等级相关系数,首先应将原数据转化为等级,本例中甲组最低分是68分,则可将它的等级数定为1,70分的等级数就是2,72分的为3,依次类推,如果两个数值相等,则值以平均位置数代替。,.,54,等级相关系数计算表,代入公式得:,.,55,等级相关系数公式的推算过程,根据前面的学习,我们知道,简单相关系数计算公式为:当X和Y都是秩时,从1到N这N个整数和是,它们的平方和就是,.,56,现在而此时所以,.,57,将,代入上式中,经过适当化简得到:对于秩有,所以因此可以用上式计算。,.,58,(斯皮尔曼rho系数算例),一些研究者用著名的F量表对12个大学生进行了调查,希望能知道对权威评分和对地位评分之间相关的信息。现得到12个学生的评分。见下表。,.,59,(斯皮尔曼rho系数算例),.,60,为了计算这两组评分之间的Spearman相关系数,需要将他们依序排列成两个系列。,.,61,根据公式计算得:说明对这12个学生来说,权威主义和地位欲之间的相关系数是0.82,.,62,3.肯特尔相关系数,n样本容量,i换位总次数,上图的例子,有,.,63,第三节回归分析的基本问题,回归分析的概念回归分析的主要内容回归分析的特点回归分析模型的种类,.,64,一、回归分析的概念,“回归”一词是由英国生物学家F.Galton在研究人体身高的遗传问题时首先提出的。根据遗传学的观点,子辈的身高受父辈影响,以X记父辈身高,Y记子辈身高。虽然子辈身高一般受父辈影响,但同样身高的父亲,其子身高并不一致,因此,X和Y之间存在一种相关关系。一般而言,父辈身高者,其子辈身高也高,依此推论,祖祖辈辈遗传下来,身高必然向两极分化,而事实上并非如此,显然有一种力量将身高拉向中心,即子辈的身高有向中心回归的特点。“回归”一词即源于此。,.,65,回归:退回regression,1877年弗朗西斯高尔顿爵士遗传学研究回归线,.,66,回归分析的概念及实质,1.回归分析概念:是对具有相关关系的两个或两个以上变量之间的数量变化进行数量测定,配合一定的模型,以便对因变量进行或预测的一种统计分析方法。2.回归分析的实质:是在相关分析的基础上,研究现象间的数量变化规律。,.,67,二、回归分析与相关分析的关系,(1)相关分析中,变量x变量y处于平等的地位,毋需确定自变量、因变量,而回归分析必须区别。(2)相关分析中所涉及的变量x和y都是随机变量;回归分析中,因变量y是随机变量,自变量x可以是随机变量,也可以是非随机的确定变量。(3)相关分析主要是描述变量之间有无关系?密切程度如何?回归分析则进一步揭示变量x对变量y的影响大小,并可以由回归方程进行预测和控制。,.,68,三、回归分析的内容,(一)根据研究目的和变量间的内在联系,确定自变量和因变量(二)确定回归分析模型的类型及数学表达式(三)对回归分析模型进行评价(四)根据自变量的给定值确定因变量的数值,.,69,四、回归分析的特点,(一)在众多变量中,必须确定一个为因变量,其余为自变量;(二)在没有明显因果关系的两个变量中,可求得两个回归方程;(y对x或x对y皆可)(三)回归方程的作用在于以自变量估计因变量的可能值或限定因变量的范围来推断自变量的控制范围;(四)自变量的系数为回归系数。符号正则表示变量间正相关,负则表示变量间负相关。(五)相关分析中两变量都是随机的,回归分析中因变量是随机的,但自变量是给定的。,.,70,五、回归模型的类型,.,71,第四节回归分析的模型及方程,一、简单线性回归模型二、回归估计标准误及判定系数三、非线性回归模型五、多元线性回归模型,.,72,一、简单线性回归模型,简单线性回归含义:就是对具有显著直线相关的两个变量间数量变化的一般关系进行测定,配合一个直线回归方程,以便于估计或预测的统计方法。(一)简单线性回归方程一个因变量和一个自变量的线性方程,回归方程为:其中i为相互独立,且都服从N(0,2)的随机变量。估计方程为:其中a、b是的估计值,.,73,(二)方程的参数估计,需估计出待定系数a和b的值,方法为最小二乘法:使实际值与理论值的离差平方和最小。即:注:回归方程不具有可逆性,b回归系数:每增加(减少)一个单位的自变量,因变量平均增加(减少)b个单位。,.,74,例:有10个同类企业的生产性固定资产资产年均价值和工业增加值资料如下:,计算相关(1)计算相关系数,说明两变量相关的方向和程度(2)编制直线回归方程,指出方程参数的经济意义,以工业增加值为因变量。,.,75,.,76,.,77,.,78,(一)离差平方和的分解,因变量y的取值是不同的,y取值的这种波动称为变差。变差来源于两个方面由于自变量x的取值不同造成的(即X与Y的依存关系影响的偏差)除x以外的其他因素(如x对y的非线性影响、测量误差等)的影响对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差来表示,二、回归估计标准误及确定系数,.,79,图示,.,80,离差平方和的分解(三个平方和的关系),2.两端平方后求和有,从图上看有,SST=SSR+SSE,.,81,.,82,.,83,离差平方和的分解(三个平方和的意义),总平方和(SST)反映因变量的n个观察值与其均值的总离差回归平方和(SSR)反映自变量x的变化对因变量y取值变化的影响,或者说,是由于x与y之间的线性关系引起的y的取值变化,也称为可解释的平方和残差平方和(SSE)反映除x以外的其他因素对y取值的影响,也称为不可解释的平方和或剩余平方和,.,84,(二)回归估计标准误公式,回归方程的一个重要作用在于根据自变量的已知值估计因变量的理论值(估计值)。而理论值yc与实际值y存在着差距,这就产生了推算结果的准确性问题。如果差距小,说明推算结果的准确性高;反之,则低。为此,分析理论值与实际值的差距很有意义。为了度量y的实际水平和估计值离差的一般水平,可计算估计标准误差。估计标准误差是衡量回归直线代表性大小的统计分析指标,它说明观察值围绕着回归直线的变化程度或分散程度。,.,85,(二)回归估计标准误公式,接前例的数据得:,.,86,回归估计标准差与标准差、抽样标准误一、回归估计标准误与标准差:两者的计算原理是一致的,两者都是反映平均差异程度和表明代表性的指标。标准差的公式为:二、回归估计标准误与抽样标准误抽样标准误的公式为:,.,87,点估计(预测)回归估计的预测区间估计(预测),.,88,(三)回归估计的置信区间,1.意义:根据回归估计标准误进一步对因变量y进行估计或推断,确定y的回归估计置信区间。2.两个假设:(1)y的实际观测值在估计值周围呈正态分布即正态性;(2)所有的正态分布具有相同的标准差,即同方差性。3.表示形式:当x取某一数值时,单个y值的95%、99%置信区间分别为:,.,89,(1)计算回归估计标准误(2)估计生产性固定资产为1100万元时,工业增加值的可能值(给出点估计和区间估计值,a=0.05),.,90,.,91,当X=1100万元时,点估计Y=395.59+0.8958*1100=1380.97万元区间估计:a=0.05t=1.96Syx=126.6528t*Syx=248.2395区间为1380.97-248.2395,1380.97+248.23951142.73,1629.21,.,92,置信区间、预测区间、回归方程,.,93,(四)判定系数和相关系数,回归平方和占总离差平方和的比例,反映回归直线的拟合程度取值范围在0,1之间r21,说明回归方程拟合的越好;r20,说明回归方程拟合的越差判定系数等于相关系数的平方,即r2(r)2表明因变量Y的方差可由自变量X的方差所解释的程度,或表明Y的方差中多大程度由X原因所引起。,.,94,(四)判定系数和相关系数,公式变形:几个变量间的关系:,.,95,.,96,例:已知LXX=6.5,LXY=10,a=3.6,试编制直线回归方程。回归方程为:,.,97,检查五位同学统计学的学习时间与成绩分数如下表所示:,根据资料:(1)建立学习成绩(Y)倚学习时间(X)的直线回归方程;(2)计算估计标准误;(3)计算出学习时数与学习成绩之间的相关系数。,.,98,.,99,例:某地区家计调查资料得到,每户平均年收入为6800元,均方差为800元,每户平均年消费支出为5200元,方差为40000元,支出对于收入的回归系数为0.2,要求(1)计算收入与支出的相关系数(2)拟合支出对收入的回归方程(3)估计年收入在7300元时的消费支出(4)收入每增加1元,支出平均增加多少元?,.,100,三、非线性回归,1.因变量y与x之间不是线性关系2.可通过变量代换转换成线性关系并非所有的非线性模型都可以化为线性模型用最小二乘法求出参数的估计值,.,101,几种常见的非线性模型,指数函数,线性化方法两端取对数得:lny=ln+x令:y=lny,则有y=ln+x,基本形式:,图像,.,102,几种常见的非线性模型,幂函数,线性化方法两端取对数得:lgy=lg+lgx令:y=lgy,x=lgx,则y=lg+x,基本形式:,图像,.,103,几种常见的非线性模型,双曲线函数,线性化方法令:y=1/y,x=1/x,则有y=+x,基本形式:,图像,.,104,某商店各个时期的商品流通费率和商品零售额资料如下:,散点图显示出x与y的变动关系为一条递减的双曲线。经济理论和实际经验都可说明,流通费率决定于商品零售额,体现着经营的规模效益。,.,105,双曲线方程为:,.,106,.,107,几种常见的非线性模型,对数函数,线性化方法x=lgx,则有y=+x,基本形式:,图像,.,108,几种常见的非线性模型,S型曲线,线性化方法令:y=1/y,x=e-x,则有y=+x,基本形式:,图像,.,109,非线性回归(实例),【例】为研究生产率与废品率之间的关系,记录数据如下表。试拟合适当的模型。,.,110,非线性回归(实例),生产率与废品率的散点图,.,111,非线性回归(实例),用线性模型:y=01x+,有y=2.671+0.0018x用指数模型:y=x,有y=4.05(1.00

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论