《统计学》教案第九章相关分析与回归分析_第1页
《统计学》教案第九章相关分析与回归分析_第2页
《统计学》教案第九章相关分析与回归分析_第3页
《统计学》教案第九章相关分析与回归分析_第4页
《统计学》教案第九章相关分析与回归分析_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第九章相关分析与回归分析第一节相关与回归分析的基本概念—、相关关系的概念一切客观事物都是互相联系的。而且每一事物的运动都和它周围的其他事物互相联系、互相影响。如年龄与人的生命力之间,消费品需求结构与屈民收入水平Z间,劳动生产率与产品成木Z间,投入与产出z间等等,都存在着一定的依存关系。客观现象之间存在的互相依存关系叫相关关系。对现象之间相关关系密切程度的研究,叫相关分析。相关关系具有如下两个特点:•现象Z间确实存在着数量上的依存关系。如果一个现象发生数量上的变化,则另一个现象也会相应地发生数量上的变化。例如商品流通费用増加,一般地讲,商品销售额也会随之而增加,反过來,如果商品销售额增加,一般情况下商品流通费用也会相应地增加;在互相依存的两个变量中,可以根据研究的目的,把其屮一个变量确定为自变量(原因变量),把另一个对应变化的变量确定为因变量(结果变量)。例如可以把身高作为自变量,则体重就是因变量,也可以把体重作为自变量,此吋身高就是因变量。现彖Z间数量上的关系是不确定、不严格的依存关系。相关关系的全称为统计相关关系,它属于变量之间的一种不完全确定的关系。这意味着一个变量虽然受另外一个(或一组)变量的影响,却并不由这一个(或一组)变量完全确定。例如,身高为1.7米的人其体重有许多个值;体重为60公斤的人,其身高也有许多个值;再如,产品单位成本和劳动生产率的水平变动Z间存在着一定的依存关系,但是除了劳动生产率的水平变动以外,述会受到原材料消耗、I占I定资产折旧、能源耗用以及管理费用等诸因索变动的影响,等等。故身高与体重Z间、产品单位成木和劳动生产率的水平变动Z间,均没有完全严格确定的数量关系存在。由此可见,相关关系是现象间客观确实存在的,但其数值是不严格、不完全确定的相互依存关系。相关关系与函数关系的区别:函数关系是变量Z间的一种严格、完全确定性的关系,即一个变量的数值完全由另一个(或一组)变量的数值所确定、控制。函数关系通常可以用数学公式确切地表示出來。例如:圆周长度L与圆半径间存在函数关系,关系式为L=2n「但相关关系一般不是完全确定的,对自变量的一个值,与之对应因变量的值不是唯一的。相关关系一般不能用数学公式准确地表示出來。函数关系与相关关系虽然是两种不同类型的变量关系,但是它们之间并无严格的界限,由于有测量误差等原I大I,确定性关系在实际应用中往往通过相关关系表现出来;反Z,当人们对事物的内部规律了解得更深刻的时候,相关关系又可能转化为确定性关系,即函数关系。必须注意到,作为研究对象的现象或事物Z间的关系,在任何情况下,都应该是客观真实,具有内在联系的关系,决不能是臆造,或只不过是形式上偶然的巧合。统计在研究相关关系时,应根据有关科学理论,通过大量的观察和试验,在对现彖进行深入分析的基础上,建立这种联系,并且述要经过理论和实践的进一步检验。只有这样,才会得到科学的结论。二、相关关系的种类(一) 、根据依存关系的情况划分1.因果关系。因果关系乂具体分为两类:①、单向依存关系。口变量、因变量区分明确,不能互和转化。例如合理的施肥量影响粮食产量,不是粮食产量影响施肥量,即施肥量是原因变量(自变量),粮食产量是结果变量(因变量)。②、互为因果关系。自变量、因变量区分不明确,可以互相转化。例如纤维的拉伸倍数与强度就是互为因果关系,在研究分析时,若以强度为口标,则强度就是因变量;若以拉伸倍数为目标,则强度就成为口变量了。2.分不清因果的依存关系。有些现象之间难以区分原因变量和结果变量。如工业增加值与耗屯量之间是有依存关系的,但是谁是因谁是果却不能明显分清。这种情况下,根据研究的需要,可以把某一个定为因变量,也可以把另一个定为因变量。(二) 、根据相关关系的方向划分1.止相关。正相关是指变量之间的变化方向一致,即都是呈增长或下降的趋势,如图9—1O2.负相关。负相关是变量之间变化趋势相反,即一个下降而另一个上升,或一个上升而另一个下降,如下图:图8-1正相关… 图8-2负相关(三) 、根据相关的形式不同划分.线性相关(直线相关)。当和关关系的一个变量变动时,另一个变量也和应地发生一致基木均等的变动,这种相关关系称为线性相关。.非线性相关(曲线相关)。当相关关系的一个变量变动时,另一个变量也相应地发生变动,但这种变动是不均等的,这种相关关系就称为非线性相关。(四) 根据和关的变量多少划分1•单相关。只有一个自变量。2.复相关。有两个及两个以上的自变量。(五)、按相关的性质划分可以分为:“真实相关”和“虚假相关”。三、相关分析的任务统计在研究相关关系时,相关分析的主耍任务,大致可以归纳为以下几点:确定现象之间有无关系。确定相关关系的表现形式。判定相关关系的密切程度和方向。现象之间的相关关系是一种不严格、不确定的数量关系,相关分析就是从这种松散的数量关系中,判定其相关关系的密切程度和方向。第二节简单相关分析相关关系的具体数量表现,首先要根据对客观事物的定性认识来判断。任何事物都有质的规定性,它表明了事物自身和其他事物的联系。对事物的这种质的规定性的认识和分析,就是定性分析。按照人们认识的一般顺序,先有对事物和现象的定性判断,才能据此进行量的分析和判断。一、相关表的编制将现象之间的相关关系,用表格形式来反映,这种表称为相关表。相关表的编制,-•般以x为自变量,y为因变量,把每个tl变量与其相应的因变量在表格中一一对应地排列。通过相关表可以初步看出相关关系的形式、密切程度和和关方向。例如,表9—1所示。从表9—1可以粗略看出,随着生产性固定资产的增长,则其工业增加值呈增长的趋势。表9-1 单位:百万元企业编号生产性固定资产价值X工业增加值y1315242036254825583069307929893491037101141和关图如卜:工业增加值y工业增加值y♦工业增加值y相关图形二、相关图的绘制将现象之间的关系,通过图象来表示,这种图象称为相关图。在坐标图上,以横轴表示口变量,纵轴表示因变量,标出每对变量值的坐标点(散布点),表示其分布状况的图形即为相关图。相关图又称为散点图、散布图。通过相关图,可以大致看出两个变量之间有无相关关系及相关的形态、方向和密切程度。其判断方法如下:•强正相关。若变量x的数值增大时,变量y的数值也明显地增大,相关点的分布集中呈直线形状,则说明这两个变量间是强止相关,如图8-30.弱正相关。若变量x的数值增大时,变量y的数值也增大,但其相关点的分布比较分散,则表明这两个变量间是弱正相关,如图8—4。图8-3强正相关•强负相关。若变量x的数值增大时,变量y的数值显著地减小,和关点的分布集中呈直线状,则反映了这两个变量间的强负相关,如图8-5o.弱负相关。若变量x的数值増大时,变量y的数值趋于下降,但相关点的分布较松散,则说明这两个变量间的弱负相关,如图8—6o•非线性相关(曲线相关)。若变量X的数值增大时,各相关点的分布呈曲线状,则表明这是非线性相关,如图8-7o.不相关。若图像上各相关点很分散,则说明变量x和变量y之间没有相关关系,如图8-8o图8-7曲线相关三、相关系数的计算(一)、相关系数的概念1、 .相关系数的含义。相关系数是在线性相关条件下,说明两个现彖Z间相关关系的方向和密切程度的统计分析指标。通常用「来表示。相关系数比相关图更能概括表现相关的形式和程度。根据相关系数的大小,或把若干相关系数加以对比,可以发现现象发展中具有决定意义的因素,因而相关系数对于判断变量之间相关关系的密切程度,有其重要作用。相关系数的取值范围。相关系数的数值范围,是在一1和+1之间,即一lWrW+1。计算结果r>0为止和关,rvO为负相关。相关系数r的数值越接近T1(-1或+1),则表示相关关系越强;越接近于0,则表示相关关系越弱。如果「=1或!*=—1,则表示两个现象完全直线相关。如果r=0,则表示两个现象完全不相关(不是直线相关)。但需要注意的是,r只表示x与y的直线和关密切程度。当Irl很小甚至等于0时,并不一定表示x与y之间就不存在其他非直线类型的关系。(二)、相关系数的计算相关系数的定义公式为:式中:M表示资料项数;X表示兀变量数列的算术平均数;7表示y变量数列的算术平均数;表示兀变量数列的标准差;表示y变量数列的标准并;b;表示x,y两个变量数列的协方差。定义公式整理可写成:_ 工(兀一x)(y-y)J工(x_兀尸・_y)?由于它是通过将各个离差相乘的方法來说明相关程度的,所以通常把这种相关系数的公式叫做“积差法”相关系数公式。上式数值计算时使用了匚和亍,计算既麻烦又影响准确性。在实际应用屮,可根据原始变量的数值计算,运用相关系数简捷法。W:J几工/_(工兀)2.J〃工y2_(》)y此式可以不用计算两个变量数列的平均值与标准并,不仅节约了工作量,而口可以减少计算平均值除不尽时所带来的误差。如果设:S二工(兀-切2Lv>=ZCy-?)2S二工(兀-恥-刃则相关系数公式可写成:从此式中可以看出丁取正值或负值决定于分子厶秽,当厶弓为正时,得出r为正相关,当厶V),为负值,得出厂为负相关。要理解相关系数r中协方并的作用和变量标准并的作用。1.协方差(厶小)的作用。显示兀与y是正相关还是负相关相关系数的正负号完全决定协方差的正负号,因此当相关系数为正数时为正相关,当相关系数为负数时为负相关。显示兀与〉,相关程度的大小协方差的绝对值小,表示相关程度低,协方并的绝对值大,表示兀与y的和关程度高。2•标准差乙和勺的作用。在相关系数定义公式中将协方差除以乙,,它的实际作用在于对兀、y与各自平均数的离差,分别用齐自的标准差为尺度加以标准化,然后再求标准差的协方差。即/—\x-Xy-y<6丿15丿n经过离并标准化后再求其协方并,有两点优点:无,y协方差是名数,不同现象的变异情况不同,相关程度不能直接以协方差大小加以比较。标准化结果使协方差化为无名数,相关系数可以比较不同现彖相关程度的高低。x,y协方差和数值可以无限增多或减少,不便于说明问题。将变量离差标准化,使相关系数的绝对值不超过1,即"IW1一般可对相关系数作如下判断:相关系数的绝对值Irl在0.3以下是无直线相关;0.3〜0.5是低度直线和关;0.5〜0.8是显著相关(中等程度相关);0.8以上是咼度相关。例题计算相关系数。参考教材184页第三节一元线性回归分析—、回归分析的概念相关关系说明现象间有无关系,但它不能说明一个现象发生一定量的变化时,另一个变量将会发生多大量的变化。也就是说,它不能说明两个变量Z间的一般数量关系值。冋归分析是对具有相关关系的现象,根据其关系形态,选择一个合适的数学模型(称为回归方程式),用来近似地表示变量间的平均变化关系的一种统计分析方法。它实际上是相关现象间不确定、不规则的数量关系一般化、规则化。采用的方法是配合直线或曲线,用这直线或曲线來代表现象Z间的一般数量关系。这条直线或曲线叫回归直线或回归曲线,它们的方程式叫宜线回归方程或曲线回归方程。回归分析与相关分析的区别与联系:1、.回归分析与相关分析的区别。①和关分析所研究的两个变量是对等关系,冋归分析所研究的两个变量不是对等关系,必须根据研究目的,先确定其中一个是自变量,另一个是因变量。对两个变量兀和y來说,相关分析只能计算出一个反映两个变量间相关密切程度的相关系数,计算中改变兀和y的地位不影响相关关系的数值;回归分析有时可以根据研究目的不同分别建立两个不同的回归方程。以兀为自变量,y为因变量,可以得出y倚兀的冋归方程。以y为口变量,兀为因变量,可得出兀倚y的回归方程。相关分析对资料的要求是,两个变量都必须是随机变量,而冋归分析对资料的耍求是,自变量是可以控制的变量(给定的变量),因变量是随机变量。2、.回归分析与相关分析的联系。和关分析是冋归分析的基础和前提。如果缺少和关关系,没有从定性上说明现象间是否具有相关关系,没有对相关关系的密切程度作出判断,就不能进行冋归分析,即便勉强进行了冋归分析,也是没有实际意义的。回归分析是相关分析的深入和继续。仅仅说明现象间具有密切的相关关系是不够的,只有进行了回归分析,拟合了回归方程,才可能进行有关分析的回归预测,和关分析才有实际的意义。因此,如果仅有回归分析而缺少相关分析,将会因为缺乏必耍的基础和前提而影响回归分析的可靠性;如果仅有相关分析而缺少冋归分析,就会降低相关分析的意义。只有把两者结合起來,才能达到统计分析的目的。二、一元线性回归模型的建立(一)、一元线性回归模型的概念通过相关系数,只能了解因变量和自变量相关关系的密切程度和方向,但是不能用来根据自变量的变动估计因变量的变动。为了根据某一因素的数值来估计另一因素的数值,根据已知推求未知,就需要进行回归分析。一元线性回归模型乂称简单直线回归模型,它是根据成对的两种变量的数据,配合直线方程式,根据口变量的变动,來推算因变量发展趋势和水平的方法。它是研究相互关联的两种经济现象数量变动依存关系的一种方法。当两种变量互为I大I果关系时,可以用两条宜线方程表示,一条是y倚x的冋归直线方程式以),兀为自变量,y为因变量。$为y的理论值,用来由兀推算另一条是兀倚y的回归直线方程式(f=c+dy),y为自变量,兀为因变量。为兀的理论值,用来由y推算庆在两种回归方程中,只是兀和y的位置互换罢了,实际上其计算方法是一致的。在两种变量只有单方面的因果关系时,只能用一个回归方程式表示,一般是y对兀的冋归直线方程式。其模型为:y=a+bx式中,d表示直线在y轴上的截距,代表经济现彖经过修匀的基础水平;b表示直线的斜率,称为y对x的回归系数,表明兀每变动一个单位时,影响y平均变动的数量;d和b表示确定冋归直线模型的两个待定参数。(二)、最小平方法原理配合回归直线模型。应用最小平方法(最小二乘法)原理确定两个待定参数。和b的数值,配合直线模型,可以使实际值与理论离并的代数和等于零,即工(y-$)=0;使离并的平方和为最小,即X(>f-y)2=min0因而最有代表性,是最佳的冋归直线模型。

y=a+bx式中,X表示生产性固定资产价值;y表示工业增加值;$表示其理论值。根据最小平方法原理,可以应用下列标准方程组,来求解q和b的数值:解联立方程式得岀:VyVx一-a= b- =y~bxn n心-(D)2例题计算如下:现根据表9—1资料,生产性固定资产价值与工业增加值资料,说明其求解过程。计算过程如门表9—2回归直线模型计算表企业编号固定资产x(百万元)T业增加值y(百万元)9兀-与八y131594517.7982232096017.98235252512523.857046253615026.886456303618026.886467304921029.915878296423232.945289368132435.974699378133335.974610104010040039.0040合计662874902059287.0404首先,根据表中合计栏的资料求出标准方程组中所需数据。其次,将求出的数据代入方程中,求出b的值:b=3.02941=8.71再次,将d、b的值代入冋归方程得:$=8.71+3.()294x最后,由回归方程可得相应的回归估计值,如表$所示。简捷计算可以参考教材190页例题9—2。三、直线回归模型的预测如果其他条件相对稳定,则可以根据建立的宜线回归方程进行推算和预参考教材192页例题9—3的计算。四、估计标准误差(一) 、估计标准误差的概念估计标准误差是用来说明回归方程代表性大小的统计指标。可简称为估计标准差或估计标准误,其计算原理与标准差基本相同。估计标准误差说明理论值(回归线)的代表性。若估计标准误差小,表明回归方程准确性高,代表性大;反之,估计不够准确,代表性小。(二) 、估计标准误差的计算及作用1、估计标准误差的计算.根据定义公式计算:估计标准误差,指因变量实际值与理论值离差的平均数。其定义公式为:式中,S、,表示估计标准误差;斤表示数据的项数。.根据回归直线方程屮的参数心b计算。①、资料未分组的计算公式为:②、资料已分组的计算公式为:、利用估计标准误差与相关系数的关系推算。这两个指标在数量上具有如下关系:式中,厂表示相关系数;表示因变量数列的标准并;Sy表示估计标准误差。在实际应用中,一般不常用这种方法计算相关系数,因为这种计算方法存在两个问题:①需要先求出回归直线方程,计算出估计标准谋差,才能求得相关系数。而从一般的认识程序来看,只有相关关系密切的情况下,计算回归方程才有意义;如果关系不密切,下一步计算就不必要了,因而要求先计算相关系数以判断相关关系的密切程度。②这种计算方法得出的厂,难以判断是正相关还是负相关。从Sy与厂相联系的两个公式小可以看出,厂和Sy的变化方向是相反的。当广越大时,Sy越小,这时相关密切程度较高,回归直线的代表性较大;当厂越小时,Sy越大,这时相关密切程度较低,冋归直线的代表性较小。2、估计标准误差的作用、可以说明回归方程估计值的准确程度的高低。Sy越小,说明估计的准确程度越高;反之,则估计的准确程度越低。、说明冋归方程代表性的大小。、可以说明X与y相关密切程度的大小。、相关与回归分析中应注意的问题1、 在定性分析的基础上进行定量分析在定性分析的基础上进行定量分析,是保证止确运用和关分析和冋归分析的必耍条件。也就是在确定哪些变量作自变量,哪些变量作因变量之前,必须对所研究的问题有充分正确的认识。相关分析的方法解释不了相关关系产生的原I大I,它本身不能判断现象Z间是否存在相关关系。欲确定这些问题,必须依靠对现象的定性分析。若把本来没有内在关系的现象硬要进行相关分析,将导致“虚假相关”的错误。若据以进行推算预测,并用以指导实际工作,则会造成损失。2、 要注意现象质的界限及相关关系作用的范围在进行相关分析和冋归分析时要注意现象质

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论