统计学第六章--相关分析ppt课件_第1页
统计学第六章--相关分析ppt课件_第2页
统计学第六章--相关分析ppt课件_第3页
统计学第六章--相关分析ppt课件_第4页
统计学第六章--相关分析ppt课件_第5页
已阅读5页,还剩68页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

.,第八章相关分析与回归分析,第一节相关分析的意义和任务第二节简单线性相关分析第三节回归分析第四节估计标准误差,.,学习目的与要求,学习目的:通过本章学习,了解现象的相关关系以及相关与回归的关系。掌握相关系数的计算方法,掌握一元线性回归分析,了解常规曲线分析的基本方法。学习要求:课前预习,课后复习,上课认真听讲,有疑问随时提出,及时完成课后练习。,.,问题的提出:,联系与相互影响是普遍的现象,事物相互间关系的质的解释:自然的、社会的、经济的、心理的,事物相互间关系的量的分析:两变量或多变量间的数量关系。,第一节相关分析的意义和任务,.,出租汽车费用与行驶里程:总费用=行驶里程每公里单价,家庭收入与恩格尔系数:家庭收入高,则恩格尔系数低。,确定性关系函数关系,非确定性关系相关关系,.,19世纪德国统计学家恩格尔根据统计资料,对消费结构的变化得出一个规律:一个家庭收入越少,家庭收入中(或总支出中)用来购买食物的支出所占的比例就越大,随着家庭收入的增加,家庭收入中(或总支出中)用来购买食物的支出则会下降。推而广之,一个国家越穷,每个国民的平均收入中(或平均支出中)用于购买食物的支出所占比例就越大,随着国家的富裕,这个比例呈下降趋势。,.,食物支出变动百分比食物支出对总支出的比率(R1)总支出变动百分比或食物支出变动百分比食物支出对收入的比率(R2)收入变动百分比R2又称为食物支出的收入弹性。,恩格尔定律的公式:,.,恩格尔系数是根据恩格尔定律得出的比例数,是表示生活水平高低的一个指标。其计算公式如下:食物支出金额恩格尔系数总支出金额除食物支出外,衣着、住房、日用必需品等的支出,也同样在不断增长的家庭收入或总支出中,所占比重上升一段时期后,呈递减趋势。,恩格尔定律是根据经验数据提出的,它是在假定其他一切变量都是常数的前提下才适用的,因此在考察食物支出在收入中所占比例的变动问题时,还应当考虑城市化程度、食品加工、饮食业和食物本身结构变化等因素都会影响家庭的食物支出增加。只有达到相当高的平均食物消费水平时,收入的进一步增加才不对食物支出发生重要的影响。,.,国际上常常用恩格尔系数来衡量一个国家和地区人民生活水平的状况。根据联合国粮农组织提出的标准,恩格尔系数在59%以上为贫困,50-59%为温饱,40-50%为小康,30-40%为富裕,低于30%为最富裕。在我国运用这一标准进行国际和城乡对比时,要考虑到那些不可比因素,如消费品价格比价不同、居民生活习惯的差异、以及由社会经济制度不同所产生的特殊因素。对于这些横截面比较中的不可比问题,在分析和比较时应做相应的剔除。另外,在观察历史情况的变化时要注意,恩格尔系数反映的是一种长期的趋势,而不是逐年下降的绝对倾向。它是在熨平短期的波动中求得长期的趋势。,.,一、函数关系与相关关系的概念(一)确定性的函数关系:,设有两个变量x和y,变量y完全依赖于变量x,则称y是x的函数,记为y=f(x),其中x称为自变量,y称为因变量。,一一对应的确定关系,现象之间存在一种严格的依存关系。当自变量确定时,因变量(另一个与之有联系的现象)按照一定的规律,总有唯一确定的值与之对应。,客观现象总是普遍联系和相互依存的。它们之间的数量联系存在着两种不同的类型:一种是函数关系;另一种是相关关系。,.,显著一一对应关系,圆的面积(S)与半径之间的关系可表示为:,函数关系可以用数学表达式来反映,函数关系的例子:,.,变量间确实存在、但数量上不固定的相互依存关系。这种关系不能用函数关系精确表达;即变量x取某个值时,与之相关的变量y的取值可能有若干个(一个变量的取值不能由另一个变量惟一地确定),(二)随机性的相关关系:,不存在一一对应的依存关系。,.,现象不存在间一一对应的依存关系,相关关系的例子:,原材料消耗额与产量、单位产品消耗、与产量价格之间的的关系商品销售额(y)与广告费支出(x)之间的关系粮食亩产量(y)与施肥量(x1)、降雨量(x2)、温度(x3)之间的关系收入水平(y)与受教育程度之间的关系(x)父亲身高(y)与子女身高(x)之间的关系投资额与国民收入的关系等等都属于相关关系,.,二、相关关系的种类,按影响因素多少分:单相关:两个变量间相关复相关(多重相关、和偏相关)按表现形态分:直线相关曲线相关按相关关系的方向分:正相关负相关按相关密切程度分:完全相关不完全相关不相关按变量之间的依存关系分:单向依存关系互为因果关系,.,1、按相关关系涉及的因素(自变量)多少分为:单相关:(也称一元相关)两变量之间的相关关系如Y=a+bX复相关:(也称多元相关)三个(或以上)变量之间的相关关系如产品成本与产量、原材料单耗、原材料单价之间的关系.某种商品的需求与其价格水平以及人们收入水平之间的相关关系便是一种复相关。,.,2、按相关的表现形态分为:,直线相关:两个变量之间,当自变量X值发生变动时,因变量Y值发生大致均等的变动。在相关图上观察点的分布大致呈现为一条直线。,曲线相关:两个变量之间,当自变量X值发生变动时,因变量Y值发生不均等的变动。在相关图上观察点的分布表现为抛物线、双曲线、指数曲线等非线性形式。,如商品销售额与销售量,如年龄与医疗费支出,.,3、按相关方向分为:正相关:两个变量的变动方向大体上相同时,即自变量X值增加(或减少),因变量Y也相应的增加(或减少)如家庭消费支出随收入增加而增加。负相关:两个变量的变动方向相反。即自变量X值增加(或减少),因变量Y随之相应的减少(或增加)如商品价格降低,其销售量会增多。如产量规模越大,单位产品成本越低。,.,4、按相关关系情况分单向因果关系:两个变量之间,只能是自变量X值决定或影响因变量Y值,而不能是因变量Y决定或影响自变量X。,如父母的身高影响孩子的身高,互为因果关系:两变量之间,自变量X与因变量Y相关,且互相影响对方,均可被定为自变量,如物价变动与工资变动,.,5、根据相关密切程度分完全相关:两种现象中一个现象的数量变化,另一现象的数量变化而确定。即函数关系如S=R2,函数关系是相关关系的一个特例,.,不相关:两种现象的数量各自独立,互不影响。,如家庭收入多少与孩子多少之间不存在相关关系,股票价格的高低与气温的高低是不相关的。,.,不完全相关:两种现象之间的关系,介于完全相关和不相关之间。,如农作物产量与播种面积之间的关系。,.,相关关系的图示,.,三、相关分析的主要内容,(一)确定现象之间有无关系及相关关系的表现形式(二)确定相关关系的密切程度1、定性认识:受判断者的经验、学识、能力等因素的影响2、编制相关表和相关图(三)选择合适的数学模型(四)测定变量估计值的可靠程度(五)对相关系数进行假设检验,.,第二节简单线性相关分析,一、相关图和相关表相关表与相关图是研究相关关系的直观工具,在进行定量分析之前,可利用其对研究现象之间存在的相关关系的方向、形式和密切程度作判断。,(一)相关表:是一种反映变量之间相关关系的统计表。将一个变量(一般为自变量)按大小顺序排序,然后再将另一个变量(一般为因变量)的对应值排列而成的表格。,.,某地居民家庭月收入和消费支出原始资料,单位:元,排列整理后的相关表:,可见,随着家庭月收入的提高,居民的消费支出也有相应提高的趋势,两者之间存在明显的正相关关系。,.,(二)相关图(也称散点图),家庭月收入,消费支出,一般以直角坐标系的横轴代表变量X,纵轴代表变量Y,将两个变量间相对应的变量值用坐标点的形式描绘出来,用来反映两变量之间相关关系的图形。,.,(一)相关系数测定积差法,公式:,自变量数列和因变量数列的协方差,自变量数列的标准差,因变量数列的标准差,二、相关系数的测定,相关系数:在直线相关条件下,说明两个变量之间相互关系密切程度的统计指标。若相关系数是根据总体全部数据计算的,称为总体相关系数,用;如是根据样本数据计算的,则称为样本相关系数,用,.,协方差:两个变量与其均值离差乘积的平均数,是相互关系的一种度量。,对协方差的理解,.,.,相关图中的两条线代表平均线,由这两条线,即可对于每个点作出判断。,如果时,对应,说明这个点属于正相关。此时为正数。,如果时,对应,说明这个点属于正相关。此时也为正数。,如果时,对应,说明这个点属于负相关。此时为负数。,如果时,对应,说明这个点属于负相关。此时也为负数。,如果或时,说明这个点属于零相关。,所以,根据的乘积为正数,为负数或为零,可以判断各相关点是属于正相关、负相关或零相关。,首先,判断每个相关点是正相关,负相关还是零相关,以两个平均值为标准来判断,.,会有几种情况出现:,3、所有的点既有正相关,又有负相关(也可以由零相关)。加总的结果正数和负数会发生抵消。抵消的结果如为正数,则为正相关,如为负数,则为负相关。,其次,根据离差乘积总和判断两现象属于哪一种相关形式。,1、所有点全是正相关,则加总的结果为正数。,2、所有点全是负相关,则加总的结果为负数。,.,再次,从离差乘积总和中消除项数多少的影响。,离差乘积总和受项数多少的影响。项数多,数值可能大;项数少,数值可能小。,最后,从协方差中消除消除变量值大小和离差值大小的影响,协方差是用绝对数表现的平均值。其数值大小和变量值本身数值的大小有关系。也就是和离差数值大小有关系,和采用什么样的计量单位也有关系。,.,协方差为大的正值时,表示强的正线性相关关系。,协方差接近于零时,表示很小或没有线性相关关系。,协方差为大的负值时,表示强的负线性相关关系。,对协方差的理解,似乎是这样,cm,kg,mm,kg,基本结论:协方差受计量单位影响,从而不能真实反映相关的程度。,.,将公式展开:,.,.,居民家庭月收入和消费支出相关系数,单位:百元,.,相关系数的简捷计算方法,积差法在相关系数在计算过程中要使用两个数列的平均值,这两个平均只可能成为除不尽的小数。计算麻烦且准确性会受到影响。,.,简化式,通过对基本公式的变形简化,可以不计算离差直接根据历史资料计算相关系数。虽然公式复杂了些,但计算过程却大为简化。,.,居民家庭月收入和消费支出相关系数,.,21429,15571,29751,349,465,合计,5980,4225,8464,65,92,10,5280,3600,7744,60,88,9,3975,2809,5625,53,75,8,2604,1764,3844,42,62,7,1440,1296,1600,36,40,6,840,784,900,28,30,5,500,400,625,20,25,4,360,324,400,18,20,3,270,225,324,15,18,2,180,144,225,12,15,1,消费支出y(百元),月收入x(百元),编号,居民家庭月收入和消费支出相关系数,r=0.99,包含了两方面的内容:即两个变量相关的方向和相关的程度。正负号说明了相关的方向,具体数字说明了相关的程度,.,r的取值范围是1,1,相关系数的性质,(1)0r1:正线性相关(2)-1r0:负线性相关(3)r=0:线性无关(4)r=1:完全正线性相关(函数关系)(5)r=-1:完全负线性相关,.,相关系数的判断标准:,r0.8:强相关(高度相关)0.5r0.8:中度相关(显著相关)0.3r0.5:弱相关(低度相关)r0.3:不相关(无相关),当计算相关系数的原始资料较多时,比如50个以上,上述相关程度的等级是可信的。但是,如果计算相关系数所依据的历史资料较少,则相关等级的可信度将会降低。此时,判断相关等级的起点应该提高,要以0.4或0.5为起点,这样判断相关等级的结果才会于实际情况相吻合。,.,相关关系不等于因果关系;相关系数只度量变量间的线性关系,因此,弱相关不一定表明变量间没有关系;极端值可能影响相关系数。注意相关关系成立的数据范围。警惕虚假相关,使用相关系数时应注意的问题:,.,例1:P354页,第1题,即:X=24,Y=300,XY=1182,n=6,X2=106,Y2=15048,.,r=0.8216,包含了两方面的内容:即两个变量相关的方向和相关的程度。正负号说明了相关的方向,具体数字说明了相关的程度,.,第三节回归分析,一、回归分析的概念回归分析是指对具有高度相关关系的变量之间数量变化的一般关系进行测定,确定一个合适的数学模型,用来近似地表示变量间的平均变化关系的一种统计方法。,相关分析只能说明现象之间的相关方向和相关程度,但不能说明现象之间因果的数量关系。要了解现象之间的因果数量关系必须运用回归分析的方法。,.,回归:退回regression,英国统计学家弗朗西斯高尔顿与其学生皮尔逊进行遗传学研究。观察1078对夫妇,以每对夫妇的平均身高为X,成年儿子身高为Y绘成散点图-近乎一条直线得到回归方程:,回归分析:通过一个或几个变量的变化去解释另一变量的变化。包括找出自变量与因变量、设定数学模型、检验模型、估计预测等环节。,.,自变量:解释变量,给定的或可以控制的、用来解释、预测应变量的变量因变量:相应变量,由自变量来解释其变化的变量。,X,Y,.,二、回归分析的分类,(一)按照回归模型中变量个数分一元回归:包含一个自变量的回归模型多元回归:包含多个自变量的回归模型(二)按照回归曲线的形态分线性回归:变量之间的关系为直线型。非线性回归:变量之间的关系为曲线型。,.,三、直线回归,(一)简单直线回归分析,1、简单线性回归的特点,(2)根据研究目的确定在两个变量之间中,一个是自变量,是确定性变量,即可控变量;一个是因变量,是随机变量。,(3)两变量互为因果关系时,应同时建立两个回归方程。但两变量为单向因果关系时,只能建立一条回归方程。,(1)回归系数具有较强的经济含义。,.,Y倚X的直线方程:yc=a+bx因变量自变量X倚Y的直线方程:xc=c+dy因变量自变量,当两个变量互为因果关系时,可配合两条回归直线。,但当两个变量不是互为因果的关系时,则只能配合出一条回归直线。,注意:X和Y只能计算一个相关系数,.,2、回归方程的作用推算作用:给出自变量取值来推算因变量数值,3、简单回归方程的确定,简单回归直线方程的基本形式:,Y倚X的直线方程,X倚Y的直线方程,a、b、c、d都是待定参数,.,一元线性回归方程形式如下:,直线的斜率,表示当x每变动一个单位时,y的平均变动值,回归直线在y轴上的截距,是当x=0时y的期望值,回归系数根据最小二乘法计算,a、b也称回归参数或回归系数,最小二乘法的原理在时间数列一章中已经介绍过了,所不同的用x代替t,.,将方程式,代入,用最小二乘法拟合的直线来代表x和y之间的关系与实际数据的误差比其他任何直线都小。,.,21429,15571,29751,349,465,合计,5980,4225,8464,65,92,10,5280,3600,7744,60,88,9,3975,2809,5625,53,75,8,2604,1764,3844,42,62,7,1440,1296,1600,36,40,6,840,784,900,28,30,5,500,400,625,20,25,4,360,324,400,18,20,3,270,225,324,15,18,2,180,144,225,12,15,1,消费支出y(百元),月收入x(百元),编号,居民家庭月收入和消费支出回归方程计算表,表明家庭月收入每提高1个单位(百元),消费支出平均增加0.6398个单位(百元)。a=5.1493代表即使月收入为0的情况下,消费支出也需要5.1493(百元)。,预测:某家庭月收入为150百元,在其它条件相对稳定时,其消费支出为:,.,如果已用积差法计算了相关系数,有相应的资料,也可用如下方法求解。,.,居民家庭月收入和消费支出回归方程计算表,.,.,(二)多元线性回归分析在实际中,通常影响因变量的因素不只一个,而是很多。因此,我们必须应用两个或更多个自变量来估计因变量,这就叫多元线性回归分析。多元线性回归分析的步骤、方法和一元线性回归分析基本上是相同的,不过在计算上比较复杂。,.,二元线性回归方程:即以一个因变量y与两个自变量x1和x2的线性回归,其方程式为:yc=a+b1x1+b2x2yc为因变量估计值;a、b1、b2为三个待定参数。求解a、b1、b2的数值,也用最小平方法,.,解上述三元一次方程,即可得出a、b1、b2的值,分别对a、b1、b2求一阶偏导数,并令其等于0,就可得出如下三个方程:,.,yc=a+b1x1+b2x2+b3x3+bnxn,将上面的方法推广到多个自变量,设因变量y受n个自变量的影响,其回归方程为:,.,四、回归分析与相关分析的区别与联系,区别:,2、相关分析中所涉及的变量x和y都是随机变量;回归分析中,因变量y是随机变量,自变量x可以是随机变量,也可以是非随机的确定变量。,1、相关分析中,变量x、变量y处于平等地位。回归分析中,y为因变量,处在被解释的地位;x为自变量,用于解释和预测因变量的变化。,.,3、相关分析主要描述两个变量之间的密切程度,只能用一个相关系数表示。回归分析揭示变量之间数量变动的统计规律性,可以建立两个不同的回归方程。还可以进行预测和控制。,联系:,1、相分析是回归分析的基础。只有进行相关分析,确定变量之间具有较高的相关程度后,才可进行回归分析。,2、回归分析是相关分析的继续。即相关分析的最终目的是进行回归分析,.,21429,29751,349,465,合计,5980,8464,65,92,10,5280,7744,60,88,9,3975,5625,53,75,8,2604,3844,42,62,7,1440,1600,36,40,6,840,900,28,30,5,500,625,20,25,4,360,400,18,20,3,270,324,15,18,2,180,225,12,15,1,(y-y)2,Yc,消费支出y(百元),月收入x(百元),编号,居民家庭月收入和消费支出相关系数,c,直线回归是在直线相关条件下,反映变量之间一般数量关系的平均线。,根据自变量推算出的因变量数值不是精确的,仅是一个估计值,与实际值之间有一定差异。此外,用回归方程还要推算未知的值。,问题:推算(预测)的数值与实际数值之间相差有多大?这种差别大小能否反映回归直线的代表性?,.,第四节估计标准误差,一、估计标准误差的概念估计标准误差:(也称估计标准差、回归标准差)是因变量实际值(Y)与所配合直线模型上的理论值(Yc)之间的标准差。用以说明回归方程推算结果的准确程度的统计指标。说明平均线的代表性大小。,.,二、简单直线回归估计标准误差的测定,(一)根据因变量实际值和估计值的离差计算,估计标准误差,其下标yx代表y依x的回归方程,分母之所以是(n-2),而不是n,是因为根据资料用最小平方法求参数和b时,受两个标准方程的约束,失去了两个自由度。,.,21429,29751,349,4

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论