第7章__相关与回归分析_第1页
第7章__相关与回归分析_第2页
第7章__相关与回归分析_第3页
第7章__相关与回归分析_第4页
第7章__相关与回归分析_第5页
已阅读5页,还剩111页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第七章 相关与回归分析,相关分析 一元线性回归 多元线性回归 回归分析的其他问题,学习目标,掌握两个或多个变量之间相关关系的分析方法。 能够根据收集到的数据估计一元和多元回归方程,并对结果进行解释。 掌握回归分析模型的各类检验方法。,7.1 相关分析,函数关系与相关关系 相关分析与回归分析 散点图 相关系数,函数关系与相关关系,当一个变量取一定数值时,另一个变量有确定值与之相对应,这种关系称为函数关系。 当一个变量取一定数值时,与之相对应的另一变量的数值虽然不确定,但它仍按某种规律在一定的范围内变化,这种关系称为相关关系。 对相关关系的分析是统计学的重要研究内容。 主要研究方法:相关分析和与回归分析。,相关分析与回归分析,相关分析(Correlation Analysis)研究变量之间相关的方向和相关的程度,但无法给出变量间相互关系的具体形式,因而无法从一个变量推测另一个变量。,回归分析(Regression) 可以确定变量之间相互关系的具体形式(回归方程),确定一个变量对另一个变量的影响程度,并根据回归方程进行预测。,相关分析的类型,根据相关关系的类型和程度可以有以下分类:,散点图 Scatter Diagram,散点图是观察两个变量之间的相关程度和类型最直观的方法。 散点图是在直角坐标系中用相对应的两个变量值作为图中一个点的横坐标和纵坐标描点得到的图形。,自变量和因变量,如果两个变量中一个变量是另一个变量变化的结果,那么 代表原因的变量称为自变量 Independent (Explanatory) Variable, 代表结果的变量称为因变量 Dependent (Response) Variable 。 在散点图中习惯上把因变量绘制在纵轴上。,用散点图观察变量之间的相关关系,例题7.1,教材中的表7.1是 1985-2007年北京市城镇居民人均年消费性支出(变量Y)和人均年可支配收入(变量X)的有关资料,请对X和Y变量进行相关分析 。,散点图,相关系数的计算及其检验,相关系数(Coefficient of Correlation)是用来衡量变量之间相关程度的指标,根据变量的多少和属性可以有多种不同的计算方法。 衡量两个定量变量之间线性相关程度的常用指标是皮尔逊( Pearson)相关系数。 通常以表示总体的相关系数,以r表示样本的相关系数。,总体相关系数的定义式是: 样本相关系数的定义公式是:,相关系数的计算及其检验,相关系数的计算,相关系数r 的特征,当r0时,X与Y为正相关;当r0时,X与Y为负相关。 没有单位,取值介于1与1之间。 绝对值越接近1说明关系越密切。r1为完全正相关,而r1为完全负相关。 注意:当r=0时,只是表明两个变量之间不存在线性关系,它并不意味着X与Y之间不存在其他类型的相关关系。,相关系数的显著性检验,样本相关系数r受到抽样波动的影响,是一个随机变量。 相关系数非常高的样本也有可能来自无相关关系的总体。为了排除这种情况,需要对相关系数进行假设检验。,样本能代表总体吗?,如果红色的点碰巧为你的样本,则样本相关系数为0.907,总体相关系数为0.00005,相关系数的显著性检验,1、提出假设:H0: ;H1: 0,2、 计算检验的统计量:,3、 确定显著性水平,并作出决策 若 t t,拒绝H0 或者:若p值a ,拒绝H0,检验的步骤是:,计算结果: t检验值为 临界值t(21)2.08,故拒绝H0,认为相关系数显著。,消费支出和可支配收入的相关系数,注意:相关关系因果关系!,典型的错误推断: 统计分析表明,庆祝生日次数越 多的人越长寿。因此,庆祝生日有利于健康。 调查表明,世界各国人均电视机拥有量与预期寿命存在很强的正相关性。因此,电视机拥有量越高,预期寿命越长。 对小学各年级学生的抽样调查表明,学生的识字水平与他们鞋子的尺寸高度正相关。因此,学生穿的鞋越大,他的识字水平就越高。,72 一元线性回归分析,总体回归函数 、样本回归函数 一元线性回归模型的估计 一元线性回归模型的检验,趋向中间高度的回归,回归这个术语是由英国著名统计学家Francis Galton在19世纪末期研究孩子及他们的父母的身高时提出来的。Galton发现身材高的父母,他们的孩子也高。但这些孩子平均起来并不像他们的父母那样高。对于比较矮的父母情形也类似:他们的孩子比较矮,但这些孩子的平均身高要比他们的父母的平均身高高。 Galton把这种孩子的身高向中间值靠近的趋势称之为一种回归效应,而他发展的研究两个数值变量的方法称为回归分析。,Regression 的原始释义,回归模型的类型,回归模型,多元回归,一元回归,线性回归,非线性回归,线性回归,非线性回归,总体回归函数,描述因变量y如何依赖于自变量x和随机误差项 的方程称为回归函数。总体回归函数的形式如下:,总体截距项,总体斜率系数,随机误差项,因变量,自变量,总体回归直线: 所以,总体回归函数也可表示为:,样本回归函数是对总体回归函数的一个样本估计结果。,样本回归函数,样本截距项,样本斜率系数,残差,Residual,样本回归直线:,总体回归直线与样本回归直线,Y,X,样本回归函数与总体回归函数区别,1、总体回归线是未知的,只有一条。样本回归线是根据样本数据拟合的,每抽取一组样本,便可以拟合一条样本回归线。 2、总体回归函数中的1和2是未知的参数,表现为常数。而样本回归函数中的 是随机变量,其具体数值随所抽取的样本观测值不同而变动。,样本回归函数与总体回归函数区别,3、总体回归函数中的et是t与未知的总体回归线之间的纵向距离,它是不可直接观测的。而样本回归函数中的t是t与样本回归线之间的纵向距离,当根据样本观测值拟合出样本回归线之后,可以计算出t的具体数值。,在满足一系列假设条件的情况下,最小二乘估计量是方差最小线性无偏估计量。需要的基本假设条件包括: 1、 2、对于所有的x, 的方差 相等 3、 与X之间不相关 4、 之间不相关 5、 服从正态分布,一元线性回归模型的统计假设,7.2.2 一元线性回归模型的估计,总体回归直线是未知的,它只有一条;而样本回归直线则是根据样本数据拟合的,每抽取一组样本,便可以拟合一条样本回归直线。 在总体参数未知的情况下,如何保证样本回归系数尽可能接近总体参数的真实值? 在回归分析中最常用的估计方法是最小二乘法。,的意义,为残差:点到直线的纵向距离。,最小二乘估计,通过使残差平方和 达到最小来求得,最小二乘估计,将Q对 和 求偏导数并令其等于零,可以得到正规方程组(Normal Equations)。,解这个方程组可得:,注意 的符号与相关系数r是一致的。,最小二乘回归直线的性质,(1) 直线通过均点 (2) (3) 取得最小值,高斯马尔可夫定理表明,在给定经典线性回归的假定下,普通最小二乘估计量具有线性性、无偏性、最小方差性等优良性质。 具有这些优良性质的估计量又称为最佳线性无偏估计量,即BLUE估计量(the Best Linear Unbiased Estimators)。,最小二乘估计量的有关性质,最小二乘估计量是Y的线性函数。 最小二乘估计量是无偏估计量,它的期望值等于总体的真实值; 最小二乘估计量在所有线性无偏估计量中具有最小方差。,最小二乘估计量的有关性质,根据表71的数据,建立北京市城镇居民消费模型,以人均年消费性支出(变量Y)为因变量,以人均年可支配收入(变量X)为自变量,建立一元线性回归模型。假设2011年北京市人均年可支配收入为2.9万元,请根据已建立的消费模型预测2011年人均消费支出。,例题7.2,SPSS的回归分析,利用SPSS选项:AnalizeRegressionLinear 再把有关的自变量选入Independent,把因变量选入Dependent,然后OK即可。如果自变量有多个(多元回归模型),只要都选入就行。,例题7.2 SPSS输出结果,结果分析,上式中,0.7246是边际消费倾向,表示人均可支配收入每增加1千元,人均消费支出会增加0.7246千元;0.5628是自主性消费,即与收入无关的最基本人均消费为0.5628千元。 将 带入代入回归方程,得到2011年人均消费支出的预测值。,一元线性回归方程的评价和检验,拟合优度 1、决定系数 2、估计标准误差 显著性检验 3、t检验 4、F检验,1、决定系数,回归直线与各观测数据的接近程度称为回归直线的拟合优度(goodness of fit)。 度量回归直线的拟合优度最常用的指标是决定系数(coefficient of determination ,又称可决系数、判定系数)。 该指标是建立在对总离差平方和进行分解的基础之上的。,何为“离差”?,因变量 y 相对于其均值的差异称为离差,用 来表示。 离差来源于两个方面 由于自变量 x 的取值不同造成的 除 x 以外的其他因素(如x对y的非线性影响、测量误差等)的影响,离差分解图,两端平方后求和有,离差平方和的分解 (三个平方和的意义),总平方和(SST) 反映因变量的 n 个实际观察值与其均值的总离差,回归平方和(SSR),反映自变量 x 的变化对因变量 y 取值变化的影响,也即因变量的理论值与其样本均值的离差,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和。,残差平方和(SSE),不能由回归直线加以解释的残差平方和。 反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和,决定系数为:,决定系数的取值,R2的取值范围是0,1。 R2越接近于1,表明回归平方和占总离差平方和的比例越大,回归直线与各观测点越接近,回归直线的拟合程度就越好。 在一元线性回归中,相关系数r的平方等于判定系数,符号与自变量x的系数一致。因此可以根据回归结果求出相关系数。 所有的回归程序都会给出R2的值.,2、估计标准误,估计标准误(standard error of estimate)是对各观测数据在回归直线周围分散程度的一个度量值,可以证明, 是对误差项的标准差的无偏估计。 式中p为模型中自变量的个数,一元回归中等于1。,2、估计标准误,估计标准误反映了用估计的回归方程拟合因变量Y时平均误差的大小。 各观测数据越靠近回归直线,估计标准误就越小,回归直线对各观测数据的代表性就越好。 与R2不同的是,估计标准误是一个有单位的绝对数。,例题7.2 SPSS输出的拟合优度结果:,回归分析中的显著性检验,回归分析中的显著性检验包括两方面的内容: 一是对单个自变量回归系数的显著性检验( t检验); 二是对整个回归方程(所有自变量回归系数)显著性的整体检验( F检验)。 在一元线性回归模型中,由于只有一个解释变量X,因此,对10的t检验与对整个方程的F检验是等价的。,3 单个回归系数显著性的t检验,第1步:提出假设。一般为 对于一些具体问题也可能需要进行单侧检验。 第2步:确定检验的统计量。可以证明在回归模型的基本假设成立时,如果零假设正确,则有,单个回归系数的显著性检验,第3步:计算检验统计量的样本观测值或p值。 第4步:进行决策: 根据显著性水平a和自由度dfn2确定检验统计量的临界值, tt时拒绝H0; 或者p值 a时拒绝H0。 统计软件都会给出相关计算结果。,例题7.2 SPSS输出结果,几点说明,为什么要检验回归系数是否等于0? 如果总体中的回归系数等于零,说明相应的自变量对y缺乏解释能力,在这种情况下我们可能需要中回归方程中去掉这个自变量。 我们也可以对常数项进行t检验,但大部分情况下我们并不关心常数项的检验结果。 通常情况下即使常数项在模型中不显著,我们也会在模型中保留常数项,去掉常数项可能会对模型带来不利影响。,第1步:提出假设。在一元回归为 第2步:确定检验统计量: MSR称为均方回归,MSE称为均方残差。 第3步:计算检验统计量的样本观测值或p值。,4、方程整体显著性的F检验,整个方程的的显著性检验,第4步:进行决策: 根据显著性水平a和自由度(1,n2)确定检验统计量的临界值Fa ,FF时拒绝H0; 或者p值 a时拒绝H0, 如果不能拒绝零假设,则说明所有自变量作为一个整体对因变量都没有解释能力。 注意这里F检验是右侧检验!,F检验:例题7.2,收入-消费模型的F检验结果。很多统计软件的F检验都是以一个方差分析表的形式给出的。,利用回归模型进行预测* (本小节不做考试要求),均值预测与个值预测 均值预测(mean prediction):对于给定的X值,预测Y的平均值。例如,对于所有年收入=3万的居民,其平均消费等于多少? 个值预测(individual prediction):张三的年收入=3万,其消费=? 均值和个值预测的点估计值相同:对于 x 的一个给定值x0 ,预测值都等于根据回归方程得到 y 的估计值 。,均值预测的置信区间,对于 一个给定的x 值 x0 , y 的均值E(y0)的置信区间 。这一区间有时简称为置信区间。 (confidence interval)。 E(y0) 在1-置信水平下的置信区间为,对于 一个给定的x值 x0 ,y 的一个个别值的估计区间。这一区间常称为预测区间(prediction interval)。 y0在1-置信水平下的预测区间为 手工计算置信区间和预测区间几乎是不可能的,但统计软件可以直接给出计算结果。,个值预测的置信区间(预测区间),预测区间与置信区间,需要预测的值越接近x的均值,预测误差越小。用回归模型进行外推预测可能会有较大的误差,因此必须小心使用!,73 多元线性回归,多元线性回归模型 多元线性回归方程的参数估计 回归方程的拟合优度和复相关系数 显著性检验 逐步回归,多元线性回归模型,总体回归函数: 样本回归方程:,多元线性回归模型的基本假设,在多元回归中除了要求一元回归中的基本假设条件外,还需要假设自变量之间不存在完全的多重共线性,否则无法估计回归模型。 完全的多重共线性:一个自变量可以表示为其他自变量和常数项的线性函数,例如x1 = 2x2 +x3 +5。,多元线性回归方程的参数估计,利用与一元回归类似的最小二乘法可以得到总体参数的估计量和估计值。虽然计算过程要复杂一些,但用计算机很容易得到计算结果。 在多元回归中对回归系数的解释有所不同。 例如变量x1的回归系数应解释为:当x2 , x3, xp不变时, x1每变动一个单位因变量y的平均变动量。,根据表71的数据,建立北京市城镇居民消费模型,要求以人均年消费性支出(变量Y)为因变量,以人均年可支配收入(变量X)和家庭恩格尔系数(变量Z)为自变量,建立二元线性回归模型。,例题7.3,用SPSS进行二元线性回归,用SPSS进行二元线性回归的具体步骤,与上一节介绍的估计一元线性回归模型非常相似:前3步完全相同,只是在第4步,在弹出的“Linear Regression”对话框中,将Y变量选入“Dependent”栏后,需要将变量X和变量Z同时选入“Independent(s)”栏,最后点击“确定”。,SPSS回归结果,结果分析,二元线性回归方程为: 变量X的回归系数为0.602,其统计含义:在居民家庭恩格尔系数不变的条件下,居民可支配收入每上升1个单位(千元),居民消费“平均”上升0.602个单位(千元);变量Z的回归系数为0.097,说明在居民可支配收入不变的条件下,居民恩格尔系数每降低1个单位(即降低1%),居民消费水平就会“平均”上升0.097个单位(千元)。,多元回归方程的检验,拟合优度 修正的多重决定系数 估计标准误差 显著性检验 F检验 t检验,多元回归模型的决定系数,我们同样可以用决定系数来衡量多元回归模型的拟合效果,在多元回归中也称为多重决定系数(multiple coefficient of determination)。 R2的正的平方根称为复相关系数,它度量了因变量同p个自变量的相关程度。,在样本容量一定的条件下,不断向模型中增加自变量,即使新增的变量与Y不相关,模型的R2也可能上升,至少不会下降。 在实际应用中,研究人员更欢迎简单的模型,这样的模型更简单和易于解释。如果根据R2来选择模型,显然会倾向于复杂的模型。 更常用的指标是“修正后的Ra2”。,修正的判定系数,修正的判定系数,在多元回归中,比较自变量个数不同的方程的拟合效果时多使用修正的判定系数(adjusted multiple coefficient of determination):,Ra2特点:,n-1和n-p-1实际分别是总离差平方和与残差 平方和的自由度。 由各自定义知: Ra2小于1,但未必都大于0,在拟合极差的情况下, Ra2有可能为负值。,多元线性回归模型的估计标准误,多元线性回归中的估计标准误差也是对误差项的方差2的一个估计值 含义:根据自变量x1,x2,xP来预测因变量y时的平均预测误差。,例题7.3的结果,结果分析,可决系数为0.997。这个指标可用于计算“复相关系数” (正的平方根)。 修正的可决系数为0.997。 回归标准误差为0.27276,其统计含义为,根据该回归方程对城镇居民消费水平进行拟合时,平均的估计误差为272.76元。,多元回归中t检验和F检验的步骤与一元回归类似,相应t的检验统计量为,多元回归中的t检验,SPSS回归结果,F检验的统计量为 注意这里F检验与t检验不再等价,其零假设和备择假设分别为 H0:12p=0 H1:1,2,p至少有一个不等于0,多元回归中的F检验,F检验:例题7.3的结果,多元回归中的变量筛选,在多元回归中,预先选定的自变量不一定都对Y有显著的影响。有一些统计方法可以帮助我们从众多可能的自变量中筛选出重要的自变量。,SPSS软件提供了多种筛选自变量的方法: “向前引入法(Forward)” “向后剔除法(Backward)” “逐步引入剔除法(Stepwise)”,逐步回归的思想,将变量逐一引入回归方程,先建立与y相关最密切的一元线性回归方程,然后再找出第二个变量,建立二元线性回归方程,。 在每一步中都要对引入变量的显著性作检验,仅当其显著时才引入,而每引入一个新变量后,对前面已引进的变量又要逐一检验,一旦发现某变量变得不显著了,就要将它剔除。 这些步骤反复进行,直到引入的变量都是显著的而没有引入的变量都是不显著的时,就结束挑选变量的工作。 可以设定引入和删除变量的条件。,逐步回归举例:澳大利亚的啤酒需求,为了研究澳大利亚啤酒需求的影响因素,研究人员收集了1955-1996如下资料(数据见data8-2.xls ): ConsBeer:人均啤酒消费量(升) Pbeer: 啤酒的价格(澳元升) Pwine: 葡萄酒的价格(澳元升) Psprits:白酒的价格(澳元升) Income: 人均收入,澳元 根据数据拟合多元线性回归模型。,多元线性回归:澳大利亚的啤酒需求,部分数据:,回归结果,ConsBeer 89.2811- 68.2395 Pbeer + 41.9225Pwine + 2.6519 Pspirits - 0.0100 Income,回归结果,逐步回归结果,使用默认设置,逐步回归得到的最终模型,74 回归分析的其他问题,非线性回归 违背回归模型统计假设的后果和补救方法,非线性回归分析,如果y 与 x 之间不是线性关系,通常也可以可通过变量代换使其转换成线性模型,然后再对线性模型进行估计。 但并非所有的非线性模型都可以化为线性模型。,在对实际的客观现象进行定量分析时,选择回归方程的具体形式应遵循以下原则: 方程形式应与有关实质性科学的基本理论相一致。例如,采用幂函数的形式,能够较好地表现生产函数;采用多项式方程能够较好地反映总成本与总产量之间的关系等等。 方程有较高的拟合程度。 方程的数学形式要尽可能简单。,非线性函数形式的确定,几种常见的非线性模型,指数函数,线性化方法 两端取对数得:lny = ln + x 令:y = lny,则有y = ln + x,基本形式:,图像,几种常见的非线性模型,幂函数,线性化方法 两端取对数得:lg y = lg + lg x 令:y = lgy,x= lg x,则y = lg + x,基本形式:,图像,几种常见的非线性模型, 双曲线函数,线性化方法 令:y = 1/y,x= 1/x, 则有y = + x,基本形式:,图像,几种常见的非线性模型,对数函数,线性化方法 x= lgx , 则有y = + x,基本形式:,图像,几种常见的非线性模型,S 型曲线,线性化方法 令:y = 1/y,x= e-x, 则有y = + x,基本形式:,图像,OLS估计需要一系列的假设条件; 在实际应用中这些假设条件能够同时得到满足的情况不多见。对这些假设条件的检验以及采取相应的补救措施就成为回归分析的重要任务之一。 通过模型理论方法的发展,可以克服违背基本假设带来的问题。,违背回归模型统计假设的几种情况和后果,异方差问题(违背同方差假设) 序列相关问题(违背序列不相关假设) 多重共线性问题(违背解释变量不相关假设),违背回归模型统计假设的常见情况,(1)异方差,当回归模型随机误差项et的方差不为常数时,即为异方差(Heteroscedasticity)现象: 当异方差出现时,回归模型的估计量不再具有最小方差的性质,因此不再保持有效性;同时,我们此前介绍的t检验也失效,无法对回归系数的显著性进行检验。,同方差,x1 x2,X,e,Y,随着x变化随机扰动项e的方差不变,异方差,x1 x2,X,e,随着x增加随机扰动项方差增大,Y,(2)序列相关,随机误差项之间的协方差不

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论