




已阅读5页,还剩180页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
.,1,第五章相关和回归分析,第一节相关的意义和种类第二节相关图表和相关系数第三节一元线性回归分析第四节多元线性回归分析第五节非线性回归分析,.,2,相关和回归分析是研究事物的相互关系,测定它们联系的紧密程度,揭示其变化的具体形式和规律性的统计方法,是构造各种经济模型、进行结构分析、政策评价、预测和控制的重要工具。,.,3,本章学习目的,1.理解相关的意义、主要形式、以及相关分析的基本内容。2.掌握相关系数的设计原理,以及相关关系显著性检验。3.回归和相关的区别和联系4.普通最小二乘法的原理以及回归参数的意义。5.估计标准误差的分析等。,.,4,第一节相关的意义和种类,一、问题的提出二、相关关系的概念三、相关关系的种类四、相关关系的主要内容,.,5,一、问题的提出,相关,.,6,伊拉克战争,correlation?,SARS,?,.,7,蝴蝶翅膀振动,候鸟迁徙,海啸,死亡人数,correlation?,.,8,一、相关关系的概念,客观现象之间的数量联系存在着两种不同的类型:函数关系和相关关系函数关系:即当一个(或一组)变量每取一个值时,相应的另一个变量必然有一个确定值与之对应。,.,9,(函数关系),(1)是一一对应的确定关系(2)设有两个变量x和y,变量y随变量x一起变化,并完全依赖于x,当变量x取某个数值时,y依确定的关系取相应的值,则称y是x的函数,记为y=f(x),其中x称为自变量,y称为因变量(3)各观测点落在一条线上,.,10,自变量与因变量,如果变量之间有因果关系,那么原因变量就叫作自变量,而受自变量影响的变量就称因变量。自变量通常发生在因变量之前。(不是所有先发生的变量都是自变量)一般自变量记为X,因变量记为Y。,.,11,【例】,某种商品的销售额(y)与销售量(x)之间的关系可表示为y=px(p为单价)圆的面积(S)与半径之间的关系可表示为S=R2企业的原材料消耗额(y)与产量(x1)、单位产量消耗(x2)、原材料价格(x3)之间的关系可表示为y=x1x2x3,.,12,停下来想一想?,在下面的几对变量中,哪一个是自变量哪一个是因变量?1.产品产量与总成本。2.销售税的总量与商品总成本。3.电影院里爆米花的销售率与垃圾袋的使用率。4.发电量与热天的天数。,.,13,相关关系(correlationanalysis):,相关关系:变量之间存在有依存关系,但这种关系是不完全确定的随机关系,即当一个(或一组)变量每取一个值时,相应的另一个变量可能有多个不同值与之对应。,.,14,因果关系,相关关系,互为因果关系,共变关系,随机性依存关系,确定性依存关系,函数关系,变量之间关系,.,15,相关关系,(1)变量间关系不能用函数关系精确表达;(2)一个变量的取值不能由另一个变量唯一确定;(3)当变量x取某个值时,变量y的取值可能有几个;(4)各观测点分布在曲线周围。,.,16,【例】,商品的消费量(y)与居民收入(x)之间的关系商品销售额(y)与广告费支出(x)之间的关系粮食亩产量(y)与施肥量(x1)、降雨量(x2)、温度(x3)之间的关系收入水平(y)与受教育程度(x)之间的关系父母亲身高(y)与子女身高(x)之间的关系身高与体重的关系,.,17,停下来想一想?,下列变量之间存在相关关系吗?1抽烟与肺癌之间的关系2怀孕期妇女的饮酒量与婴儿出生体重之间的关系3纳税者年龄和他们交纳税款的数量之间的关系4采光量与植物的生产量之间的关系5一个人的投票倾向性与其年龄之间的关系,.,18,相关关系与函数关系的关系:在一定的条件下互相转化.具有函数关系的变量,当存在观测误差和随机因素影响时,其函数关系往往以相关的形式表现出来.具有相关关系的变量之间的联系,如果我们对它们有了深刻的规律性认识,并且能够把影响因变量变动的因素全部纳入方程,这时相关关系也可转化为函数关系.相关关系也具有某种变动规律,所以,相关关系也经常可以用一定的函数形式去近似地描述.,.,19,二、相关关系的种类,1.按相关的程度分:,例:完全相关:在价格P不变的情况下,销售收入Y与销售量X的关系;不相关:股票价格的高低与气温的高低是不相关的;,.,20,2.按相关的方向分:,正相关:两个变量之间的变化方向一致,都是增长趋势或下降趋势。例:收入与消费的关系;工人的工资随劳动生产率的提高而提高。,负相关:两个变量变化趋势相反,一个下降而另一个上升,或一个上升而另一个下降。例:物价与消费的关系;商品流转的规模愈大,流通费用水平则越低。,.,21,3.按相关的形式分:,线性相关(直线相关):当一个变量每变动一个单位时,另一个变量按一个大致固定的增(减)量变动。例:人均消费水平与人均收入水平,非线性相关(曲线相关):当一个变量变动时,另一个变量也相应发生变动,但这种变动是不均等的。,例:产品的平均成本与总产量;农产量与施肥量.,.,22,4.按相关的影响因素多少分:,偏相关,单相关(一元相关):只有一个自变量。,复相关(多元相关):有两个及两个以上的自变量。,如:居民的收入与储蓄额;成本与产量,如:某种商品的需求与其价格水平以及收入水平之间的相关关系便是一种复相关。,.,23,偏相关:在某一现象与多种现象相关的场合,假定其他变量不变,专门考察其中两个变量的相关关系称为偏相关。如:在假定人们的收入水平不变的条件下,某种商品的需求与其价格水平的关系就是一种偏相关。,.,24,真实相关是现象的内在联系所决定.,虚假相关:如某人曾观察过某一国家历年的国内生产总值与精神病患者人数的关系,呈相当高的正相关.,.,25,讨论下面的关系是因果关系还是伪关系?,1.冰淇淋的销量与儿童出事故次数之间2.街上警察数量与犯罪数量之间3.历史上,妇女裙子的长度与经济的好坏有关系:裙子越短,经济越景气。4.鹳的数量与丹麦乡间婴儿出生率的关系,.,26,图示,.,27,三、相关分析的主要内容,根据研究目的,搜集有关资料编制相关图表计算相关系数建立回归方程进行统计检验,.,28,第二节相关图表和相关系数,一、相关表和相关图二、简单相关系数,.,29,相关分析:就是用一个指标来表明现象间相互依存关系的密切程度。广义的相关分析包括相关关系的分析(狭义的相关分析)和回归分析。,.,30,定性分析,是依据研究者的理论知识和实践经验,对客观现象之间是否存在相关关系,以及何种关系作出判断。,定量分析,在定性分析的基础上,通过编制相关表、绘制相关图、计算相关系数等方法,来判断现象之间相关的方向、形态及密切程度。,相关关系的判断,.,31,一、相关表和相关图,相关表和相关图是研究相关关系的直观工具,在进行详细的定量分析之前,可以先利用它们对现象之间存在的相关关系的方向、形式、和密切程度作大致的判断。,.,简单相关表:将自变量x的数值按照从小到大的顺序,并配合因变量y的数值一一对应而平行排列的表。,居民消费和收入的相关表,单位:百元,.,33,相关图:又称散点图。将x置于横轴上,y置于纵轴上,将(x,y)绘于坐标图上。用来反映两变量之间相关关系的图形。,.,34,例:国家教育部决定将各高校的后勤社会化。某从事饮食业的企业家认为这是一个很好的投资机会,他得到十组高校人数与周边饭店的季销售额的数据资料,并想根据高校的数据决策其投资规模。,.,35,二、简单相关系数,(一)简单相关系数的概念是度量两个变量之间线性相关密切程度和相关方向的统计指标。包括简单相关系数、复相关系数、偏相关系数、曲线相关系数(相关指数).简单相关系数又称皮尔逊(1890年,英国)相关系数,或积矩相关系数或动差相关系数。若相关系数是根据总体全部数据计算的,称为总体相关系数,记为.若是根据样本数据计算的,则称为样本相关系数,记为r.样本相关系数是总体相关系数的一致估计量.,.,36,样本简单相关系数的计算公式(积差法),(二)简单相关系数的计算公式,式中:,(1),1.用计算器计算,协方差Sxy,.,37,(1)式可化简为如下公式:,或:,.,38,用计算机计算选取“工具”-“数据分析”选“相关系数”选“确定”输入“输入区域”输入“输出区域”在“分组方式”中选“逐列”选“标志位于第一行”确定出现结果如下:,.,39,1.r的取值范围是-1,1|r|=1,为完全相关r=1,为完全正相关r=-1,为完全负相关2.r=0,不存在线性相关关系3.-1rr0.05(10-2)=0.632,所以总体人均消费支出与人均可支配收入之间的线性相关关系显著。,.,50,相关系数检验表的使用,若IrI大于表上的=5%相应的值,小于表上1%相应的值,称变量x与y之间有显著的线性关系若IrI大于表上=1%相应的值,称变量x与y之间有十分显著的线性关系若IrI小于表上=5%相应的值,称变量x与y之间没有明显的线性关系根据前例的r0.9987=5%(n-2)=0.553,表明人均消费金额与人均国民收入之间有十分显著的线性相关关系,.,51,第三节一元线性回归分析,一、回归分析概念二、回归分析的种类三、一元线性回归分析,.,2008-1-4,52,回归方程一词是怎么来的,.,53,一、回归分析的概念,是指对具有相关关系的现象,根据其相关关系的具体形态,选择一个合适的数学模型(称为回归方程式),用来近似地表达变量间的平均变化关系的一种统计分析方法。,.,54,二、回归分析的内容,从一组样本数据出发,确定变量之间的数学关系式。对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著。利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度。,.,55,回归分析和相关分析的区别相关分析中,变量x变量y处于平等的地位;回归分析中,变量y称为因变量,处在被解释的地位,x称为自变量,用于预测因变量的变化.相关分析中所涉及的变量x和y都是随机变量;回归分析中,因变量y是随机变量,自变量x则作为研究时给定的非随机变量。相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量x对变量y的影响大小,还可以由回归方程进行预测和控制,.,56,相关分析与回归分析的联系,相关分析和回归分析有着密切的联系,它们不仅具有共同的研究对象,而且在具体应用时,常常必须互相补充。相关分析需要依靠回归分析来表明现象数量相关的具体形式,而回归分析则需要依靠相关分析来表明现象数量变化的相关程度。只有当变量之间存在着高度相关时,进行回归分析寻求其相关的具体形式才有意义。简单说:1.相关分析是回归分析的基础和前提;2.回归分析是相关分析的深入和继续。,.,57,三、回归分析的种类,1.按自变量的个数分:,2.按回归方程的形式分:,本章主要介绍一元线性回归。,.,例5.1合金的强度y(107Pa)与合金中碳的含量x(%)有关。为研究两个变量间的关系。首先是收集数据,我们把收集到的数据记为(xi,yi),i=1,2,n。本例中,我们收集到12组数据,列于表5.1中,.,表5.1合金钢强度y与碳含量x的数据,.,为找出两个量间存在的回归函数的形式,可以画一张图:把每一对数(xi,yi)看成直角坐标系中的一个点,在图上画出n个点,称这张图为散点图,见图5.1,.,从散点图我们发现12个点基本在一条直线附近,这说明两个变量之间有一个线性相关关系,这个相关关系可以表示为y=0+1x+(5.1)这便是y关于x的一元线性回归的数据结构式。通常假定E()=0,Var()=2(5.2)在对未知参数作区间估计或假设检验时,还需要假定误差服从正态分布,即yN(0+1x,2)(5.3)显然,假定(5.3)比(5.2)要强。,.,由于0,1均未知,需要我们从收集到的数据(xi,yi),i=1,2,n,出发进行估计。在收集数据时,我们一般要求观察独立地进行,即假定y1,y2,yn,相互独立。综合上述诸项假定,我们可以给出最简单、常用的一元线性回归的数学模型:,.,由数据(xi,yi),i=1,2,n,可以获得0,1的估计,称,为y关于x的经验回归函数,简称为回归方程,其图形称为回归直线。给定x=x0后,称为回归值(在不同场合也称其为拟合值、预测值)。,.,4.1一元线性回归方法,1.一般形式,一元回归模型的一般形式记为:,并设观察值为y,则:,是未知的待定系数,称其为回归系数,.,2.模型分析:,假设,即,是相互独立的rv,,则随机变量,假设有一组试验数据,并假设,其中,是相互独立的随机变量,且,若用,分别表示,的估计值,则称,为y关于x的一元线性回归方程,.,下面我们要研究的问题是,(2)如何检验回归方程的可信度?,解决第一个问题采用最小二乘估计,解决第二个问题采用统计检验的方法,(1)如何根据,来求,的估计值?,.,随机误差的平方和达到最小,4.1.2参数,的最小二乘估计,最小二乘法估计,,即取,的估计值使,若记,为使与的拟合最佳,则,显然,,且关于,可微,,.,则由多元函数存在极值的必要条件得:,此方程为正规方程组,求解可得到:,称为的最小二乘估计,其中,即,.,.,的性质:,(1),(2),(3)三者相互独立,(4),(5),.,4.1.3回归方程的显著性检验,前面是根据回归方程求出了估计值,,现在的问题是:y与x之间是否存在这种关系?,即回归方程是否一定有意义?即当x变化时,y是否为,这就需要对回归方程作出显著性检验,实际上,只要,统计量。,从而有,一常数,也就是说这里是否为0?,检验是否为真,这就需要建立一个检验的,.,之间的差异,回归变量x的变化所引起的误差,它的大小反映了x的,重要程度。,先考虑总偏差平方和,表示,其中是残差平方和,表示由随即误差和其它未,加控制的因素所引起的误差,是回归平方和,表示由,.,事实上,由正规方程组知,.,由于每一个平方和都有一个自由度(free)(即相互独立的不受约束随机变量的个数),用表示,则总偏差平方和的自由度,回归平方和的自由度,残差平方和的自由度,可以证明,.,在的假设下,给定一个模型的显著性水平,通过查表得到F分布的值,记为,,若,是显著的,反之是不显著的。,则表明是小概率事件,确实算出,说明不成立,,说明必不可少。换言之,模型对水平而言,.,4.1.4回归方程的拟合检验,通过对回归方程的显著性检验,在显著的情况,即说明x对y的影响是显著的,但不能肯定y与x的关系一定是线性的,也可能还存在其他的影响因素。为此,就需要在同一个xi下进行重复试验,检验回归方程的拟合问题。,假设对同一个,进行次试验,得到观测数,据,,.,为建立统计量,考虑相应的残差平方和,其中,为第i组试验数据的平均值,.,这有两种可能:y不是x的线性关系。回归变量的个数不够,需要增加新的变量,究竟属于哪一种需要找出原因作进一步的改进。,.,4.2多元线性回归方法,4.2.1多元线性回归模型,(4.2),假设作了n次试验得到n组观测值为:,.,代入(4.3)中可得,该模型关于回归系数是线性的,u为一般向量,若用矩阵形式,(4.4)变为:,.,即,其中X是模型设计矩阵,Y与是随机向量,且,(I为n阶单位阵),是不可观测的随机误差向量,是回归系数构成的向量,是未知、待定的常数向量。,.,4.2.2回归系数的最小二乘估计,.,由上式,(正规方程组),记系数矩阵,常数矩阵,如果存在,称其为相关矩阵,.,1.可以证明:对任意给定的X,Y,正规方程组总有解,虽然当X不满秩时,其解不唯一,但对任意一组解都能是残差平方和最小,即,3.性质,2.当X满秩时,即则正规方程组的解为,即为回归系数的估计值,.,4.2.3回归分析模型的显著性检验,主要是检验模型是否一定与解释变量有密切的关系,类似一元情形,考虑,总变差平方和SST=总变差平方和SSR+残差平方和SSE,.,86,离差平方和的分解(三个平方和的意义),总平方和(SST)反映因变量的n个观察值与其均值的总离差。回归平方和(SSR)反映自变量x的变化对因变量y取值变化的影响,或者说,是由于x与y之间的线性关系引起的y的取值变化,也称为可解释的平方和。残差平方和(SSE)反映除x以外的其他因素对y取值的影响,也称为不可解释的平方和或剩余平方和。,.,回归分析表,,回归与响应关系越密切,定义:负相关系数,.,对于给定显著水平,当,模型不显著,是成立的,即与u不存在明显的函数关系。,.,4.2.4回归模型的拟合性检验,在模型的检验显著的情况下,需要进一步地做拟合性检验,目的是检验是否一定为(4.2)所给的形式,即是否还存在其他的影响因素没有考虑到。,相应也可以分为k组,即第i组观测值为,.,为建立统计量,考虑相应的残差平方和,其中,为第i组试验数据的平均值,.,当,说明模型拟合比较好,是不显著的,省略所造成误差不大。,当,模型拟合不好,是显著的,省略所造成的误差影响不可忽略,需要增加新的变量。,这有两种可能:y不是x的线性关系。回归变量的个数不够,需要增加新的变量,究竟属于哪一种需要找出原因作进一步的改进。,.,4.3回归模型的选择方法,由上面拟合性检验结果:,引入新的解释变量,从模型中去掉,模型拟合性检验是显著的,即未考虑到的因素的影响不可忽略。,模型拟合性检验是不显著的,即模型中的解释变量已经足够了,但是并不足说明模型中所有的变量都是必须的,有可能有多余的变量。,.,引入,去掉都涉及到模型的选择,模型选择的基本原则:即不遗漏一个重要的解释变量,但也不把一个无用的解释变量保留在模型中。,用偏回归平方和的大小来衡量一个解释变量在模型中的重要性。,假设给定一组解释变量,它的残差平方和为:,.,4.3.1去掉解释变量,.,4.3.2增加解释变量,m个变量的回归系数的估计值取为:,相应的残差平方和为:,.,而,可以证明:的偏回归平方和为,.,4.4回归模型的正交设计法,由前面几节知:多元线性回归有两个基本缺点:,一是计算复杂,其复杂程度随着自变量个数的增加而迅速增加。,二是由于回归系数之间存在相关性,当剔除某个自变量后,还必须重新计算回归系数。,多元线性回归的两个基本缺点是由于系数矩阵A不是对角阵造成的,因此如何使A为对角矩阵是问题的关键所在。,.,.,4.4.1正交的概念,则称是正交的,.,如何构造正交函数系呢?,通常情况下,正交函数都为正交多项式,首先对于一维回归变量u来说明构造正交多项式的方法。,设有点列,取,,其中,其中,.,.,且第k个解释变量的偏回归平方和为:,所以残差平方和为:,.,4.5多重线性与有偏估计,定理1.,这里trA表示方阵A的迹,即A的对角元素和,.,这里为的特征值,.,故从这里可以看出为的特征值,,再利用,以及,得,所以,.,为病态方程。,从这个表达式中我们可以看出,如果至少有一个特征根非常小,即非常接近于零,那么就会很大,这时,从均方误差的标准来看,这时的最小二乘估计就不是一个好的估计,,并且称正规方程组,.,衡量多重共线性程度量用,来表示,1)k100时,则不存在多重共线性,2)100k1000时,则存在较强的多重共线性,3)当k1000时,则存在严重的多重共线性,.,4.5.2回归系数的有偏估计,从上面讨论我们知道,当设计矩阵存在复共线关,系时,最小二乘估计的性质不理想,有时甚至很坏。,在这种情况下我们就需要些新的估计方法,近三十年,来,人们提出了许多种新估计,其中在理论上最有影,响并且得到广泛应用的就是岭估计。,回归系数的岭估计定义为:,.,这里k0是可选择参数,称为岭参数或偏参数,,当k取不同值时,我们就得到不同的估计,因此,岭估计是一个估计量。,主成份估计的方法:,1)做正交变换Z=XP,获得新的自变量,称为主成份,.,本章例题:,(1)问题,研究学者,得到如下数据(i为学者序号)(见表8.1)。,某类研究学者的年薪,工薪阶层关心年薪与哪些因素有关,以此可制定,出它们自己的奋斗目标。,某科学基金会希望估计从事某研究的学者的年薪,Y与他们的研究成果(论文、著作等)的质量指标X1、,从事研究工作的时间X2、能成功获得资助的指标X3,之间的关系,为此按一定的实验设计方法调查了24位,.,表4.1从事某种研究的学者的相关指标数据,.,试建立Y与X1,X2,X3之间关系的数学模型,并得出有关结论和作统计分析。,(2)作出因变量Y与各自变量的样本散点图,作散点图的目的主要是观察因变量Y与各自变量,间是否有比较好的线性关系,以便选择恰当的数学模,型形式。图4.1分别为年薪Y与成果质量指标x1、研究,工作时间x2、获得资助的指标x3之间的散点图,从图,4.1可以看出这些点大致分布在一条直线旁边,因此,,有比较好的线性关系,可以采用线性回归。,.,图8.1因变量Y与各自变量的样本散点图,.,(3)利用Matlab统计工具得到初步的回归方程,设回归方程为:,建立m-文件输入如下程序数据:,x1=3.55.35.15.84.26.06.85.53.17.24.54.98.06.56.53.76.27.04.04.55.95.64.83.9;,x2=9201833311325305472511233539217403523353921740352333273415;,.,x3=6.16.47.46.77.55.96.04.05.88.35.06.47.67.05.04.05.57.06.03.54.94.38.05.0;,Y=33.240.338.746.841.437.539.040.730.152.938.231.843.344.142.533.634.248.038.035.940.436.845.235.1;,n=24;m=3;,X=ones(n,1),x1,x2,x3;,b,bint,r,rint,s=regress(Y,X,0.05);,b,bint,r,rint,s,.,运行后即得到结果如表4.2所示。,表4.2对初步回归模型的计算结果,.,计算结果包括回归系数,m-1)计算。因此我们得到初步的回归方程为:,统计变量stats,它包含四个检验统计量;相关系,且置信区间均不包含零点;残差及置信区间;,p,的值7.0以前版本也可由程序sum(r.2)/(n-,数的平方,假设检验统计量F,与F对应的概率,.,由结果对模型的判断,表明线性相关性较强。,有较强的线性相关性。本例中R的绝对值为0.9542,,值在0.81范围内,可判断回归自变量与因变量具,相关系数R的评价:一般地,相关系数绝对,验统计量R、F、p的值判断该模型是否可用。,残差在零点附近也表示模型较好,接着就是利用检,回归系数置信区间不包含零点表示模型较好,,F检验法:当,即认为因变,.,查F分布表或输入命令finv(0.95,3,20)计算。,系;否则认为因变量y与自变量之间线,量y与自变量之间显著地有线性相关关,性相关关系不显著。本例,p值检验:若(为预订显著水平),,线性相关关系。本例输出结果,显然满,则说明因变量y与自变量之间显著地有,足。,.,以上三种统计推断方法推断的结果是一致的,,(4)模型的精细分析和改进,在模型改进时作为参考。,说明因变量y与自变量之间显著地有线性相关关系,,所得线性回归模型可用。当然越小越好,这主要,残差分析。残差,是,各种观测值与回归方程所对应得到的拟合值,之差,实际上,它是线性回归模型中误差的估计,值。即有零均值和常值方差,利用残差的,.,这种特性反过来考察模型的合理性就是残差分析的,基本思想。利用Matlab进行残差分析则是通过残差,自变量的高次项及交叉项等问题给出直观的检验。,差的等方差性以及回归函数中是否包含其他自变量、,观察残差图,可以对奇异点进行分析,还可以对误,变量的观测值;c.横坐标为因变量的拟合值。通过,坐标为观测时间或观测值序号;b.横坐标为某个自,其他指定的量为横坐标的散点图。主要包括:a.横,图或时序残差图。残差图是指以残差为纵坐标,以,.,以观测值序号为横坐标,残差为纵坐标所得到,模型为,如果作为奇异点看待,去掉后重新拟合,则得回归,第4、12、19这三个样本点的残差偏离原点较远,,差大多分布在零的附近,因此还是比较好的,不过,语句为rcoplot(r,rint)(见图4.2)。可以清楚看到残,的散点图称为时序残差图,画出时序残差图的Matlab,.,图8.2时序残差图,.,且回归系数的置信区间更小,均不包含原点,统计,得到改进。,115.5586,0.0000,比较可知R,F均增加,模型,变量stats包含的三个检验统计量:相关系数的平方,,假设检验统计量F,概率P,分别为0.9533,,变量间的交互作用讨论。变量间的交互作用,包括:不同自变量之间的交互作用以及同一变量的,自相关性。,a.不同自变量之间的交互作用。有时,在实验,.,中不仅单因素对指标有影响,而且因素间还会联合,项则为:,入这两个自变量的乘积项。本文案例如果加入交互,用。处理两个因素间交互作用的一个简单办法是加,起来对指标产生影响,常称这种联合作用为交互作,用表8.2的数据,利用Matlab统计工具箱得到,回归系数分别为:27.0727,1.1147,-0.0215,,-0.1843,0.0033,-0.0054,0.0511。但它们的置,.,信区间均包含原点,其他指标也不理想,因此,本,b.自相关性的诊断和处理。若数据以时间为序,,去意义。自相关的诊断主要有图示检验法、相关系,的回归模型直接处理,将产生不良后果,使预测失,一旦数据中存在这种自相关序列,如果仍采用普通,量的顺序观测值之间出现的相关现象称为自相关。,则称为时间序列数据。在时间序列数据中,同一变,型好。,例中其交互作用并不显著,该模型不如前面两个模,数法和DW检验法。图示检验法是通过绘制残差,.,编程计算统计量:,负的序列相关。对DW检验法可以利用Matlab软件,关;如果大部分点落在第,象限,表明存在着,部分点落在第,象限,表明存在着正的序列相,散点图观察,如果散布点大,然后查阅DW检验上下界表,以决定模型的自相关,状态。,.,当一个回归模型存在序列相关性时,首先要查明序,内容可参见相关概率统计参考文献。,关性,则需要采用差分法、迭代法等处理,更详细,则应增加自变量;如果以上方法都不能消除序列相,应该用适当的回归模型;如果是缺少重要的自变量,,列相关产生的原因。如果是回归模型选用不当,则,.,129,(三)回归方程的显著性检验,1.回归模型检验的种类回归模型的检验包括理论意义检验、一级检验和二级检验。理论意义:检验主要涉及参数估计值的符号和取值区间.如食品支出的恩格尔函数中,b的取值区间应在0-1之间;,.,130,一级检验又称统计学检验,它是利用统计学中的抽样理论来检验样本回归方程的可靠性,具体又可分为拟合程度评价和显著性检验.一级检验对所有的现象进行回归分析时都必须通过的检验.二级检验又称经济计量学检验,它是对标准线性回归模型的假定条件能否得到满足进行检验,具体包括序列相关检验,异方差性检验等.,.,131,2.显著性检验包括两方面的内容:(1)对整个回归方程的显著性检验-F检验回归方程的显著性检验即对自变量和因变量之间线性关系整体上是否显著进行检验。,(2)对回归系数的显著性检验:-t检验,.,132,(1)对整个回归方程的显著性检验-即拟合程度的评价所谓拟合程度,是指样本观测值聚集在样本回归线周围的紧密程度。判断回归模型拟合程度优劣最常用的数量尺度是样本可决系数(又称判定系数)。它是建立在对总离差平方和进行分解的基础之上的。,.,133,分析:因变量Y的取值是不同的,Y取值的这种波动称为变差。变差来源于两个方面:由于自变量x的取值不同造成的除x以外的其他因素(如x对y的非线性影响、测量误差、随机因素等)的影响对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差来表示,.,离差平方和的分解:回归平方和SSR与剩余平方和SSE含义如下:,SST=SSR+SSE,.,135,图示:总变差平方和的分解,.,136,离差平方和的分解(三个平方和的意义),A、总平方和(SST)反映因变量的n个观察值与其均值的总离差B、回归平方和(SSR)反映自变量x的变化对因变量y取值变化的影响,或者说,是由于x与y之间的线性关系引起的y的取值变化,也称为可解释的平方和C、残差平方和(SSE)反映除x以外的其他因素对y取值的影响,也称为不可解释的平方和或剩余平方和,.,137,对整个回归方程的显著性检验有两种方法:a.F检验检验具体方法是将回归平方和(SSR)同剩余平方和(SSE)加以比较,应用F检验来分析二者之间的差别是否显著。,.,138,样本判定系数(可决系数r2),回归平方和占总离差平方和的比例,r2表示全部偏差中有百分之几的偏差可由x与y的回归关系来解释。,.,139,反映回归直线的拟合程度取值范围在0,1之间r21,说明回归方程拟合的越好;r20,说明回归方程拟合的越差判定系数等于相关系数的平方,即r2(r)2可决系数是样本观测值的函数,它是一个统计量.,.,140,1.提出假设H0:=0(线性关系不显著),2.计算检验统计量F,确定显著性水平,并根据分子自由度1和分母自由度n-2找出临界值F作出决策:若FF,拒绝H0;若Ft,拒绝H0;tt=2.201,拒绝H0,表明人均收入与人均消费之间有线性关系,例:对前例的回归系数进行显著性检验(0.05),.,154,回归系数的显著性检验(Excel输出的结果),.,155,(六)利用回归方程进行估计和预测,根据自变量x的取值估计或预测因变量y的取值.当给出的x属于样本内的数据时,计算的yc值称为内插检验或事后预测,当给出的x在样本之外时,计算的yc值称为外推预测或事前预测.估计或预测的类型点估计y的平均值的点估计y的个别值的点估计区间估计y的平均值的置信区间估计y的个别值的预测区间估计,.,156,点估计:,2.点估计值y的平均值的点估计y的个别值的点估计3.在点估计条件下,平均值的点估计和个别值的的点估计是一样的,但在区间估计中则不同,对于自变量x的一个给定值x0,根据回归方程得到因变量y的一个估计值,.,157,y的平均值的点估计利用估计的回归方程,对于自变量x的一个给定值x0,求出因变量y的平均值的一个估计值E(y0),就是平均值的点估计在前面的例子中,假如我们要估计人均国民收入为2000元时,所有年份人均消费金额的的平均值,就是平均值的点估计。根据估计的回归方程得,.,158,y的个别值的点估计,利用估计的回归方程,对于自变量x的一个给定值x0,求出因变量y的一个个别值的估计值,就是个别值的点估计,2.比如,如果我们只是想知道1990年人均国民收入为1250.7元时的人均消费金额是多少,则属于个别值的点估计。根据估计的回归方程得,.,159,区间估计:,点估计不能给出估计的精度,点估计值与实际值之间是有误差的,因此需要进行区间估计对于自变量x的一个给定值x0,根据回归方程得到因变量y的一个估计区间区间估计有两种类型置信区间估计预测区间估计,.,160,y的平均值的置信区间估计利用估计的回归方程,对于自变量x的一个给定值x0,求出因变量y的平均值E(y0)的估计区间,这一估计区间称为置信区间E(y0)在1-置信水平下的置信区间为,式中:Sy为估计标准误差,.,161,【例】根据前例,求出人均国民收入为1250.7元时,人均消费金额95%的置信区间解:根据前面的计算结果712.57,Sy=14.95,t(13-2)2.201,n=13置信区间为,人均消费金额95%的置信区间为702.305元722.835元之间,712.5710.265,.,162,y的个别值的预测区间估计利用估计的回归方程,对于自变量x的一个给定值x0,求出因变量y的一个个别值的估计区间,这一区间称为预测区间y0在1-置信水平下的预测区间为,.,163,【例】根据前例,求出1990年人均国民收入为1250.7元时,人均消费金额的95%的预测区间解:根据前面的计算结果有712.57,Sy=14.95,t(13-2)2.201,n=13置信区间为,712.5734.469,人均消费金额95%的预测区间为678.101元747.039元之间,.,164,影响区间宽度的因素,1.置信水平(1-)区间宽度随置信水平的增大而增大2.数据的离散程度(s)区间宽度随离散程度的增大而增大3.样本容量区间宽度随样本容量的增大而减小用于预测的xp与x的差异程度区间宽度随xp与x的差异程度的增大而增大,.,165,置信区间、预测区间、回归方程,.,166,第三节多元线性相关与回归分析,一、多元线性回归模型一个因变量与两个及两个以上自变量之间的回归.描述因变量y如何依赖于自变量x1,x2,xp和误差项的方程称为多元线性回归模型涉及p个自变量的多元线性回归模型可表示为,b0,b1,b2,bp是参数,常数项,,和Y构成的平面与Y轴的截距,偏回归系数,表示在其他固定时每变化一个单位引起的Y的平均变动;,.,167,偏回归系数,表示在其他固定时每变化一个单位引起的Y的平均变动;,是被称为误差项的随机变量y是x1,,x2,xp的线性函数加上误差项说明了包含在y里面但不能被p个自变量的线性关
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 大队诚信活动方案
- 外出会议活动方案
- 夏季汽车保养活动方案
- 地产草莓活动方案
- 外出读书活动方案
- 外出参访活动活动方案
- 2025-2030智慧港口自动化设备分析及一带一路项目与主权基金合作可能性
- 场景拍摄活动方案
- 2025-2030区块链技术应用市场趋势及商业化前景预测
- 2025-2030中国虚拟现实内容开发生态系统构建及商业化前景与投资策略
- 公对公咨询居间协议书范本
- 七年级下册英语语法填空专项训练100题含答案5篇
- 卫生院“服务基层行”支撑材料(3.7放射防护管理)
- 2024年xx中学学生校服选用采购实施方案
- 英语阅读5篇(难度较高)
- 煤矿防灭火细则
- DL∕T 2622-2023 1000kV高压并联电抗器局部放电现场测量技术导则
- 农村社区基础设施和公共服务建设项目可行性研究报告
- ISO9001-ISO14001-ISO45001三体系内部审核检查表
- JT-T-1270.3-2019公路桥梁梳齿板伸缩装置第3部分:整体锚固式伸缩装置
- 【8物(人教版)】淮北市二中联考2023-2024学年八年级下学期期末考试物理试题
评论
0/150
提交评论