应用回归分析(1530)ppt课件

上传人：闯*** IP属地：广东上传时间：2020-04-30 格式：PPT 页数：530 大小：5.81MB 积分：25 举报 版权申诉

已阅读5页，还剩525页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

.,应用回归分析,AppliedRegressionAnalysis,教材何晓群，刘文卿：应用回归分析第二版，中国人民大学出版社，2007年,.,统计软件,SPSS13.0StatisticalPackagefortheSocialScience,.,章节目录,第1章回归分析概述第2章一元线性回归第3章多元线性回归第4章违背基本假定的情况第5章自变量选择与逐步回归第6章多重共线性的情形及其处理第7章岭回归第8章非线性回归第9章含定性变量的回归模型,.,第1章回归分析概述,1.1变量间的统计关系1.2回归方程与回归名称的由来1.3回归分析的主要内容及其一般模型1.4建立实际问题回归模型的过程1.5回归分析应用与发展述评思考与练习,.,1.1变量间的统计关系,函数关系商品的销售额与销售量之间的关系y=px圆的面积与半径之间的关系S=R2原材料消耗额与产量(x1)、单位产量消耗(x2)、原材料价格(x3)之间的关系y=x1x2x3,.,1.1变量间的统计关系,.,1.1变量间的统计关系,相关关系的例子子女身高(y)与父亲身高(x)之间的关系收入水平(y)与受教育程度(x)之间的关系粮食亩产量(y)与施肥量(x1)、降雨量(x2)、温度(x3)之间的关系商品的消费量(y)与居民收入(x)之间的关系商品销售额(y)与广告费支出(x)之间的关系,.,1.1变量间的统计关系,.,对变量间统计依赖关系的考察主要是通过相关分析(correlationanalysis)或回归分析(regressionanalysis)来完成的,.,注意不线性相关并不意味着不相关。有相关关系并不意味着一定有因果关系。回归分析/相关分析研究一个变量对另一个（些）变量的统计依赖关系，但它们并不意味着一定有因果关系。相关分析对称地对待任何（两个）变量，两个变量都被看作是随机的。回归分析对变量的处理方法存在不对称性，即区分应变量（被解释变量）和自变量（解释变量）：前者是随机变量，后者不是。,.,回归分析构成计量经济学的方法论基础，其主要内容包括：（1）根据样本观察值对经济计量模型参数进行估计，求得回归方程；（2）对回归方程、参数估计值进行显著性检验；（3）利用回归方程进行分析、评价及预测。,.,1.2回归方程与回归名称的由来,成年儿子身高,父母平均身高,英国统计学家F.Galton(1822-1911年)。F.Galton和他的学生、现代统计学的奠基者之一K.Pearson(18561936年)在研究父母身高与其子女身高的遗传问题时,观察了1078对夫妇,.,1.3回归分析的主要内容及其一般模型,.,回归分析的一般形式：,随机误差项主要包括下列因素：在解释变量中被忽略的因素的影响；变量观测值的观测误差的影响；模型关系的设定误差的影响；其他随机因素的影响。,回归模型研究的问题？,.,1.4建立实际问题回归模型的过程,.,1.5回归分析应用与发展述评,从高斯提出最小二乘法算起,回归分析已经有200年的历史。从1969年设立诺贝尔经济学奖以来,已有近50位学者获奖,其中绝大部分获奖者是统计学家、计量经济学家、数学家。他们对统计学及回归分析方法的应用都有娴熟的技巧。,.,第2章一元线性回归,2.1一元线性回归模型2.2参数0、1的估计2.3最小二乘估计的性质2.4回归方程的显著性检验2.5残差分析2.6回归系数的区间估计2.7预测和控制2.8本章小结与评注,.,2.1一元线性回归模型,例2.1表2.1列出了15起火灾事故的损失及火灾发生地与最近的消防站的距离。,表2.1火灾损失表,.,2.1一元线性回归模型,例2.2全国人均消费金额记作y(元);人均国民收入记为x(元),表2.2人均国民收入表,.,2.1一元线性回归模型,一元线性回归模型y=0+1x+,回归方程E（y|x）=0+1x,.,2.1一元线性回归模型,样本模型yi=0+1xi+i,i=1,2,n,回归方程E(yi)=0+1xi,var(yi)=2，,样本观测值(x1,y1),(x2,y2),(xn,yn),经验回归方程,.,2.2参数0、1的估计,一、普通最小二乘估计(OrdinaryLeastSquareEstimation,简记为OLSE),最小二乘法就是寻找参数0、1的估计值使离差平方和达极小,称为yi的回归拟合值,简称回归值或拟合值,称为yi的残差,.,2.2参数0、1的估计,.,2.2参数0、1的估计,经整理后,得正规方程组,.,2.2参数0、1的估计,得OLSE为,记,.,2.2参数0、1的估计,续例2.1,回归方程,.,2.2参数0、1的估计,二、最大似然估计,连续型：是样本的联合密度函数：离散型：是样本的联合概率函数。似然函数并不局限于独立同分布的样本。,似然函数,在假设iN(0,2)时,由（2.10）式知yi服从如下正态分布:,.,2.2参数0、1的估计,二、最大似然估计,y1,y2,yn的似然函数为：,对数似然函数为：,与最小二乘原理完全相同,.,2.3最小二乘估计的性质,一、线性,是y1,y2,yn的线性函数：,.,其中用到,2.3最小二乘估计的性质,二、无偏性,.,2.3最小二乘估计的性质,三、的方差,.,2.3最小二乘估计的性质,三、的方差,在正态假设下,GaussMarkov条件,.,2.4回归方程的显著性检验,一、t检验,原假设：H0：1=0对立假设：H1：10,由,当原假设H0：1=0成立时有：,.,2.4回归方程的显著性检验,一、t检验,构造t统计量,其中,.,2.4回归方程的显著性检验,二、用统计软件计算,1例2.1用Excel软件计算,.,什么是P值?(P-value),P值即显著性概率值SignificenceProbabilityValue是当原假设为真时得到比目前的样本更极端的样本的概率，所谓极端就是与原假设相背离它是用此样本拒绝原假设所犯弃真错误的真实概率，被称为观察到的(或实测的)显著性水平,.,双侧检验的P值,/2,/2,t,拒绝,拒绝,H0值,临界值,计算出的样本统计量,计算出的样本统计量,临界值,1/2P值,1/2P值,.,左侧检验的P值,H0值,临界值,a,样本统计量,拒绝域,抽样分布,1-,置信水平,计算出的样本统计量,P值,.,右侧检验的P值,H0值,临界值,a,拒绝域,抽样分布,1-,置信水平,计算出的样本统计量,P值,.,利用P值进行检验的决策准则,若p-值,不能拒绝H0若p-值,拒绝H0双侧检验p-值=2单侧检验p-值,.,2.4回归方程的显著性检验,二、用统计软件计算,2.例2.1用SPSS软件计算,.,2.4回归方程的显著性检验,二、用统计软件计算,2.用SPSS软件计算,.,2.4回归方程的显著性检验,三、F检验,平方和分解式,SST=SSR+SSE,构造F检验统计量,.,2.4回归方程的显著性检验,三、F检验,一元线性回归方差分析表,.,2.4回归方程的显著性检验,四、相关系数的显著性检验,.,2.4回归方程的显著性检验,四、相关系数的显著性检验,.,2.4回归方程的显著性检验,四、相关系数的显著性检验,附表1相关系数=0的临界值表,.,2.4回归方程的显著性检验,四、相关系数的显著性检验,用SPSS软件做相关系数的显著性检验,.,2.4回归方程的显著性检验,四、相关系数的显著性检验,两变量间相关程度的强弱分为以下几个等级：当|r|0.8时，视为高度相关；当0.5|r|0.8时，视为中度相关；当0.3|r|0.5时，视为低度相关；当|r|0.3时，表明两个变量之间的相关程度极弱，在实际应用中可视为不相关。,.,2.4回归方程的显著性检验,五、三种检验的关系,H0:b=0,H0:r=0,H0:回归无效,.,2.4回归方程的显著性检验,六、样本决定系数,可以证明,.,2.5残差分析,一、残差概念与残差图,残差,误差项,残差ei是误差项ei的估计值。,.,2.5残差分析,一、残差概念与残差图,.,2.5残差分析,一、残差概念与残差图,图2.6火灾损失数据残差图,.,2.5残差分析,二、残差的性质,性质1E(ei)=0,证明:,.,2.5残差分析,二、残差的性质,性质2,其中,称为杠杆值,.,2.5残差分析,二、残差的性质,.,2.5残差分析,二、残差的性质,性质3.残差满足约束条件:,.,2.5残差分析,三、改进的残差,标准化残差,学生化残差,.,2.6回归系数的区间估计,等价于,1的1-置信区间,.,2.7预测和控制,一、单值预测,.,2.7预测和控制,二、区间预测,找一个区间（T1,T2），使得,需要首先求出其估计值,的分布,1因变量新值的区间预测,.,二、区间预测1因变量新值的区间预测,以下计算,的方差,从而得,.,二、区间预测1因变量新值的区间预测,记,于是有,则,.,二、区间预测1因变量新值的区间预测,y0的置信概率为1-的置信区间为,y0的置信度为95%的置信区间近似为,.,二、区间预测2因变量平均值的区间估计,得E(y0)的1-的置信区间为,E(y0)=0+1x0是常数,.,二、区间预测计算,对例2.1的火灾损失数据，假设保险公司希望预测一个距最近的消防队x0=3.5公里的居民住宅失火的损失,点估计值,95%区间估计单个新值：（22.32，32.67）平均值E(y0)：（26.19，28.80）,的95%的近似置信区间为,=（27.50-22.316，27.50+22.316）=（22.87，32.13）,.,三、控制问题,给定y的预期范围(T1,T2),如何控制自变量x的值才能以1-的概率保证,用近似的预测区间来确定x。如果=0.05,则要求,把,带入,.,2.8本章小结与评注,一、一元线性回归模型从建模到应用的全过程例2.2全国人均消费金额记作y(元);人均国民收入记为x(元),表2.2人均国民收入表,.,2.8本章小结与评注,二、有关回归假设检验问题1973年Anscombe构造了四组数据,这四组数据所建的回归方程是相同的,决定系数,F统计量也都相同,且均通过显著性检验。,.,2.8本章小结与评注,.,第三章多元线性回归,3.1多元线性回归模型3.2回归参数的估计3.3参数估计量的性质3.4回归方程的显著性检验3.5中心化和标准化3.6相关阵与偏相关系数3.7本章小结与评注,.,3.1多元线性回归模型,一、多元线性回归模型的一般形式,y=0+1x1+2x2+pxp+,.,3.1多元线性回归模型,一、多元线性回归模型的一般形式,对n组观测数据(xi1,xi2,xip;yi),i=1,2,n,线性回归模型表示为:,.,3.1多元线性回归模型,一、多元线性回归模型的一般形式,写成矩阵形式为:y=X+,其中,.,3.1多元线性回归模型,二、多元线性回归模型的基本假定,1.解释变量x1,x2,xp是确定性变量,不是随机变量,且要求rk(X)=p+1n。表明设计矩阵X中的自变量列之间不相关,X是一满秩矩阵。,.,3.1多元线性回归模型,二、多元线性回归模型的基本假定,2.随机误差项具有0均值和等方差,即,这个假定称为Gauss-Markov条件,.,3.1多元线性回归模型,二、多元线性回归模型的基本假定,3.正态分布的假定条件为:,用矩阵形式(3.5)式表示为:,N(0,s2In),.,3.1多元线性回归模型,二、多元线性回归模型的基本假定,在正态假定下:,yN(X,s2In),E(y)=Xvar(y)=s2In,.,3.1多元线性回归模型,三、多元线性回归方程的解释,y表示空调机的销售量,x1表示空调机的价格,x2表示消费者可用于支配的收入。,y=0+1x1+2x2+E(y)=0+1x1+2x2,在x2保持不变时,有,在x1保持不变时,有,.,3.1多元线性回归模型,三、多元线性回归方程的解释,考虑国内生产总值GDP和三次产业增加值的关系，GDP=x1+x2+x3,现在做GDP对第二产业增加值x2的一元线性回归，得回归方程,.,3.1多元线性回归模型,.,3.1多元线性回归模型,三、多元线性回归方程的解释,建立GDP对x1和x2的回归，得二元回归方程,=2914.6+0.607x1+1.709x2,你能够合理地解释两个回归系数吗？,.,3.2回归参数的估计,一、回归参数的普通最小二乘估计,最小二乘估计要寻找,.,3.2回归参数的估计,一、回归参数的普通最小二乘估计,.,3.2回归参数的估计,一、回归参数的普通最小二乘估计,经整理后得用矩阵形式表示的正规方程组,移项得,存在时，即得回归参数的最小二乘估计为：,.,3.2回归参数的估计,二、回归值与残差,为回归值,称为帽子矩阵，其主对角线元素记为hii，则,.,3.2回归参数的估计,二、回归值与残差,此式的证明只需根据迹的性质tr(AB)=tr(BA),因而,.,3.2回归参数的估计,二、回归值与残差,cov(e,e)=cov(（I-H）Y,（I-H）Y)=（I-H）cov(Y,Y)（I-H）=2（I-H）In（I-H）=2（I-H）,得D(ei)=(1-hii)2，i=1,2,n,.,3.2回归参数的估计,二、回归值与残差,是2的无偏估计,.,3.2回归参数的估计,三、回归参数的最大似然估计,yN(X,2In),似然函数为,等价于使(y-X)(y-X)达到最小,这又完全与OLSE一样,.,3.2回归参数的估计,例3.1国际旅游外汇收入是国民经济发展的重要组成部分，影响一个国家或地区旅游收入的因素包括自然、文化、社会、经济、交通等多方面的因素，本例研究第三产业对旅游外汇收入的影响。中国统计年鉴把第三产业划分为12个组成部分，分别为x1农林牧渔服务业,x2地质勘查水利管理业,x3交通运输仓储和邮电通信业,x4批发零售贸易和餐饮业,x5金融保险业,x6房地产业,x7社会服务业,x8卫生体育和社会福利业，x9教育文化艺术和广播,x10科学研究和综合艺术,x11党政机关，x12其他行业。采用1998年我国31个省、市、自治区的数据，以国际旅游外汇收入（百万美元）为因变量y，以如上12个行业为自变量做多元线性回归，数据见表3.1，其中自变量单位为亿元人民币。,.,3.2回归参数的估计,.,3.3参数估计量的性质,性质1是随机向量y的一个线性变换。,性质2,是的无偏估计。,.,3.3参数估计量的性质,.,3.3参数估计量的性质,当p=1时,.,3.3参数估计量的性质,性质4Gauss-Markov定理,预测函数,是的线性函数,Gauss-Markov定理在假定E(y)=X,D(y)=2In时,的任一线性函数的最小方差线性无偏估计(BestLnearUnbiasedEstimator简记为BLUE)为c,其中c是任一p+1维向量,是的最小二乘估计。,.,3.3参数估计量的性质,第一，取常数向量c的第j（j=0,1,n）个分量为1，其余分量为0，这时G-M定理表明最小二乘估计是j的最小方差线性无偏估计。第二，可能存在y1,y2,yn的非线性函数，作为的无偏估计，比最小二乘估计的方差更小。第三，可能存在的有偏估计量，在某种意义（例如均方误差最小）下比最小二乘估计更好。第四，在正态假定下，是的最小方差无偏估计。也就是说，既不可能存在y1,y2,yn的非线性函数，也不可能存在y1,y2,yn的其它线性函数，作为的无偏估计，比最小二乘估计方差更小。,.,3.3参数估计量的性质,性质5cov（,，e）=0,此性质说明与e不相关,在正态假定下等价于与e独立,从而与独立。,性质6在正态假设,(1),(2),.,3.4回归方程的显著性检验,一、F检验,H0:1=2=p=0,SST=SSR+SSE,当H0成立时服从,.,3.4回归方程的显著性检验,一、F检验,.,3.4回归方程的显著性检验,二、回归系数的显著性检验,H0j:j=0,j=1,2,p,（,（X）-1）,记(X)-1=（cij)i,j=0,1,2,p,构造t统计量,其中,.,3.4回归方程的显著性检验,二、回归系数的显著性检验（剔除x1),.,3.4回归方程的显著性检验,二、回归系数的显著性检验,.,3.4回归方程的显著性检验,二、回归系数的显著性检验,从另外一个角度考虑自变量xj的显著性。y对自变量x1,x2,xp线性回归的残差平方和为SSE，回归平方和为SSR，在剔除掉xj后，用y对其余的p-1个自变量做回归，记所得的残差平方和为SSE（j），回归平方和为SSR（j），则自变量xj对回归的贡献为SSR（j）=SSR-SSR（j），称为xj的偏回归平方和。由此构造偏F统计量,.,3.4回归方程的显著性检验,二、回归系数的显著性检验,当原假设H0j：j=0成立时，（3.42）式的偏F统计量Fj服从自由度为(1,n-p-1)的F分布，此F检验与（3.40）式的t检验是一致的，可以证明Fj=tj2,.,3.4回归方程的显著性检验,三、回归系数的置信区间,可得j的置信度为1-的置信区间为：,.,3.4回归方程的显著性检验,四、拟合优度,决定系数为：,y关于x1,x2,xp的样本复相关系数,.,3.5中心化和标准化,一、中心化,经验回归方程,经过样本中心,将坐标原点移至样本中心，即做坐标变换：,回归方程转变为：,回归常数项为,.,3.5中心化和标准化,二、标准化回归系数,当自变量的单位不同时普通最小二乘估计的回归系数不具有可比性，例如有一回归方程为:,其中x1的单位是吨,x2的单位是公斤,.,3.5中心化和标准化,二、标准化回归系数,样本数据的标准化公式为：,得标准化的回归方程,.,3.5中心化和标准化,二、标准化回归系数,标准化回归系数,.,3.6相关阵与偏相关系数,一、样本相关阵,自变量样本相关阵,增广的样本相关阵为：,.,3.6相关阵与偏相关系数,一、样本相关阵,.,3.6相关阵与偏相关系数,二、偏判定系数,当其他变量被固定后,给定的任两个变量之间的相关系数,叫偏相关系数。偏相关系数可以度量p+1个变量y,x1,x2,xp之中任意两个变量的线性相关程度,而这种相关程度是在固定其余p-1个变量的影响下的线性相关。,.,3.6相关阵与偏相关系数,二、偏判定系数,偏判定系数测量在回归方程中已包含若干个自变量时，再引入某一个新的自变量后y的剩余变差的相对减少量，它衡量y的变差减少的边际贡献。,.,3.6相关阵与偏相关系数,二、偏判定系数,以x1表示某种商品的销售量，x2表示消费者人均可支配收入，x3表示商品价格。从经验上看，销售量x1与消费者人均可支配收入x2之间应该有正相关，简单相关系数r12应该是正的。但是如果你计算出的r12是个负数也不要感到惊讶，这是因为还有其它没有被固定的变量在发挥影响，例如商品价格x3在这期间大幅提高了。反映固定x3后x1与x2相关程度的偏相关系数r12；3会是个正数。,.,3.6相关阵与偏相关系数,1两个自变量的偏判定系数,二元线性回归模型为：yi=0+1xi1+2xi2+i,记SSE（x2）是模型中只含有自变量x2时y的残差平方和，SSE(x1，x2)是模型中同时含有自变量x1和x2时y的残差平方和。因此模型中已含有x2时再加入x1使y的剩余变差的相对减小量为：,此即模型中已含有x2时，y与x1的偏判定系数。,.,3.6相关阵与偏相关系数,1两个自变量的偏判定系数,同样地，模型中已含有x1时，y与x2的偏判定系数为：,.,3.6相关阵与偏相关系数,2.一般情况,在模型中已含有x2,xp时，y与x1的偏判定系数为：,.,3.6相关阵与偏相关系数,三、偏相关系数,偏判定系数的平方根称为偏相关系数，其符号与相应的回归系数的符号相同。,例3.2研究北京市各经济开发区经济发展与招商投资的关系，因变量y为各开发区的销售收入（百万元），选取两个自变量，x1为截至1998年底各开发区累计招商数目，x2为招商企业注册资本（百万元）。表中列出了至1998年底招商企业注册资本x2在5亿至50亿元的15个开发区的数据。,.,3.6相关阵与偏相关系数,三、偏相关系数,北京开发区数据,.,3.6相关阵与偏相关系数,三、偏相关系数,偏相关系数表,.,3.6相关阵与偏相关系数,三、偏相关系数,用y与x1做一元线性回归时，x1能消除y的变差SST的比例为,再引入x2时，x2能消除剩余变差SSE（X1）的比例为,因而自变量x1和x2消除y变差的总比例为,=1-(1-0.651)(1-0.546)=0.842=84.2%。,这个值84.2%恰好是y对x1和x2二元线性回归的判定系数R2,.,3.6相关阵与偏相关系数,三、偏相关系数,对任意p个变量x1,x2,xp定义它们之间的偏相关系数,其中符号ij表示相关阵第i行第j列元素的代数余子式,验证,.,3.7本章小结与评注,例3.3中国民航客运量的回归模型。y民航客运量(万人),x1国民收入(亿元),x2消费额(亿元),x3铁路客运量(万人),x4民航航线里程(万公里),x5来华旅游入境人数(万人)。根据1994年统计摘要获得1978-1993年统计数据,.,3.7本章小结与评注,.,3.7本章小结与评注,.,3.7本章小结与评注,.,3.7本章小结与评注,.,第四章违背基本假设的情况,4.1异方差性产生的背景和原因4.2一元加权最小二乘估计4.3多元加权最小二乘估计4.4自相关性问题及其处理4.5异常值与强影响点4.6本章小结与评注,.,第四章违背基本假设的情况,Gauss-Markov条件,.,4.1异方差性产生的背景和原因,一、异方差产生的原因例4.1居民收入与消费水平有着密切的关系。用xi表示第i户的收入量,yi表示第i户的消费额,一个简单的消费模型为:yi=0+1xi+i，i=1,2,n低收入的家庭购买差异性比较小,高收入的家庭购买行为差异就很大。导致消费模型的随机项i具有不同的方差。,.,4.1异方差性产生的背景和原因,二、异方差性带来的问题当存在异方差时，普通最小二乘估计存在以下问题:(1)参数估计值虽是无偏的,但不是最小方差线性无偏估计;(2)参数的显著性检验失效;(3)回归方程的应用效果极不理想。,.,4.2一元加权最小二乘估计,一、异方差性的检验（一）残差图分析法,图2.5（b)存在异方差,.,4.2一元加权最小二乘估计,一、异方差性的检验（二）等级相关系数法等级相关系数检验法又称斯皮尔曼(Spearman)检验,是一种应用较广泛的方法。这种检验方法既可用于大样本,也可用于小样本。进行等级相关系数检验通常有三个步骤。第一步,作y关于x的普通最小二乘回归,求出ei的估计值,即ei的值。,.,4.2一元加权最小二乘估计,（二）等级相关系数法第二步,取ei的绝对值,分别把xi和|ei|按递增（或递减）的次序分成等级,按下式计算出等级相关系数:,其中,n为样本容量,di为对应于xi和|ei|的等级的差数。,.,4.2一元加权最小二乘估计,（二）等级相关系数法第三步,做等级相关系数的显著性检验。在n8的情况下,用下式对样本等级相关系数rs进行t检验。检验统计量为:,如果tt/2(n-2)可认为异方差性问题不存在，如果tt/2(n-2),说明xi与|ei|之间存在系统关系,异方差性问题存在。,.,4.2一元加权最小二乘估计,例4.3设某地区的居民收入与储蓄额的历史统计数据如表4.1。(1)用普通最小二乘法建立储蓄y与居民收入x的回归方程,并画出残差散点图;(2)诊断该问题是否存在异方差;,.,4.2一元加权最小二乘估计,.,4.2一元加权最小二乘估计,图4.1残差图,.,4.2一元加权最小二乘估计,用SPSS计算等级相关系数。,.,4.2一元加权最小二乘估计,（2）计算等级相关系数。,.,4.2一元加权最小二乘估计,Spearman等级相关系数可以反映非线性相关的情况，Pearson简单相关系数不能反映非线性相关的情况。例如x与y的取值如下，,容易计算出y与x的简单相关系数r=0.9746，而y与x的等级相关系数rs=1,具有完全的曲线相关。,.,4.2一元加权最小二乘估计,二、一元加权最小二乘估计,消除异方差性的方法通常有：加权最小二乘法,Box-Cox变换法,方差稳定性变换法加权最小二乘法(WeightedLeastSquare,简记为WLS)是一种最常用的消除异方差性的方法。,.,4.2一元加权最小二乘估计,二、一元加权最小二乘估计,一元线性回归普通最小二乘法的残差平方和为：,一元线性回归的加权最小二乘的离差平方和为：,.,4.2一元加权最小二乘估计,加权最小二乘估计为：,其中，,是自变量的加权平均；,是因变量的加权平均。,.,4.2一元加权最小二乘估计,观测值的权数应该是观测值误差项方差的倒数,即,在实际问题中,误差项的方差是未知的,常与自变量x的幂函数xm成比例，其中m是待定的未知参数。此时权函数为,.,4.2一元加权最小二乘估计,三、寻找最优权函数,利用SPSS软件可以确定幂指数m的最优取值。依次点选Analyze-Regression-WeightEstimation进入估计权函数对话框，默认的幂指数m的取值为m=-2.0，-1.5，-1.0，-0.5，0，0.5，1.0，1.5，2.0。先将因变量y与自变量x选入各自的变量框，再把x选入Weight变量框，幂指数（Power）取默认值，计算结果如下（格式略有变动）：,.,4.2一元加权最小二乘估计,Log-likelihoodFunction=-224.258830POWERvalue=-2.000Log-likelihoodFunction=-221.515008POWERvalue=-1.500Log-likelihoodFunction=-218.832193POWERvalue=-1.000Log-likelihoodFunction=-216.252339POWERvalue=-.500Log-likelihoodFunction=-213.856272POWERvalue=.000Log-likelihoodFunction=-211.773375POWERvalue=.500Log-likelihoodFunction=-210.185972POWERvalue=1.000Log-likelihoodFunction=-209.316127POWERvalue=1.500Log-likelihoodFunction=-209.379714POWERvalue=2.000,TheValueofPOWERMaximizingLog-likelihoodFunction=1.500Log-likelihoodFunction=-209.316127,.,4.2一元加权最小二乘估计,AnalysisofVariance:,VariablesintheEquation,.,4.2一元加权最小二乘估计,幂指数m的最优取值为m=1.5。加权最小二乘的r2=0.9360，F值=423.741；普通最小二乘的r2=0.912，F值=300.732。说明加权最小二乘估计的效果好于普通最小二乘的效果。,.,4.2一元加权最小二乘估计,图4.2加权最小二乘残差图残差图,.,4.2一元加权最小二乘估计,.,4.2一元加权最小二乘估计,.,4.2一元加权最小二乘估计,.,4.3多元加权最小二乘,当误差项i存在异方差时，加权离差平方和为,记,加权最小二乘估计WLS的矩阵表达,.,4.3多元加权最小二乘估计,通常取权函数W为某个自变量xj（j=1,2,，p）的幂函数，即，在x1,x2,xp这p个自变量中取哪一个？这只需计算每个自变量xj与普通残差的等级相关系数，选取等级相关系数最大的自变量构造权函数。,.,4.3多元加权最小二乘估计,例4.4续例3.2，研究北京市各经济开发区经济发展与招商投资的关系。因变量y为各开发区的销售收入（百万元），x1为截至1998年底各开发区累计招商数目，x2为招商企业注册资本（百万元）。计算出普通残差的绝对值abse=|ei|与x1、x2的等级相关系数，re1=0.443，re2=0.721，因而选取x2构造权函数。,.,4.3多元加权最小二乘估计,.,4.3多元加权最小二乘估计,仿照例4.3，用WeightEstimate估计幂指数m，得m的最优值为m=2。由于m=2是在默认范围-2，2的边界，因而应该扩大范围重新计算。取m从1到5，步长仍为0.5，得m的最优值为m=2.5,.,4.3多元加权最小二乘估计,.,4.3多元加权最小二乘估计,加权最小二乘的R2=0.84941，F值=33.84；普通最小二乘的R2=0.842，F值=31.96。加权最小二乘估计的拟合效果略好于普通最小二乘。加权最小二乘的回归方程为：=-266.96+1.696x1+0.4703x2普通最小二乘的回归方程为：=-327.039+2.036x1+0.468x2,.,4.3多元加权最小二乘估计,方差稳定变换,.,4.3多元加权最小二乘估计,Box-Cox变换,.,4.4自相关性问题及其处理,如果一个回归模型的随机误差项cov(i,j)0则称随机误差项之间存在着自相关现象。这里的自相关现象不是指两个或两个以上的变量之间的相关,而指的是一个变量前后期数值之间存在的相关关系。,.,4.4自相关性问题及其处理,一、自相关性产生的背景和原因1.遗漏关键变量时会产生序列的自相关性。2.经济变量的滞后性会给序列带来自相关性。3.采用错误的回归函数形式也可能引起自相关性。4.蛛网现象(Cobwebphenomenon)可能带来序列的自相关性。5.因对数据加工整理而导致误差项之间产生自相关性。,.,4.4自相关性问题及其处理,二、自相关性带来的问题,1.参数的估计值不再具有最小方差线性无偏性。2.均方误差MSE可能严重低估误差项的方差。3.容易导致对t值评价过高,常用的F检验和t检验失效。如果忽视这一点,可能导致得出回归参数统计检验为显著,但实际上并不显著的严重错误结论。4.当存在序列相关时,仍然是的无偏估计量,但在任一特定的样本中,可能严重歪曲的真实情况,即最小二乘估计量对抽样波动变得非常敏感。5.如果不加处理地运用普通最小二乘法估计模型参数,用此模型进行预测和结构分析将会带来较大的方差甚至错误的解释。,.,4.4自相关性问题及其处理,三、自相关性的诊断,（一）图示检验法1.绘制（et，et-1）的散点图。,.,4.4自相关性问题及其处理,三、自相关性的诊断,（一）图示检验法2.按照时间顺序绘制回归残差项et的图形。,.,4.4自相关性问题及其处理,三、自相关性的诊断,（二）自相关系数法误差序列1,2,n的自相关系数定义为,自相关系数的估计值为,.,4.4自相关性问题及其处理,三、自相关性的诊断,（三）D.W检验D.W检验是J.Durbin和G.S.Watson于1951年提出的一种适用于小样本的一种检验方法。D.W检验验只能用于检验随机扰动项具有一阶自回归形式的序列相关问题。这种检验方法是建立计量经济学模型中最常用的方法,一般的计算机软件都可自动产生出D.W值。,.,4.4自相关性问题及其处理,（三）D.W检验随机扰动项的一阶自回归形式为:t=t-1+ut其中ut是不相关序列。为了检验序列的相关性,构造的假设是H0:=0,.,4.4自相关性问题及其处理,（三）D.W检验,定义D.W统计量为:,.,4.4自相关性问题及其处理,（三）D.W检验,得,D.W的取值范围为:0D.W4,.,4.4自相关性问题及其处理,（三）D.W检验,因而D.W值与的对应关系为,.,4.4自相关性问题及其处理,（三）D.W检验,根据样本容量n和解释变量的数目k(这里包括常数项),查D.W分布表,得临界值dL和dU,然后依下列准则考察计算得到的DW值,以决定模型的自相关状态:,.,4.4自相关性问题及其处理,（三）D.W检验,.,4.4自相关性问题及其处理,.,4.4自相关性问题及其处理,（三）D.W检验,D.W检验尽管有着广泛的应用,但也有明显的缺点和局限性。1.D.W检验有一个不能确定的区域,一旦D.W值落在这个区域,就无法判断。这时,只有增大样本容量或选取其他方法。2.D.W统计量的上、下界表要求n15,这是因为样本如果再小,利用残差就很难对自相关的存在性作出比较正确的诊断。3.D.W检验不适应随机项具有高阶序列相关的检验。,.,4.4自相关性问题及其处理,四、自相关问题的处理方法,（一）迭代法,以一元线性回归模型为例,设一元线性回归模型的误差项存在一阶自相关yt=0+1xt+tt=t-1+ut,.,4.4自相关性问题及其处理,（一）迭代法,根据回归模型,yt=0+1xt+t,有yt-1=0+1xt-1+t-1,则有（yt-yt-1)=(0-0)+1(xt-xt-1)+(t-t-1),令,得,.,4.4自相关性问题及其处理,四、自相关问题的处理方法,（一）迭代法,其中自相关系数用公式估计。用变换因变量与变换自变量作普通最小二乘回归。如果误差项确实是一阶自相关，通过以上变换，回归模型已经消除自相关。,.,4.4自相关性问题及其处理,（一）迭代法,实际问题中，有时误差项并不是简单的一阶自相关，而是更复杂的自相关形式，（4.24）式的误差项ut可能仍然存在自相关，这就需要进一步对（4.24）式的误差项ut做D.W检验，以判断ut是否存在自相关，如果检验表明误差项ut不存在自相关，迭代法到此结束。如果检验表明误差项ut存在自相关，那末对回归模型（4.24）式重复用迭代法，这个过程可能要重复几次，直至最终消除误差项自相关。这种迭代消除自相关的过程正是迭代法名称的由来。,.,4.4自相关性问题及其处理,（二）差分法,一阶差分法通常适用于原模型存在较高程度的一阶自相关的情况。在迭代法（4.24）式中，当=1时,得（yt-yt-1)=1(xt-xt-1)+(t-t-1)以yt=yt-yt-1,xt=xt-xt-1代之,得yt=1xt+ut是不带有常数项的回归方程,.,4.4自相关性问题及其处理,（二）差分法,一阶差分法的应用条件是自相关系数=1，在实际应用中，接近1时我们就采用差分法而不用迭代法，这有两个原因。第一，迭代法需要用样本估计自相关系数，对的估计误差会影响迭代法的使用效率；第二，差分法比迭代法简单,人们在建立时序数据的回归模型时,更习惯于用差分法。,.,4.4自相关性问题及其处理,（三）科克伦奥克特（Cochrane-Orcutt）迭代,方法（一）中的迭代法近似取可以使用其他迭代法给出的更精确的估计，最常用的是科克伦奥克特迭代法。以一元线性回归为例，方法（一）的迭代是1步迭代，根据1步迭代计算出的和回归系数，由（4.18）式的回归方程重新计算残差，得到新的残差序列后就可以计算出新的DW值，新的和回归系数，如果新的与前一次迭代的相差很小，低于给定的界限，就停止迭代，否则继续下一步迭代。,.,4.4自相关性问题及其处理,（三）科克伦奥克特（Cochrane-Orcutt）迭代,有一点需要说明的是，迭代的起始步骤认为是从第0步开始的，就是用（4.18）式做普通最小二乘回归，相当于认为r=0。这样方法（一）中的迭代实际上包括第0步和第1步共两步迭代过程，也称为科克伦奥克特两步法。通常情况下，科克伦奥克特多步迭代与两步迭代相差不大。,.,4.4自相关性问题及其处理,（四）普莱斯温斯登（Prais-Winsten）迭代法,采用迭代法用（4.23）式计算迭代值时不能计算第1期的迭代值，因此样本量从n减少到n-1。对大样本量时这无足轻重，但是当样本量较小时每一个样本值都是宝贵的。为此可以使用普莱斯温斯登变换，对t=1，令，经过普莱斯温斯登变换的迭代法就称为普莱斯温斯登迭代法。,.,4.4自相关性问题及其处理,五、自相关实例分析,【例4.5】续例2.2,.,4.4自相关性问题及其处理,.,4.4自相关性问题及其处理,4.方法比较,.,4.4自相关性问题及其处理,对回归模型,yt=0+1xt+t,做变换,得,其中,问题：为什么变换后的回归模型参数估计性质好,.,4.4自相关性问题及其处理,自相关的危害,.,4.4自相关性问题及其处理,自相关的危害,.,4.4自相关性问题及其处理,5预测,以迭代法为例说明回归预测值,和残差,的计算方法。,.,4.4自相关性问题及其处理,5预测,注意：在自相关回归中，回归预测值,不是用,其一般性的公式为,SPSS软件提供的3种方法可以直接保存回归预测值,和残差,计算,.,4.4自相关性问题及其处理,.,4.4自相关性问题及其处理,例如，取x20=6600，则,第二种方法,.,4.5异常值与强影响值,异常值分为两种情况：一种是关于因变量y异常；另一种是关于自变量x异常。,.,4.5异常值与强影响值,一、关于因变量y的异常值,标准化残差,学生化残差,.,4.5异常值与强影响值,.,4.5异常值与强影响值,可以证明：,.,4.5异常值与强影响值,.,4.5异常值与强影响值,二、关于自变量x的异常值,.,4.5异常值与强影响值,二、关于自变量x的异常值,.,4.5异常值与强影响值,二、关于自变量x的异常值,.,4.5异常值与强影响值,二、关于自变量x的异常值,虽然强影响点并不总是y的异常值点，不能单纯根据杠杆值hii的大小判断强影响点是否异常，但是我们对强影响点应该有足够的重视。为此引入库克距离，用来判断强影响点是否为y的异常值点。库克距离的计算公式为：,.,4.5异常值与强影响值,二、关于自变量x的异常值,对于库克距离，判断其大小的方法比较复杂，一个粗略的标准是当Di1时，认为是异常值点。,.,4.5异常值与强影响值,三、异常值实例分析,以例3.2的北京开发区的数据为例，做异常值的诊断分析。分别计算普通残差ei，学生化残差SREi，删除残差e（i），删除学生化残差SRE（i），杠杆值chii，库克距离Di，见表4.10,.,4.5异常值与强影响值,.,4.5异常值与强影响值,绝对值最大的学生化残差为SRE15=2.613，小于3。绝对值最大的删除学生化残差为SRE（15）=3.810，因而根据学生化残差诊断认为第15个数据为异常值。其中心化杠杆值chii=0.339位于第3大，库克距离Di=1.555位于第一大。由于,.,4.5异常值与强影响值,.,4.5异常值与强影响值,.,4.5异常值与强影响值,.,4.5异常值与强影响值,采用加权最小二乘回归后，删除学生化残差SRE（i）的绝对值最大者为|SRE（13）|=1.7424，库克距离都在0.5至1.0之间，说明数据没有异常值。这个例子也说明了用加权最小二乘法处理异方差性问题的有效性。,.,第五章自变量的选择与逐步回归,5.1自变量选择对估计和预测的影响5.2所有子集回归5.3逐步回归5.4本章小结与评注,.,第5章自变量选择与逐步回归,从20世纪60年代开始，关于回归自变量的选择成为统计学中研究的热点问题。统计学家们提出了许多回归选元的准则，并提出了许多行之有效的选元方法。本章从回归选元对回归参数估计和预测的影响开始，介绍自变量选择常用的几个准则；扼要介绍所有子集回归选元的几个方法；详细讨论逐步回归方法及其应用。,.,5.1自变量选择对估计和预测的影响,一、全模型和选模型,设研究某一实际问题涉及到对因变量有影响的因素共有m个，回归模型为：y=0+1x1+2x2+mxm+（5.1）称为全回归模型。如果我们从所有可供选择的m个变量中挑选出p个，记为x1,x2,，xp,构成的回归模型为：y=0p+1px1+2px2+ppxp+p（5.2）称模型（5.2）式为选模型。,.,5.1自变量选择对估计和预测的影响,一、全模型和选模型,模型选择不当会给参数估计和预测带来什么影响?下面我们将分别给予讨论。为了方便，我们把模型（5.1）式的参数估计向量和2的估计记为：,把模型（5.2）式的参数估计向量记为,.,5.1自变量选择对估计和预测的影响,二、自变量选择对预测的影响,关于自变量选择对预测的影响可

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

应用回归分析(1530)ppt课件

文档简介

温馨提示

最新文档

评论

应用回归分析(1530)ppt课件

文档简介

温馨提示

最新文档

评论

相关文档