SAS系统和数据分析一元线性回归分析.doc_第1页
SAS系统和数据分析一元线性回归分析.doc_第2页
SAS系统和数据分析一元线性回归分析.doc_第3页
SAS系统和数据分析一元线性回归分析.doc_第4页
SAS系统和数据分析一元线性回归分析.doc_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

9000f6b6094f46a4b1df25237c239e23.pdf 商务数据分析 电子商务系列第三十一课 一元线性回归分析回归分析是一种统计分析方法,它利用两个或两个以上变量之间的关系,由一个或几个变量来预测另一个变量。在SAS/STAT中有多个进行回归的过程,如REG、GLM等,REG过程常用于进行一般线性回归模型分析。一、 回归模型1. 基本概念回归模型是一种正规工具,它表示统计关系中两个基本的内容:用系统的形式表示因变量Y随一个或几个自变量X变化的趋势;表现观察值围绕统计关系曲线的散布情况。这两个特点是由下列假设决定的:l 在与抽样过程相联系的观察值总体中,对应于每一个X值,存在Y的一个概率分布;这些概率分布的均值以一些系统的方式随X变化。l 图31.1是用透视的方法来显示回归曲线。Y对给定X具有概率分布这一概念总是与统计关系中的经验分布形式上相对应;同样,描述概率分布的均值与X之间关系的回归曲线,与统计关系中Y系统地随X变化的一般趋势相对应。图31.1线性回归模型的图示在回归模型中,X称为“自变量”,Y称为“因变量”;这只是传统的称法,并不表明在给定的情况下Y因果地依赖于X ,无论统计关系多么密切,回归模型不一定是因果关系,在某些应用中,比如我们由温度表水银柱高度(自变量)来估计温度(因变量)时,自变量实际上依赖于因变量。此外,回归模型的自变量可以多于一个。2. 回归模型的构造(1) 自变量的选择构造回归模型时必须考虑到易处理性,所以在有关的任何问题中,回归模型只能(或只应该)包括有限个自变量或预测变量。(2) 回归方程的函数形式选择回归方程函数形式与选择自变量紧密相关。有时有关理论可能指出适当的函数形式。然而,通常我们预先并不能知道回归方程的函数形式,要在收集和分析数据后,才能确定函数形式。我们经常使用线性和二次回归函数来作为未知性质回归方程的最初近似值。图31.2(a)表示复杂回归函数可以由线性回归函数近似的情况,图31.2(b)表示复杂回归函数可以由两个线性回归函数分段近似的情况。图31.2 用线性回归函数近似复杂回归函数(3) 模型的范围在建立回归模型时,通常需要限制模型的自变量或因变量取值的区间范围,这个范围由调查设计和已掌握数据的情况决定。(4) 回归分析的运用回归分析主要有3个目的:描述,控制和预测。二、 未指定误差项分布的回归模型1. 模型的正规表述现在我们只限于一个自变量的基本回归模型,且回归函数是线性的,可表述如下:(31.1)其中,是第次观测或试验中因变量的取值,和是参数,为第次观测或试验中自变量的取值,是随机误差项,其基本假设应该满足三个条件:l 均值E()0l 方差l 协方差,当i j时。即对所有的 i j ,与互不相关模型(31.1)称为简单模型,参数是线性的,自变量也是线性的。所谓“简单”,是因为它只有一个自变量,“参数线性”是指没有参数具有指数形式,或者被另一个参数相乘或相除,“自变量线性”是指这个自变量是一次的。参数和自变量都是线性的模型称为一阶模型。2. 模型的重要特点第次观察中的观察值包括2部分:常数项和随机项的和。所以,是随机变量。因为E()=0,这样:(31.2)其中,是常数。因此,当第次试验中取为时,相应的来自一个概率分布,其均值是:(31.3)所以,模型(31.1)的回归函数是:(31.4)这样对任何给定的,回归函数把水平与的概率分布均值联系起来。在第次试验中,的观察值超过或低于回归函数值的部分为误差项部分。假设误差项具有相同的方差 ,则相应的的方差为:这是因为:。无论自变量取值如何,模型(31.1)总是假设的概率分布具有相同的方差,且假设误差项互不相关。因此,任何一次试验的结果对其他各次试验的误差项都没有影响,相应的与也互不相关。总之,模型(31.1)的含义为:对所有水平的来说,因变量观察值都来自均值、方差的概率分布。此外,任何两个观察值 与 是互不相关的。三、 最小二乘估计法1. 观测数据图设有一组T期间内关于二变量和的样本观测值(,)(t1,2,N),在和之间存在着函数关系,如果将这些观测数据,在2维平面上用图来表示,只要数据至少有3个以上,那么所有的点大概不可能都在一条直线上。以被认为在X和Y之间成立的未知回归直线:Ya + bX为中心,观测点总是适当地散布在其周围。未知回归直线和各观测点的垂直方向的间隔就是上节引进的概率误差项。由于a和b的数值未知,因此,不能准确地知道与各观测点对应的概率误差项的值。大致来说,可以认为回归直线是从散布在平面上的各观测点的中央穿过的直线。根据所给的观测数据来估计这条直线的位置(a 和b的值),是我们需要解决的主要问题。2. 误差二乘和的最小化估计回归直线的方式(规则)有各种各样的考虑。但是,对于确定a和b的值时,要使所有的观测点和直线的“距离”从整体来说为最小这个一般的规则,大概无论谁也没有异议。意见的分歧在于究竟要用什么尺度来衡量各观测点和回归直线的“距离”。也就是说,即使都承认上述的一般规则,但由于按什么标准来测定“点和线的距离”的看法不同,推导出的估计方式也是多种多样的。假定估计出的直线为:(31.5)则同XXt对应的估计直线上的点是。观测点(xt,yt)同估计直线垂直方向的间隔:(31.1.6)叫做残差(residual)。(这里将各观测点看作是已经观测完毕的一对已知数组,用小写字母来表示)。应当注意的是误差项和残差的区别:误差项是未知回归直线同观测点的间隔,而残差是已知的估计直线同观测点的间隔。为了便于讨论,我们暂且将测量点和直线之间距离的“评价函数”限定为残差的函数。对照我们的常识,要求评价函数满足以下各条件:(1) 残差可能为正也可能为负,但不管是正的残差还是负的残差,只要其绝对值相等,用与直线的离差这一标准来衡量,就应当完全平等地评价。(2) 评价函数必须是各残差绝对值的非减函数。把评价函数记为,将以上两条件用数学方式表现,可得:(31.7)(31.8)同时,为了方便起见,除以上2个条件外,暂且再追加以下2个条件。(3) N个观测点都具有同等资格。即和(t s)作为评价函数的变量应得到同样的对待。这一条件同各期误差项的方差为一定值的假定有着密切的关系。将条件(3)用数学方式表现,可得,对于(1,2,N)的任意重新排列有:(4) 我们已经假定时期不同的概率误差项相互之间不相关。因此,评价函数中各的作用最好是相互无关的。将这一叙述用数学方式表示,可得:(31.9)根据以上的讨论,备择的评价函数被限定在相当狭的范围内,作为满足资格的函数,例如可以考虑:(31.10)当k为偶数时,绝对值的符号就失去意义。残差是回归系数的估计值()的函数。因此,如果给定了观测数据(xt,yt),则可以把V看作是以和为变量的二变量函数。从而可以考虑确定能使V为最小的和的值。当然,使V的值为最小的和的值要依存于N个观测数据。当k= 1时,评价函数式(31.10)是残差绝对值的总和。就某种意义来说,这一评价函数在直观上也许是最容易理解的。通过使它为最小来确定和的方式,叫做最小绝对离差估计法(least absolute deviation estimation method)。当k2时,评价函数是残差的平方和。确定能使这一评价函数为最小的和的方式,便是最小二乘法(least squares method)。令k= 2,将式(31.6)代入式(31.10),可得:(31.11)把样本观测值看作已知数,从而可以把V当作和的函数来考虑,利用解决最大最小问题的方法,令V对和的偏导数为零,可以推导出关于和的二元联立一次方程组为:(31.12)(31.13)这一联立方程叫做正规方程式,其解如下:(31.14)(31.15)(31.16)在求解时,利用了下列恒等式:因为,V的驻点(使偏导数同时为0的和 的值)只有唯一的一个,而且通过增大和的值,可以使V无限增大,所以正规方程的解的确给出了V的最小值。于是,可知最小二乘估计量是:(31.17)(31.18)(31.19)3. 最小二乘估计量的平均值和方差我们已经相当详细地论述了关于“估计量的优劣”问题的一般理论。从18世纪由高斯(Gauss)发明的所谓最小二乘法直到今天仍得到如此广泛的实际运用这一事实来看,最小二乘估计法理论应具有某些特别的优点。如前所述,最小二乘法并不是“确定使T个观测点与回归直线之间的距离就整体来说为最小的直线位置”的独一无二的方法, 它只不过是多种方法中的一个罢了。尽管如此,最小二乘法还能够绝对地凌驾于其他任何方法之上,一直被应用于现实数据的分析,这并不仅仅是由于计算简单,而且还有其他合适的理由理论上的根据。事实上,在计算技术有了非常大的进步的今天,计算简便已经不再具有那样大的价值了。以下,我们首先来研究一下最小二乘估计量的性质。将代入估计量(31.17)和估计量(31.18),并作以下变形:(31.20)(31.21)于是,和的期望值分别为:(31.22)(31.23)从而很简单地证明了和分别是a和b的无偏估计量。这样,最小二乘估计量顺利地通过了第一道关卡。既然已表明最小二乘估计量具有无偏性,那么下一个问题就是估计量的方差的大小。我们暂且先根据方差的公式进行形式上的推导。根据前面的假定:和,由定义得(31.24)按照同样的方法也可以推导出:(31.25)这里顺便再计算一下和的协方差:(31.26)从式(31.25)和式(31.26)可知,估计量的方差与样本的大小大致成反比。同时,解释变量在较广的范围内分布得越散,估计量的方差就越小。估计量的方差越小即意味着估计值的精度越高。当时, 和都是一致估计量。四、 检验与预测从最小二乘估计表达式(31.17)和(31.18)知,只要给出了N组数据,总可将它们代入这两个表达式获得a和b的估计,从而写出回归方程。但这个回归方程是否有意义呢?需要有个检验准则。为作检验,首先要建立假设。我们求回归方程的目的是要去反映随变化的一种统计规律,那么如果b=0,从式(31.4)可知,不管如何变化,不会随之而改变,在这种情况下求出的回归方程是无意义的。所以,检验回归方程是否有意义的问题转化为检验下列假设是否为真:(31.27)常用的方法有F检验和t检验方法。1. F检验这一方法类似于第三章所介绍的方差分析的想法,也是从观察值的偏差平方和分解入手。我们观察到的的差异可以用总偏差平方和表示: (31.28)造成这一差异的原因有如下两个方面:一是由于假设不真,从而对不同的值,随而变化。我们可以用下列偏差平方和来表示由此引起的差异:(31.29)称为回归平方和。其中,。所以,公式(31.29)又可以写成:(31.30)根据公式(31.24)可知,其期望值:(31.31)这便表明,RSS中除了误差波动外,还反映了由于所引起的数据间的差异。二是由其他一切随机因素引起的差异,它可以用残差平方和:(31.31)表示。由于可以证明:(31.32)于是有:(31.33)所以,其自由度为。利用公式,从而有下列平方和分解式:(31.34)由于在为真时,与都是的无偏估计,因而采用F统计量:(31.35)来检验原假设是否为真。2. t检验由公式(31.24)和(31.25)知(31.36)(31.37)在原假设为真时,但其中未知,常用去代替,根据公式(31.32)和又与独立,从而在时有:(31.38)实质上,对于一元回归方程t检验与F检验是等价的,因为只要将公式(31.30)中的RSS代入到公式(31.35)中去,就不难发现。我们同样可以得到原假设为真时的t统计量:(31.39)3. 利用回归方程作预测当求得回归方程后,并经检验,方程是显著的,则可将该回归方程用于预测。所谓预测是指当取某一个具体值时,对相应的取值所作的推断。由模型知是一个随机变量,要预测随机变量的取值是不可能的,只能预测其期望值。根据前面公式(31.24)、(31.25)和(31.26)可知,在处的回归值是,且:(31.40)其中:(31.41)(31.42)其中,未知,用去代替,设杠杆率,所以预测均值的预测区间为:(31.43)其中,的自由度为。注意在SAS系统model语句中的clm选项是按公式(31.43)来计算的。然而在时,随机变量的取值与预测均值总会有一定的偏离,我们根据公式(31.43)不难求出的均值和方差,且它符合正态分布,故有:(31.44)其中,未知,用去代替,所以的预测区间为:(31.45)其中,的自由度为。注意在SAS系统model语句中的cli选项是按公式(31.44)来计算的。从方差表达式中我们可以看到,当取值离均值越近,预测精度就越好,当取值离均值越远,预测精度就越差,其预测区间两头呈喇叭状。因此,我们要特别注意取值应该在样本数据最小的和最大的之间,否则预测很不可靠。五、 回归诊断回归诊断主要用于检验关于回归假设是否成立,以及检验模型形式是否错误,否则我们通过最小二乘法求得的回归方程就缺乏理论依据。这些检验主要探究的问题为:l 残差是否为随机性、是否为正态性、是否不为异方差。l 高度相关的自变量是否引起了共线性。l 模型的函数形式是否错误或在模型中是否缺少重要的自变量。l 样本数据中是否存在异常值。1. 残差图分析所谓残差图就是以残差为纵坐标,某一个合适的自变量为横坐标的散点图。残差中包含了许多有关数据和模型的信息,它是研究回归诊断最基本及最重要的统计量。残差图分析的基本思想是,在回归模型的假设中,我们总是假定误差项是独立的正态分布随机变量,且均值为零和方差相等为。如果模型适合于观察到的数据,那么残差作为误差的无偏估计,应基本反映误差的假设习性。即残差图应该在零点附近对称地密布,越远离零点的地方就疏散,则在形象上似有正态趋势,常认为模型与数据拟合得很好。如图31.3所示,是残差的各种可能出现情况。图31.3 残差的主要几种类型若残差图呈现如图31.3(a)所示的形式,残差是随机的且不表示出一定的趋势与形式,我们认为建立的回归模型应诊断为无甚大问题。更进一步的诊断应该采用学生化残差鉴别是否正态性。一个简单的思想就是,如果模型假设正确的话,残差就应该是误差的良好估计,那么残差全体构成的直方图应当与正态曲线很相似。我们可以求出估计残差的方差,且符合正态分布:(31.46)那么学生化残差:(31.47)则遵循标准正态分布。在实际中,学生化残差常与配合作图,会有更好的直观判断效果。若残差图呈现如图31.3(b)所示的形式,有一个对既定模型偏离很大的观察数据点,称为异常点。如果怀疑异常点是由于记录数据中发生的错误或者在测量过程中采用了拙劣的技巧,我们理应从数据集中删除,重新回归模型。但对异常点的处理须持谨慎态度,因为异常点的出现可能代表了相当重要的某些数据,它恰好成为我们探究某些事先不清楚或许是更为重要的因素的线索。在SAS系统的reg回归过程中用来度量异常点影响大小的统计量是COOKD统计量,计算方法请参阅SAS/STAT软件使用手册。若残差图呈现如图31.3(c)所示的形式,残差随的增大而增大。如图31.3(d)所示的形式,残差随的增大而先增后减,则蕴含着残差乃至误差对于不同的观察值具有不同的方差变化,称为异方差。在这种场合应该考虑在回归之前对数据或进行变换,实现方差稳定后再拟合回归模型。原则上,当误差方差变化不太快时取变换,当误差方差变化较快时取变换或,当误差方差变化很快时取变换。当然,还存在着不少其他变换,如著名的Box-Cox幂变换。若残差图呈现如图31.3(e)所示的形式,显示了模型本身具有非线性趋势,或者提示人们在模型中是否忽略了若干重要的变量。如图31.3(f)所示的形式,显示了模型本身具有线性趋势。同样表示了模型的错误选定。2. 共线性回归研究中很容易发生模型中两个或两个以上的自变量高度相关,从而引起最小二乘估计可能很不精确。高度相关的自变量以及由它们所引起的估计问题合在一起称之为共线性(collinearity)问题。为什么共线性会引起参数估计可能很不精确呢?主要原因是最小二乘法所利用的数据信息,如果存在共线性,就可能已经被其他的自变量说明了大部分,因此用剩余的少量数据估计参数,将产生估计参数的方差很大,置信区间也会很大,假设检验也使人缺乏信任感。在实际中,最常见的问题是一些重要的自变量很可能由于在假设检验中t值不显著而被不恰当地剔除了。共线性诊断问题就是要找出哪些变量间存在共线性关系。SAS系统的reg过程中提供了特征值法、条件指数collin和方差膨胀因子vif,请参阅SAS/STAT软件使用手册。3. 误差的独立性在回归诊断中,有一个非常重要的回归模型假设需要诊断和检验,那就是回归模型中的误差项的独立性。如果误差项不独立,那么我们对回归模型的许多处理,包括误差项估计、假设检验等都将没有推导依据。由于残差是误差的合理估计,因此检验统计量通常是建立在残差的基础上。检验误差独立性的最常用方法,是对残差的一阶自相关性进行Durbin-Watson检验。原假设误差项是相互独立的,备选假设误差项是相关的。检验统计量为:(31.48)我们可以通过简单不等式证明:因此,DW统计量应满足:(31.49)如果DW接近于0,表示残差中存在正自相关;如果DW接近于4,表示残差中存在负自相关;如果DW接近于2,表示残差独立性。在给定显著水平下,我们可以查Durbin-Watson表得到不能拒绝独立性原假设的区间。六、 PROC REG过程它的一般格式为:PROC REG 输入数据集名 ;MODEL dependents=independents / ; 其它选择语句 ;RUN;1. PROC REG语句中的l OUTEST=SAS数据集将有关模型的参数输出到指定的SAS数据集中 l OUTSSCP=SAS数据集将相关矩阵输出到指定的SAS数据集中l ALL屏幕输出所有内容l NOPRINT不在屏幕输出任何内容2. MODEL语句中的选项该语句定义建模用的因变量、自变量、模型的选择及结果输出的选择。与模型有关的选项有:(1) SELECTION选择合适的建立模型方法l SELECTION=FORWARD SLENTRY=显著性水平前进法(FORWARD):对每一个尚不在方程内的自变量按一定的显著性水平,根据其一旦进入模型后对模型的贡献大小逐步引入方程,直至再没有对模型有显著贡献的自变量。缺省SLENTRY=0.5l SELECTION=BACKWARD SLSTAY=显著性水平后退法(BACKWARD):先建立包含全部变量的模型,然后按一定的显著性水平从模型中逐步剔除变量。缺省SLSTAY =0.1l SELECTION=STEPWISE SLENTRY =入选水平 SLSTAY=剔除水平逐步法(STEPWISE):按前进法进入变量,再对模型内所有变量检验,看是否有新因变量引入而对模型的贡献变得不显著的变量,若有就剔除,若无则保留,直至方程内所有的变量均显著,显然逐步法有两个水平,即选入水平和剔除水平,而且剔除水平应低于选入水平。缺省SLENTRY =0.15 SLSTAY =0.1在上述三种方法的使用中,若要求打印出每一次选入或剔除变量进行模型拟合时的所有统计量,可以加选DETAILS。(2) NOINT表示拟合无常数项(截距)的回归模型与屏幕输出有关的选项有:l CORRB输出参数估计的相关阵l STB输出标准化偏回归系数矩阵l P输出个体观测值、预测值及残差。若已选了CLI、CLM、R,则无需该选项l R输出每个个体观测值、残差及标准误差l CLM输出每个观测值因变量期望值的95%的上、下限l CLI输出每个个体观测值的95%的上、下限与残差分析有关的选项有:l VIF输出变量间相关性的方差膨胀系数(Variance Inflation Factor),VIF越大,说明由于共线性存在,使方差变大。l COLLIN输出条件数(Condition index),它表示最大的本征性与每个自变量本征值之比的平方根。一般情况下,条件数越大越可能存在共线性。l TOL表示共线性水平的容许值,TOL(Tolerance Value)越小说明其可用别的自变量解释的部分多,自然可能与别的自变量存在共线性关系。l DW输出Durbin-Watson统计量3. 其他选择语句注意,这部分的语句可以在REG过程被被激活后,以交互式方式运行。l OUTPUT语句建立SAS的输出结果数据集语句格式为:OUTPUT OUT=SAS数据集名 关键字名=输出数据集中的变量名其中关键字名为需要的统计量名,它们有P(预测值)、R(残差)、L95M(期望值的95%的下限)、U95M(期望值的95%的上限)、L95(个体预测值的95%的下限)、U95(个体预测值的95%的上限)、STDP(期望值的标准误差)、STDR(残差的标准误差)、STDI(预测值的标准误差)、STUDENT(学生化残差)、COOKD(COOK氏D值)l PLOT语句绘制两变量的散点图语句格式为:PLOT X*Y / 选项l ADD 变量名列表向模型中增加变量l DELETE 变量名列表删除原拟合模型中的有关变量l REFIT重新拟合模型l PRINT输出有关模型的相关信息七、应用举例例31.1 广告花费X与销售额Y的回归模型。大多数公司最终会询问关于花费在广告上的费用对公司产品销售额的影响程度。由于广告需要一定的时间才能达到它的效应,同时它的效应也不是永久持续的,它的影响也许仅仅延续开头的一段时期。假设公司相信销售额与当月以及前两个月内所花的广告费有较密切的关系,即意味着:Yt与Xt,Xt-1,Xt-2有密切的关系。假设它们之间存在线性关系,建立模型为:Yt=0+1Xt+2 Xt-1+3 Xt-2+t我们现在有某公司15个月内有关广告花费X与销售额Y的数据,如表31.1所示。表31.1 广告额与销售额月t月销售额Yt月广告花费Xt12945280242954003564545046995590583456506969575071104589081239510009137451050101509512001116445125012177951350131914514601420495150015218451650程序如下:LIBNAME STUDY D:SASDATAMYDIR;DATA STUDY.AAA06;INPUT SALES ADV ;ADVLAG1=LAG1(ADV);ADVLAG2=LAG2(ADV);OUTPUT ;CARDS;2945 280 4295 400 5645 450 6995 590 8345 6509695 750 11045 890 12395 1000 13745 1050 15095 120016445 1250 17795 1350 19145 1460 20495 1500 21845 1650;PROC REG DATA=STUDY.AAA06 OUTEST=STUDY.AAA06OUT;MODEL SALES=ADV ADVLAG1 ADVLAG2;RUN;输出的结果见表31.2。表31.2 回归分析的第一次结果 The SAS System Model: MODEL1Dependent Variable: SALES Analysis of Variance Sum of Mean Source DF Squares Square F Value ProbF Model 3 331387422.75 110462474.25 3232.236 0.0001 Error 9 307577.25137 34175.25015 C Total 12 331695000 Root MSE 184.86549 R-square 0.9991 Dep Mean 13745.00000 Adj R-sq 0.9988 C.V. 1.34497 Parameter Estimates Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob |T| INTERCEP 1 522.130666 372.39417017 1.402 0.1944 ADV 1 3.681484 1.77889092 2.070 0.0684 ADVLAG1 1 4.965806 1.46614904 3.387 0.0080 ADVLAG2 1 5.199508 1.90840150 2.725 0.0234运行后,得到的最小二乘回归形式为:Yt=552.1+3.681Xt+4.966Xt-1+5.200Xt-2进一步统计分析,按显著性水平=0.05需要剔除ADV变量,并要求绘制残差图,要再一次提交下列程序:DELETE ADV;Print ;PLOT R. * P. / SYMBOL=*;RUN;再一次的输出的结果见表31.3。表31.3 回归分析的第二次结果 The SAS System Model: MODEL1Dependent Variable: SALES Analysis of Variance Sum of Mean Source DF Squares Square F Value ProbF Model 2 331241050.48 165620525.24 3648.435 0.0001 Error 10 453949.52455 45394.95245 C Total 12 331695000 Root MSE 213.06091 R-square 0.9986 Dep Mean 13745.00000 Adj R-sq 0.9984 C.V. 1.55010 Parameter Estimates Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob |T| INTERCEP 1 1161.641018 239.51760577 4.850 0.0007 ADVLAG1 1 5.873233 1.61243014 3.642 0.0045 ADVLAG2 1 7.944640 1.58131978 5.024 0.0005将Xt从模型中剔除而重新建立模型,得到的估计方程为:Yt=1161.6+5.873Xt-1+7.945Xt-2第三十二课 注意到新的估计方程式并不是从原来的方程式中单纯剔除Xt项而获得,新的估计方程式也必须重新进行完全的F检验与部分的T检验,结果显示余下的变量应当保留在模型中。多元线性回归分析七、 多元回归模型表示法通常,回归模型包括k个变量,即一个因变量和k个自变量(包括常数项)。由于具有N个方程来概括回归模型:(32.1)模型的相应矩阵方程表示为:(32.2)式中;(32.3)其中,Y为因变量观察的N列向量,X为自变量观察的N (k+1) 矩阵,为末知参数的(k+1) )列向量,e 为误差观察的N列向量。在矩阵X表达式中,每一个元素Xij 都有两个下标,第一个下标表示相应的列(变量),第二个下标表示相应的行(观察)。矩阵X的每一列表示相应的给定变量的N次观察的向量,与截矩有关的所有观察值都等于1。经典的线性回归模型的假设可以阐述如下:l 模型形式由(32.1)给定;l 矩阵X的元素都是确定的,X的秩为(k+1),且k小于观察数N;l e 为正态分布,E(e )=0 和 ,式中I为NN单位矩阵。根据X的秩为(k+1) 的假定,可以保证不会出现共线性。如果出现完全共线性,矩阵X的一列将为其余列的线性组合,而X的秩将小于(k+1) ),关于误差的假设是最有用的假设,因为用它可以保证最小二乘法估计过程的统计性质。除了正态性外,我们还假定每一个误差项的平均值为0,方差为常数, 以及协方差为 0 。假若我们按Y的分布来表示第三个假设,则可写成下式:(32.4)八、 最小二乘法估计我们的目的是求出一个参数向量使得残差平方和最小,即:(32.5)式中:(32.6)(32.7)其中,表示回归残差的N列向量,而表示Y拟合值的N列向量,表示为估计参数的(k+1) 列向量,将式(32.6)和式(32.7)代入式(32.5),则得:(32.8)为了确定最小二乘法估计量,我们求ESS对进行微分,并使之等于0,即:(32.9)所以:(32.10)被称为“交叉乘积矩阵”,即矩阵能够保证逆变换,这是因为我们假设X的秩为(k+1),该假设直接导致了的非奇异性。最小化的二阶条件是, 是一个正定矩阵。最小二乘法残差有一个有益的特性,即:(32.11)这个结果说明自变量和残差的交叉乘积的总和为O,这个公式在一些推导中是非常有用的。 现在可以考虑最小二乘估计量的性质。首先可以证明它们是无偏估计量。因为:(32.12)设式中,且是常数,这样:(32.13)根据式(32.13) ,可以看到,只要遗漏变量都是随机分布的,与X无关,并且具有 0 均值,则最小二乘法估计量将是无偏的。(32.14)我们看到,最小二乘法估计量为线性和无偏估计量。事实上,为的最佳线性无偏估计量,也就是说,它在全部无偏估计量中方差最小,这就是著名的高斯马尔可夫定理。为了证明高斯马尔可夫定理,我们需要证明,任何其他线性估计量b的方差比的方差大。请注意=AY。为了不失去一般性,我们可写成:(32.15)假如b是无偏的,则:(32.16)式(32.16)成立的一个必要和充分的条件是,这样就可以研究矩阵。由于,所以有:(32.17)由于:因为,所以,即:(32.18)我们可以看出,为一半正定矩阵。该矩阵的二次型为0,只有当0(所有元素为0)时才出现。当时,另外的估计量就是普通最小二乘法估计量,这样,我们的定理就得到证明。九、 的估计和t检验为了计算估计参数的方差协方差矩阵,我们需要给出的估计量,该估计量自然选为:(32.19)证明 为 的一个无偏估计量,虽很单调冗长,但不困难。因此,是Var()的估计。当 为已知时,可用正态分布假设检验。当用近似时,我们不得不用t假设检验。为此,我们利用以下的统计结果:l 若 已知,则服从分布,具有Nk1个自由度;l 服从分布,具有Nk1个自由度;l ,当i=0,1,2,,k时,服从正态分布,平均值为0,方差为,其中vi为的第i个对角线元素;l 和 相互独立。由此得出:(32.20)该式为t分布,具有(N-k-1)个自由度。这就使我们能按照与前面所述相同的方式确定各个回归参数的置信区间。假如t值的绝对值相当大,就可以在适当选定的置信水平上否定原假设,参数的置信区间可由下式得出:(32.21)其中,为与显著水平有关的t分布临界值。一、 R2和F检验我们可将Y的总变差分成两部分,一部分代表已说明变差,另一部分代表未说明变差。为了简化公式推导过程,首先我们假定Y变量具有0平均值,即 =0,则有:(32.22)由于和,因此:(32.23)式中为总平方和,为回归(已说明)平方和,为残差(未说明)平方和,归纳成回归方差分析表,见表32.1。表32.1 回归方差分析表变异来源source离差平方和SS自由度df均方MSF统计量FP概率值P回归RP误差E总变异T从而(32.24)若因变量不具有0平均值,我们必须改进一下的定义。这样,由此可以得出:(32.25)和(32.26)注意到一个数学上的事实:随着模型中增添新的变量,必定会增加,从而只要给模型增添越来越多的新因素,就可能使得人为地增大。在一元回归时已经指出较大常指模型与数据拟合得较好,在多元回归时很容易错误地去寻找一个极大化的回归模型。我们应该知道一个好的多元回归模型,应是具有合理个数的有意义自变量的简单模型。为了解决这个问题,提出了修正,使得只有当新增变量确实对因变量有所作用时修正才会增加。我们定义为修正的,它校正拟合优度对自由度的依赖关系,如下式所示:(32.27)现在就可以考虑对回归系数集的统计检验。最通常利用的检验是, 这个联合假设的检验。合适的F统计量为:(32.28)具有k和Nk1自由度。较大的值,可使我们否定原假设。一一、 reg回归过程 在SAS/STAT中有多个进行回归的过程,如reg、glm等,常用于进行一般线性回归模型分析的为reg过程。1. proc reg过程Reg过程一般由下列语句控制:proc reg data=数据集集名 ;model 因变量=自变量名列 ;var 变量列表;output out=数据集名 ;plot 绘图表达式 ;print 关键字列;weight 变量;freq 变量;by 变量;restrict 方程1,方程2, ;test 方程1,方程2,;run ;其中,model语句是必需要有的,其他语句都是可选的。2. proc reg 语句中的l outest=SAS数据集将有关模型的参数估计和选择的统计量输出到指定的SAS数据集中。l outsscp=SAS数据集要求把平方和及叉积矩阵输出到type=sscp的数据集中。l all屏幕输出所有内容。l usscp对用在该过程中的所有变量输出平方和及叉积矩阵。l noprint不在屏幕输出任何内容。3. model语句中的(1) 确定变量筛选办法的选择项l selection =none | forward | backward | stepwise | maxr | minr | rsquare | cp | adjrsq依次表示全部变量进入法none、前进法forward、后退法backward、逐步筛选法stepwise(前进法与后退法的结合)、最大R2增量法maxr、最小R2增量法minr、R2选择法rsquare、Mallows Cp 选择法cp、修正R2选择法adjrsq。(2) 其他选择项表3.2所示的是可在model语句中选用的其他选项。表32.2 model语句中的其他选项acovxpxspecpcorr1slentrydetailsaiccovbistbpcorr2slstaylackfitsbccorrbpcliscorr1startcollinss1mserclmscorr2bestcollinointss2ssebjpadjrsqincludeinfluencevifseqbdwrmsegmsepstoppartialtolallpcspnointsigmanoprintbic其中一些选择项的意义如下:l acov存在异方差时,输出参数估计量的渐近协方差阵的估计。l spec进行关于方差异性的检验。l slentry | sle =显著性水平规定入选变量进人方程的显著性水平。l slstay | sls=剔除水平规定从方程中剔除变量的显著性水平。l includen强迫前n个自变量进入模型。l starts以含有model语句中前3个自变量的模型开始,进行比较、选择过程(仅用于maxr或minr方法)。l stops当找到最佳的s个变量模型之后,逐步回归便停止(仅用于maxr或minr方法)。l p要求计算各观测点上因变量的预测值。l r作残差分析,同时给出因变量的预测值。l cli给出各自变量x0所对应的因变量y0的95置信上、下限。l clm给出各自变量所对应的因变量预测值(均数)Eyi i 的95置信上、下限。l noint指明回归方程不带截距项(常数项)。l stb要求输出标

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论