武汉市PM2.5影响因素多元回归分析.docx_第1页
武汉市PM2.5影响因素多元回归分析.docx_第2页
武汉市PM2.5影响因素多元回归分析.docx_第3页
武汉市PM2.5影响因素多元回归分析.docx_第4页
武汉市PM2.5影响因素多元回归分析.docx_第5页
免费预览已结束,剩余15页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

武汉市PM2.5影响因素多元回归分析摘 要本文对武汉市2013 年1 月2013 年8 月PM2.5 质量浓度和影响因素数据资料进行整理统计,对影响大气污染的各个污染指标进行综合分析,分别建立了PM2.5质量浓度与其他污染指标存在不同的相关性,这类模型具有一定的实际应用价值,分别采用“强行进入法”“逐步进入法”建立了PM2.5 指标的多元线性回归模型,比较了对缺失值进行不同的方法处理时,差异不是特别大;还有就是共线性的问题,多重共线性并没有影响到整个模型的拟合,因而不会对模型得到因变量的点估计值有影响。通过定性分析,定量计算以及对各物理量之间的相互作用过程研究,得出PM2.5 质量浓度变化特征和各影响因素之间的关系。结果表明,对于5 个基本指标,两两之间,出了臭氧与二氧化氮以及臭氧与可吸入颗粒物,其余的指标在0.01 的水平上都是显著相关的;通过F 假设检验得出在0.01 的水平上,PM2.5 与其余指标均是显著相关的,其中,PM2.5 与臭氧呈现负相关,与其余量呈现正相关,与一氧化碳的相关系数最高;在最后进行了检验分析。在进行验证时,我们利用线性模拟,二次模拟分别与原始数据进行比较,得到的拟合效果比较好,是我们所要的结果;在最后面,根据线性多元回归模型得到的结果,做出相应的预测并且判断出一氧化碳对PM2.5 的影响是最大的,提出了一些相应的措施,能够有效地控制大气污染。关键词:PM2.5 污染特征 相关性 回归分析万方数据华 中 科 技 大 学 硕 士 学 位 论 文IIAbstractIn this paper, Wuhan January 2013 2013 August PM2.5 mass concentrations andfactors influencing collate statistical data , effects of atmospheric pollution on variouspollution indicators comprehensive analysis of PM2.5 mass concentrations were establishedwith other pollution indicators have different correlations such models have some practicalvalue respectively, using enter stepwise to establish a multiple linear regression modelPM2.5 indicators compared to the missing values different approach , the difference is notparticularly large ; there is collinearity problem of multicollinearity does not affect the fitof the entire model , and thus will not get the model variables because the point estimatevalues affected. Through qualitative analysis , quantitative calculation as well as thephysical interaction between the various studies , the relationship between PM2.5 massconcentration derived characteristics and the influencing factors. The results show that forthe five basic indicators between any two out of ozone and nitrogen dioxide , and ozone andparticulate matter , the rest of the index at the 0.01 level were significantly associated ;through F hypothesis test results in 0.01 on the level , PM2.5 and other indicators weresignificantly correlated , in which , PM2.5 and ozone negatively correlated positively relatedto its margin , the highest correlation coefficient with carbon monoxide ; were tested in thefinal analysis . Upon verification, we use linear analog, two simulations were comparedwith the original data were fitted get better results, we want results; in the final surface,according to the results obtained by the linear regression model, make the appropriatepredictions and determine the impact of carbon monoxide on PM2.5 is the largest, made anumber of appropriate measures to effectively control air pollution.Key words: PM2.5 Pollution characteristics correlation Regression analysis万方数据华 中 科 技 大 学 硕 士 学 位 论 文III目 录摘要 . IAbstract . II1 引言1.1 研究背景与意义 . 11.2 国外研究 . 21.3 国内研究 . 22 SPSS相关性分析2.1 基础理论知识. 42.2 数据的预处理. 52.3 PM2.5与各因素之间的关系 . 82.4 初步结果分析.103 PM2.5的多元回归模型3.1 回归模型设定.113.2 缺失值问题.163.3 共线性问题.163.4 “强行进入法”下的回归模型 .193.5 “逐步进入法”下的回归模型 .243.6 PM2.5多元线性模型的验证以及预测.334 总结致谢 .38参考文献.36万方数据华 中 科 技 大 学 硕 士 学 位 论 文11 引言1.1 研究背景与意义前段时间出现的恶劣的天气让人们逐渐的认识到了一个词语:雾霾。雾霾是人为活动与气候条件共同作用而发生的灾害性天气现象。另外,中国经济的粗放型发展模式与当前雾霾的产生有很大的关系,在粗放型经济发展模式下,如何处理治理污染和经济增长是一个问题,要怎样做才能兼顾二者。现在社会要进行可持续发展,建设成一个可持续发展的社会,倘若只是依靠破坏环境,牺牲环境取得的经济增长又怎么可能是可持续的?灰蒙蒙的天气让越来越多的中国公众注意到PM2.5,它是一个由英文和数字组成的专业术语。它潜伏在空气中,伤害人的健康,更严重的是它能给社会造成巨大的经济损失。我们是如何来分辨出PM2.5的呢? 粒子最重要的性质就是气溶胶颗粒物的大小。按粒径可把颗粒物分为总悬浮颗粒物(TSP)和可吸入颗粒物(PM10和PM2.5),其中TSP是指空气动力直径小于或等于100.0mm的颗粒物,PM10是指空气动力学直径小于或等于10.0mm的颗粒物。PM2.5(也称为可入肺颗粒物)是指空气动力学直径小于或等于2.5mm的颗粒物。在地球大气成分中,PM2.5含量很少,但它对空气质量和能见度的影响却很大。另外,粒径小于0.1m的粒子又被称为超细粒子1。PM2.5的主要来源是人为排放。人类不仅排放某些气体污染物(这些气体污染物在空气中可以转化为PM2.5),有时候也是直接排放PM2.5的。对于直接排放来说,它们主要来自燃烧过程,比如说,生物质(秸秆、木柴)的燃烧,化石燃料(煤、汽油、柴油)的燃烧,还有就是垃圾的肆意焚烧等。挥发性有机物,氮氧化物和二氧化硫等这些是属于可以在空气中转化成PM2.5的。另外的那些人为来源包括扬尘,粉尘等。大气中的细颗粒物PM2.5,它对人体的伤害很大,因为它们一般会依附于氮氧化物,重金属颗粒,还有硫化物等污染因子上234。万方数据华 中 科 技 大 学 硕 士 学 位 论 文21.2 国外研究在上个世纪下半叶,日本,英国等这些发达国家也出现过重雾霾天气(工业化迅速发展时期),而且造成了很严重的苦果。在过去的20 年里,国外广泛开展了关于PM2.5 的研究,主要是涉及PM2.5 的污染特征,排放清单以及PM2.5 对人体健康和大气能见度的影响等方面,其中在美国加州地区是进行细微颗粒物研究最多的地方。研究表明,PM2.5 的浓度不是单一因素的后果,它是综合作用的结果,它取决于化学变化,地理条件,气象条件等复杂因素相互作用;不同的地区PM2.5 的浓度值可能也会有所不同,对于夏季来说,这个比率在秋季比夏季高171。现在几十年已经过去,曾经那些饱受污染苦果的国家它们的环境也得到了很大的改善,比如说,美国洛杉矶享有“天使之城”的美誉也再度回来,英国曾被称为“雾都”,如今也已经摘掉了。针对雾霾问题,它们采取了很多行之有效的措施,在这方面很值得我们的学习。它们在治理雾霾方面采取了有效措施,归纳为两点:一是法治;二是源头治理。治理雾霾,不是一时兴起,不是短暂的行动,其它国家经过半个多世纪才能取得一定效果,所以我们要做好打长久战的准备 5678。1.3 国内研究国家环保部曾统计过,每年出现灰霾污染的天数达到100 天以上的城市数量不小。PM2.5 污染的影响很大:会给人的身体健康带来很大危险,城市大气中出现的灰霾现象它也做出了很大的贡献。2011 年末,PM2.5 被纳入了国家的新标准。2012 年,PM2.5 的信息公开方面都取得了不同程度的进步,但是对于我们国家来说,现在我们国家进入了一个污染的面积正在扩大的时期。我们关于PM2.5 在很多方面还没有明确的结论,比如说,它的来源是什么?我们怎么样来治理?对公众造成了什么伤害?什么时候能处理好PM2.5,让人们可以呼吸上新鲜空气? 9101112。自2006年开始,武汉大学的有关专家已经开始做关于PM2.5的研究,通过他们设置在武大测绘工程与遥感国家重点实验室楼顶的监测站采样数据显示,从2011年万方数据华 中 科 技 大 学 硕 士 学 位 论 文37月到2012年底,武汉大气中的PM2.5质量浓度平均值(国家质量标准所限的75mg /m3)为167 3 mg /m ,远远高于国家所规定的。PM2.5首次被写入政府工作报告是在2012年全国“两会”上。对PM2.5的关注度正在日益增大,这也在一方面折射出现如今我国环境污染的严峻性。从2013年9月国务院公布大气污染防治行动计划以来,不少地区加大了对污染空气的违法企业的处罚力度131415。环境是人的生存之本、发展之基。人们能够在一个良好的环境中生产和生活,可以放心地喝上干净的水,能够呼吸到呼吸新鲜的空气。治理雾霾不能再坐以待毙了,这一件刻不容缓的大事,导致雾霾形成的各种隐患需要我们彻彻底底地发掘出来,从而可以一一把它们根除。治理雾霾离不开全民的参与。引起雾霾的主要污染物之一就是PM2.5,所以研究各个污染物成了刻不容缓的事情。在雾霾面前,我们每个人都既是受害者,但与此同时我们也都负有一份责任,治理雾霾不是一件简简单单的事情,需要我们大家共同的努力,所以我们不可能把它推给政府,企业,每个人都应该贡献自己的力量,积少成多,积小成大。比如,培养节约节能的生活方式。同时,及时地监督与敦促相关部门与企业在治理雾霾上有所作为也是公民的一项权利和义务。单个人的小举动微不足道,但是当我们国家13亿人的力量汇聚到一起时,你就会发现这是一种强大的力量161718。万方数据华 中 科 技 大 学 硕 士 学 位 论 文42 SPSS相关性分析2.1 基础理论知识19202122客观事物之间都是存在关系的,而它们之间的关系大致可以分为两大类:函数关系和统计关系我们最常接触到的所说的相关分析是指用来分析事物之间统计关系的方法。通常我们在研究一个问题的过程中,一般是先对单变量进行分析,接着再对双变量之间的关系进行分析,最后拓展到对多变量之间的关系进行分析。然而多变量分析与单变量的分析却有一个最大的不同之处,那就是:客观事物之间的关联性开始被慢慢披露出来。我们在统计学的学习或者研究中,研究客观事物之间相互关联的数量特征具有十分重要的理论意义和实践意义。而在提到变量之间的关系时,我们首先想到的就是变量间具有的确定性关系,它所具有的特点是:当自变量确定后,因变量也就完全被确定了。对于确定性的关系,我们一般把它表示成函数的关系的形式,如:圆的半径和周长之间的关系C=2p r,其中r 是圆的半径,这就是我们所说的函数关系。具有确定性关系的变量,我们可以很好的来测量它们。与之不同,我们很难来看变量之间的非确定性关系,它是确定存在的,并且有的关系强,有的关系弱,而且它们的程度各有不同,那么如何来测度事物之间的统计关系的强弱一直是我们关注的问题,这是我们研究的重点,也是研究难点。非确定性关系,也即统计关系的特点是给定了一个变量值之后,另外一个变量也就是因变量可以在一定的范围内变动,而不是仅仅一个确定的值。例如,人的身高和体重之间的关系,同样身高的人,他们的体重可能会有很大的差异,因为除了受身高的影响,体重还受其他因素的影响;另外子女身高和父母身高,校园环境和学生体质,吸烟量和寿命,犯罪与否和年龄,家庭收入和支出,之间的关系等。进一步地,统计关系可以再进一步地分为线性相关关系和非线性相关关系。具体万方数据华 中 科 技 大 学 硕 士 学 位 论 文5的关系我们可以从下面的分支上更加形象地看到: 函数关系非线性相关客观事物之间的关系统计关系正线性相关线性相关负线性相关如果事物间存在因果关系,那么它们必然是相关的;但是当事物之间存在相关关系时,它并不一定就是因果关系,也有可能是伴随关系。相关关系是多种多样的,下面我们把它们大致归纳为6种类型:X YX YX YXX YX YX YX强正相关关系:一变量的增加,导致另一变量的明显增加是的主要影响因素弱正相关关系:一变量的增加,导致另一变量的增加,但是增加幅度不明显是影响Y的因素,但是不是唯一因素强负相关关系:一变量的增加,导致另一变量的明显减少是的主要影响因素相关关系弱正相关关系:一变量的增加,导致另一变量的减少,但是减小幅度不明显是影响Y的因素,但是不是唯一因素非线性相关关系:X,Y之间没 有明显的线性关系,但存在着某种非线性关系X仍是影响Y的因素不相关:X,Y之间不存在相关关系X不是影响Y的因素2.2数据的预处理:我们对数据进行相关性分析,具体的步骤如下:输入:武汉市PM2.5预处理数据;输出:相关系数矩阵1 2 3 4 51 1 1 2 1 3 1 4 1 5 12 1 2 2 2 3 2 4 2 5 23 1 3 2 3 3 3 4 3( , ) ( , ) ( , ) ( , ) ( , ) ( , )( , ), ( , ) ( , ) ( , ) ( , ) ( , )( , ) ( , ) ( , ) ( , ) ( , ) ( , )or( , ) ( , ) ( , ) ( , ) ( , ) (R y y R x y R x y R x y R x y R x yR y x R x x R x x R x x R x x R x xR y x R x x R x x R x x R x x R x xCR y x R x x R x x R x x R x x R=, , , , , , , , , , , , , , , , 5 34 1 4 2 4 3 4 4 4 5 45 1 5 2 5 3 5 4 5 5 5, )( , ) ( , ) ( , ) ( , ) ( , ) ( , )( , ) ( , ) ( , ) ( , ) ( , ) ( , )x xR y x R x x R x x R x x R x x R x xR y x R x x R x x R x x R x x R x x , , , , , , , , ,万方数据华 中 科 技 大 学 硕 士 学 位 论 文6运用SPSS软件的两个变量相关性分析工具分析这些指标两两之间的相关性。并且使用双侧检验得出指标之间的显著性水平2324。表2-1 相关系数矩阵Correlations(二氧化硫)x1(二氧化氮)x2(可吸入颗粒物)x3(一氧化碳)x4(臭氧)x5(PM2.5)y(二氧化硫)x1PearsonCorrelation1 .807* .678* .659* -.179* .726*Sig. (2-tailed) .000 .000 .000 .006 .000N 238 238 236 238 238 238(二氧化氮)x2PearsonCorrelation.807* 1 .727* .626* -.063 .734*Sig. (2-tailed) .000 .000 .000 .336 .000N 238 238 236 238 238 238(可吸入颗粒物)x3PearsonCorrelation.678* .727* 1 .586* -.069 .779*Sig. (2-tailed) .000 .000 .000 .295 .000N 236 236 236 236 236 236(一氧化碳)x4PearsonCorrelation.659* .626* .586* 1 -.381* .822*Sig. (2-tailed) .000 .000 .000 .000 .000N 238 238 236 238 238 238(臭氧)x5PearsonCorrelation-.179* -.063 -.069 -.381* 1 -.352*Sig. (2-tailed) .006 .336 .295 .000 .000N 238 238 236 238 238 238(PM2.5)yPearsonCorrelation.726* .734* .779* .822* -.352* 1Sig. (2-tailed) .000 .000 .000 .000 .000N 238 238 236 238 238 238*. Correlation is significant at the 0.01 level (2-tailed).但是在实际的应用中,我们会发现,如果单纯的通过计算相关系数的方法来研究变量间的相关性关系是不准确1415。例如:两变量间的数据对为(1,1),(2,2),(3,3),(4,4),(5,5),(6,6),(7,1).如果我们不通过图形来看的话,只是通过公式来计算它们的相关系数的话,得到的简单相关系数约万方数据华 中 科 技 大 学 硕 士 学 位 论 文7为0.395,那么根据这个数据我们可以得到的结论是两个变量间呈现弱相关关系,但是我们来看一下它的散点图,如下所示:图2-1观察上图,我们可以看到,如果我们把图中的红色大圆圈不考虑(踢出去的话),那么这两个变量之间是呈现完全正线性相关关系的,而并不是弱相关关系。我们仅仅通过计算公式来计算得到的相关系数较低是由于红色的异常数据点导致的。因此,我们在做变量间相关性的研究时要注意做到将绘制散点图,结合散点图与计算相关系数的方法,单纯依靠相关系数或者散点图都无法准确地反映出变量之间的相关性,把它们两者结合是非常必要的。2.3 PM2.5与各因素之间的关系本篇文章我们要研究的是PM2.5与其他污染物之间的影响,所以下面我们重点来看一下PM2.5与二氧化硫( 1 x ),二氧化氮( 2 x ),可吸入颗粒物( 3 x ),一氧化碳( 4 x ),臭氧( 5 x )的散点图,至于二氧化硫( 1 x ),二氧化氮( 2 x ),可吸入颗粒物( 3 x ),一氧化碳( 4 x ),臭氧( 5 x )它们两两之间的散点图就不在此一一列出了,万方数据华 中 科 技 大 学 硕 士 学 位 论 文8具体的图形参看本文后面。图2-2 PM2.5与二氧化硫的散点图如果只是仅仅观察上面的散点图的话,就会发现PM2.5与二氧化硫呈现正相关关系,但是这个相关性很弱,几乎看不出来。图2-3 PM2.5与二氧化氮的散点图从上面的PM2.5与二氧化氮的散点图我们可以得到这样的结果:PM2.5与二氧化氮之间呈现正相关关系,但是也不强。万方数据华 中 科 技 大 学 硕 士 学 位 论 文9图2-4 PM2.5与可吸入颗粒物的散点图仅从散点图我们可以很容易的看到:PM2.5与可吸入颗粒物呈现完全正相关关系。图2-5 PM2.5与一氧化碳的散点图PM2.5与一氧化碳的散点图也告诉了我们这两个变量之间是呈现较强正相关关系的(几个异常的数据点是个例外)。万方数据华 中 科 技 大 学 硕 士 学 位 论 文10图2-6 PM2.5与臭氧的散点图从上图中我们可以大致看出来PM2.5与臭氧是呈现负相关的:PM2.5的值高的时候臭氧的数值偏低,反之PM2.5的值偏低的时候臭氧的数值偏高。2.4 初步结果分析从表2-1中相关性矩阵可以做出如下分析:1.分析自变量之间的关系:对于这5个基本指标二氧化硫( 1 x ),二氧化氮( 2 x ),可吸入颗粒物( 3 x ),一氧化碳( 4 x ),臭氧( 5 x ),它们两两之间,只有臭氧与二氧化氮,臭氧与可吸入颗粒物在0.01的水平上不是显著相关的,其余的指标在0.01水平上是显著相关的。2.分析自变量与因变量之间的关系:我们主要是来研究PM2.5的,所以通过上表中的最后一行我们可以得出PM2.5与其余指标之间的相关性。通过F假设检验,得到在0.01的水平上,PM2.5与其余指标均是显著相关的。其中,PM2.5与臭氧是负相关的,而与其他指标呈现正相关,与一氧化碳( 4 x )的相关系数最高。万方数据华 中 科 技 大 学 硕 士 学 位 论 文113 PM2.5的多元回归模型考虑到2 SO , 2 CO ,CO,可吸入颗粒物以及3 O 等AOI参数与PM2.5的关系非常复杂,单一因素的影响通常随着其他条件的变化而变化。因此,在相关性分析的基础上,本文继续采用多元回归模型对PM2.5日均浓度与2 SO , 2 CO ,CO,可吸入颗粒物以及3 O 等关系进行建模分析。通过模型的建立,不仅能够确定影响PM2.5浓度的主要因素,而且能够通过这些参数的变化来预测PM2.5的指数,为规避高污染事件,降低健康,出行等风险提供指导 25262728。3.1 回归模型设定25262728我们在进行建模时,当然要在模型设定中的一些问题,具体如下:A1.正交假定A2.独立同分布假定A3.正态分布假定回归分析依赖于所设定的模型是正确无误的,模型的参数估计和相对应的假设检验都是建立在这一大前提之下的。而在实际的研究中,研究者一般都是根据某个理论或某些经验的研究结果来设定回归模型。而在事实上,在社会科学的研究之中,我们通常是没法有十足的把握来认为我们所设定的模型是正确的。一旦在模型设定中存在问题,那么,据此来进行的参数估计和对应的假设检验也都是存在问题的。在这里,我们仅来介绍其中两类与模型设定有关的错误,目的是“提高对模型设定本身是否正确”这一潜在假定的敏感和警觉。第一类错误是模型中纳入了某些无关的自变量;第二类错误是模型中忽略了某些的相关变量;前者错误是针对本不该纳入却被我们纳入模型的自变量,后者错误则是针对本该纳入却未被研究者们纳入模型的自变量。万方数据华 中 科 技 大 学 硕 士 学 位 论 文12纳入无关自变量.在回归分析中,我们在进行模型设定的时候,可能会加入某些无关的自变量(irrelevant independent variable)。换句话来说,尽管在总体中存在一个或多个自变量对因变量的偏效应是不存在的(也就是其总体回归系数为零),但还是会把它们纳入模型当中272829。我们一般假设总体中的模型如下:i 0 1 i1 2 i2 3 i3 i y = b +b x +b x +b x +e(3.1)并且该模型满足上述两个假设:A1,A2,但是在控制住1 x 和2 x 以后, 3 x 对y 是没有影响的,即3 b = 0。但是我们在估计模型之前,却是并不知道这一点的,从而我们得到的拟合结果,即回归模型包括了无关自变量3 x ,即:i 0 1 i1 2 i2 3 i3 y = b +b x +b x +b x(3.2)那么,对于无关自变量3 x 的纳入对模型的参数估计会不会有影响?如果有影响,那又会产生怎样的影响呢?对于1 b 和2 b 的无偏性而言,包括自变量3 x 是不会产生危害的。根据高斯-马尔科夫定理:在误差零均值,同方差,且互不相关的线性回归模型中,回归系数的最佳无偏线性估计(BLUE)就是最小方差估计(一般而言,任何回归系数的线性组合的最佳无偏线性估计就是它的最小方差估计。在这个线性回归模型中,误差既不需要假定正态分布,也不需要假定独立(但是需要不相关这个更弱的条件),还不需要假定同分布),最小二乘估计就是对总体参数的无偏估计,即:E(b) = b ,这个结论对于b 的任意取值都是成立的,包括取值为0,即b =0的时候。所以,在多元回归中含有无自关变量并不会影响OLS(普通最小二乘法)估计结果的无偏性。当然,我们基于某个样本数据而得到的估计值3 b 也有可能并不恰好等于零虽然它在所有随机样本中的平均取值为零。然而,我们纳入无关自变量也并不是完全无害。假设在我们的模型中不存在自变量3 x ,仅仅包含1 x 和2 x 两个自变量,即:万方数据华 中 科 技 大 学 硕 士 学 位 论 文13* * *i 0 1 i1 2 i2 y = b + b x + b x (3.3)我们可以通过相关的理论或者其它来证明,(3.2),(3.3)中的回归系数0 b , 1 b ,2 b 和*0 b , *1 b , *2 b 的方差是不同的。除非无关自变量3 x 与1 x , 2 x 均不是相关的,若否, *0 b , *1 b , *2 b 的方差将比0 b , 1 b , 2 b 的方差小。换言之,如果无关自变量3 x 与1 x , 2 x 存在相关关系,那么就会导致相应的回归系数(即1 b , 2 b )的标准误差会增大,并且增大的程度取决于无关自变量3 x 与1 x , 2 x 之间的相关程度。也就是说,如果总体中的自变量3 x 对因变量y 没有偏效应,那么把它( 3 x )加入模型只可能增加多重共线性的问题,从而减弱估计的有效性。所以,当3 b = 0的时候,我们更愿意倾向于不将无关自变量3 x 纳入模型中。可能我们总是有很好更多的理由来加入更多的自变量,但是,不要加入那些无关的自变量。因为如果这样做,我们: 有可能错过理论上有意义的发现; 违背了简约原则; 浪费了自由度; 导致估计精度的下降。忽略有关自变量.如果我们在模型的设定中忽略了某些本应该纳入但是却未被纳入的有关自变量(relevant independent variable),也就是下面的两种情况:a. 所忽略的变量与模型中的其他变量无关;b. 所忽略的变量与模型中的其他变量相关。在前一种情况下,是不会发生忽略变量偏误(omitted-variable bias)的;然而在后一情形下,则是有可能发生忽略定理偏误的。比如说,真实的模型本应该是包含1 x , 2 x 和3 x 的,记为:万方数据华 中 科 技 大 学 硕 士 学 位 论 文14y = X1b +e(3.4)但是我们却只包含了1 x 和2 x ,忽略了3 x ,模型记为:2 y = X b +m (3.5)当我们在(3.5)中无意识地忽略了相关变量3 x 时, 3 x 实际上已经变成了误差项3 3 m = b x +e 的一部分。针对第一种情况,因为3 x 与1 x , 2 x 都不相关,A1这个假定是不变的,最小二乘估计无偏;但是对于第二种情况,如果3 x 与1 x 相关,被忽略的自变量3 x 变成了误差项m 的一部分,那么就会使得2 x 与误差项之间不会再保持独立。这也就意味着,此时,A1假定不会再得到满足,从而,回归系数b 将变成总体参数的有偏估计,而偏误的方向取决于被忽略的自变量3 x 对因变量效应的方向以及该自变量与1 x 之间关系的方向。下面我们用如下所示表格来说明被忽略自变量3 x 对1 b 估计偏误的所有情形。偏误的大小是直接取决于该忽略自变量与模型中其他自变量之间的关系的,它们之间的相关性越强,那么忽略变量的偏误就会越大。表3-1 被忽略变量回归系数偏误的不同属性Corr( 1 x , 3 x )0 Corr( 1 x , 3 x ) 0正向偏误 负向偏误3 b 2时的情况与p = 0时的情况是类似的。我们可以证明,第j 个系数的方差是:221 1var( ) ( )( ), ( 1, 2, , )1 jj j ij pR SX Xb =s =-(3.9)211 j - R被称为第j 个方差扩大因子,我们把它简单地记为j VIF 。我们假定这些的j X 是可以取样的,使得2 0 j R = ,并且会使j j SX X 保持不变,那么VIF 表示的是由于自变量间的相关系数而由共线性引起的方差的增大。共线性还会影响预测值大方差,但是效果是不太明显的。对某些的预测值,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论