部分协变量缺失下的线性回归分析及其应用_第1页
部分协变量缺失下的线性回归分析及其应用_第2页
部分协变量缺失下的线性回归分析及其应用_第3页
部分协变量缺失下的线性回归分析及其应用_第4页
部分协变量缺失下的线性回归分析及其应用_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

毕业论文题 目 部分协变量缺失下的线性回归分析及其应用学 院 基础科学学院专业班级 110802学 号 20112994姓 名 吴佳桐指导教师 袁晓惠二一五年六月四日I中 文 摘 要在目前的各个领域的研究调查中,由于受到各种已知或者未知因素的影响,经常会导致缺失数据出现的情况。而由于缺失数据的存在,不但会增加研究者分析数据的难度,而且会造成分析结果的偏差,从而降低研究者统计计算工作的效率。因此考虑如何消除或者尽可能的减少这些缺失数据的影响就变的越来越重要了。文章首先介绍了回归模型及其基本概念并介绍了使用方法;然后介绍了国内外对缺失数据的研究现状,并简单介绍了数据缺失机制的三种形式,指出解决数据缺失的一般性方法。并在接下来的文章中介绍了在协变量缺失下的线性回归模型,最后是利用R 程序对数据进行实证分析。为了有效地解决缺失数据带来的问题,本文使用了其中三种方法对缺失数据集做了相应的处理。首先使用的是剔除法即将含有缺失数据列直接删除;第二种方法是对数据集做逆概率加权;第三种方法是使用回归补值法,对缺失数据集进行填补,从而形成一个完整的数据集,然后对填补后的数据集进行相应的统计分析。本文研究的重点是部分析变量缺失下的回归分析,对不同的样本量做数值模拟,研究在两种缺失程度的数据(15%、30%的随机缺失)通过对比,针对本文的数据研究发现逆概率加权法更好。关键词 线性回归 缺失值 缺失机制 填补方法IITitle Linear regression analysis with missing covariates and its applicationAbstractIn the present investigation of various fields, because of the influence of various known or unknown factors, it often leads to the missing data. Because of the existence of missing data, it not only increases the difficulty of the researchers to analyze the data, but also can lead to the deviation of the results of the analysis, which can reduce the efficiency of the study. So it becomes more and more important to consider how to eliminate or minimize the impact of these missing data. At first, the paper introduces the regression model and the basic concept and describes the methodology used; then introduces the research status at home and abroad for the missing data, and introduces three forms of the missing data mechanism, it is pointed out that to solve the general methods of missing data. In the next article, the linear regression model is introduced, and the data is analyzed by R program. In order to solve the problem caused by the missing data, three methods are used to deal with the missing data sets. The first use of elimination will contain missing data directly to a column removed; the second method is to data sets to do the inverse probability weighted; the third method is using regression imputation method, to fill the missing data set, so as to form a complete data set, and then the corresponding statistical analysis to fill the data set.The focus of this paper is analysis of missing variables regression analysis, to the different amount of sample numerical simulation study in two levels of missing data (15%, 30% of the missing at random) by contrast, according to the data of the study found inverse probability weighting method is better.Key words Linear regression Missing value Missing mechanism Imputation methodIII目 录1 绪论 .11.1 回归分析的发展历程 .11.2 多元线性回归模型的一般形式 .11.3 多元线性回归模型的基本假定 .21.4 回归参数的估计的主要方法 .31.5 回归分析研究的主要内容 .42 缺失数据的介绍 .52.1 研究缺失数据的背景和意义 .52.2 国内外研究情况 .52.2.1 国外研究情况 .52.2.2 国内研究背景概况 .62.3 缺失的原因 .62.4 缺失机制 .72.4.1 完全随机缺失 .72.4.2 随机缺失 .82.4.3 完全非随机缺失 .82.5 缺失数据的处理方法 .92.5.1 剔除数据法 .92.5.2 回归填补法 .92.5.3 IPW 逆概率加权法 .93 协变量缺失下的回归分析 .113.1 协变量缺失下的回归分析的介绍 .113.2 协变量缺失下的估计方程 .113.2.1 估计方程的介绍 .113.2.2 完整案例分析和相关偏差 .123.2.3 加权估计方程 .133.3 方法介绍 .143.3.1 建立模型 .143.3.2 全数据下的参数模型 .143.3.3 直接剔除法 .153.3.4 逆概率加权法 .153.3.5 回归填补法 .153.4 模拟比较 .164 实例分析 .184.1 数据来源 .184.2 数据描述 .184.3 方法应用及分析 .195 结论 .22参考文献 .23致 谢 .24附 录 .2511 绪论1.1 回归分析的发展历程回归分析是处理变量 与 之间的关系的一种统计方法和技术。回归分析的基xy本思想和方法以及“ 回归”名称的由来归功于英国统计学家 F.高尔顿。高尔顿和他的学生 K.皮尔逊在研究父母身高与其子女身高的遗传问题时,观察了 1078 对夫妇,以每对夫妇的平均身高作为 ,而取他们的一个成年儿子的身高作为 ,将结果在平x y面直角坐标系上绘成散点图,发现趋势近乎一条直线。计算出的回归直线方程为 3.70516yx这种趋势及回归方程总的表明父母平均身高 每增加一个单位,其儿子的成年儿子的身高 也平均增加 0.516 个单位。这个结果表明,虽然高个子父辈确有生高个子y儿子的趋势,但父辈身高增加一个单位,儿子身高仅增加半个单位左右。这个例子生动地说明了生物学中“ 种 ”的概念的稳定性。正是为了描述这种有趣的现象,高尔顿引进了“回归 ”这个名词来描述父辈的身高 与子辈身高 的关系。尽管“回归”这个xy名词的由来具有其特定的含义,人们在研究大量的问题中,其变量 与 之间的关xy系并不总是具有这种“ 回归 ”的含义,但借用这个名词把研究变量 与 间统计关系的量化方法称为“ 回归” 分析也算是对高尔顿这个伟大的统计学家的纪念 1。1.2 多元线性回归模型的一般形式设随机变量 与一般变量 , , 的线性回归模型为y1x2p(1.1)02.px其中, , ,., 是 个未知参数, 称为回归常数, ,., 称为回归系数。01p 01p称为被解释变量(因变量) , , , 是 个可以精确测量并控制的一般变量,y12p称为解释变量(自变量) 。 是随机误差,对随机误差项我们常假定 (1.2)2()var=E称(1.3)012().pyxx为理论回归方程。对一个实际问题,如果我们获得 组观测数据( , , ; )n1i2ipy2( =1, 2, ) ,则线性回归模型(1.1)式可表示为in(1.4)1012112 2012. .pnnpnyxxyxx写成矩阵形式为(1.5)X其中(1.6)12.ny11221.pnnpx01.p2.n是一个 阶矩阵,称为回归设计矩阵或者资料矩阵。在实验设计中X()n的元素是预先设定并可以控制的,人的主观因素可作用其中,因而称 为设计矩X阵。1.3 多元线性回归模型的基本假定为了方便地进行模型的参数估计,对回归方程(1.4)式有如下一些基本假定:(1)解释变量 , , 是确定性变量,不是随机变量,且要求1x2p。这里的 ,表明设计矩阵 中的自变量列之间()rankXpn()1rankXnX不相关,样本量的个数应大于解释变量的个数, 是一满秩矩阵。(2)随机误差项具有零均值和等方差,即(1.7)2()0,1,2.cov,iijEinij这个假定常称为高斯马尔柯夫条件。 ,即假设观测值没有系统误差,()0iE随机误差项 的平均值为零。随机误差项 的协方差为零,表明随机误差项在不同ii样本之间是不相关的(在正态假定下即为独立的) ,不存在序列相关,并且有相同的精度。3(3)正态分布的假定条件为(1.8)21(0,),12,.inNin 相 互 独 立对于多元线性回归的矩阵模型(1.5)式,这个条件便可表示为(1.9)2(0,)nI由上述假定和多元正态分布的性质可知,随机向量 服从 维正态分布,回归模型y(1.5)式的期望向量(1.10)()EyX(1.11)2nVarI因此(1.12)2(0,)nyN1.4 回归参数的估计的主要方法 1、回归参数的普通最小二乘估计多元线性回归方程未知参数 的估计与一元线性回归方程的参数估计01,.p原理一样,仍然可以采用最小二乘估计。对于(1.5)式表示的回归模型 ,yX所谓最小二乘法,就是寻找参数 的估计值 ,使离差平方和01,.p01,.p2010121(,.)( )npiiiiiQyxx达到极小,即寻找 满足,.(1.13)0101 2120,.(,.).)(.minppniiipiiiiipyxx依照(1.13)式求出 就成为回归参数 的最小二乘估计。01,得出用矩阵形式表示的正规方程组 移项得 ,当 存()XyXy1()X在时,即得到回归参数的最小二乘估计为(1.14)1称 为经验回归方程。012.pyxx2、回归参数的最大似然估计极大似然估计是统计中最重要,应用最广泛的方法之一,最初被德国数学家高斯在 1821 年提出时,并未引起重视,直到 1922 年费舍尔提出了极大似然思想并得以得出性质后,才广为研究和应用。4多元线性回归参数的最大似然估计与一元线性回归参数的最大似然估计的思想一致。对于(1.5)式所表示的模型 , 即 服从多变量正态分yX2(0,)nNI布,那么 的概率分布为 y 2(,)nI这时,似然函数为(1.16)/2/221()exp()()nnLyX 其中的未知参数是 和 ,最大似然估计就是选取似然函数 达到最大的 和 。 L2要使 达到最大,对(1.16)式两边同时取自然对数,得L(1.17)21lnl()ln()()()2Ly在(1.17)式中,仅在最后一项中含有 ,显然使(1.17)式达到最大,等价于达到最小,这又完全与普通最小二乘估计相同,即()()yX 1()Xy误差项方差 的最大似然估计为2(1.18)21()LSEen这是 的有偏估计,但他满足一致性。在大样本的情况下,这是 的渐近无偏估2 2计。1.5 回归分析研究的主要内容回归分析研究的主要对象是客观事物变量间的统计关系,它是建立在对客观事物进行大量实验和观察的基础上,用来寻找隐藏在那些看上去是不确定的现象中的统计规律性的方法。回归分析方法是通过建立统计模型研究变量间相互关系的密切程度、结构状态及进行模型预测的一种有效的工具。回归分析方法在生产实践中的广泛应用是它发展和完善的根本动力。如果从 19世纪初高斯提出的最小二乘法算起,回归分析的历史已有 200 年。从经典的回归分析方法到近代的回归分析方法,他们所研究的内容已非常丰富。52 缺失数据的介绍2.1 研究缺失数据的背景和意义缺失数据是分析数据中的一个基本问题。最常见的例子是在做调查的时候没有响应,我们要向在一项统计调查中要得到百分之百的有效答卷是相当困难的,因为有很多因素产生影响,主要有:在调查初始阶段,可能由于种种原因调查人员无法和被调查人员接触;在调查进行阶段,被调查者拒绝接受调查是很常见的现象。拒绝的主要原因有很多种,例如被调查者没有时间,或者对调查的问题不感兴趣,或者处于被调查者的安全考虑拒绝调查人员的调查,或者被调查者拒绝回答某些重要的问题;在研究的整理阶段,研究人员将不和逻辑的数据剔除出去会造成数据的缺失。如果把缺失数据用无回答表示,当今的实践表明,在现在的调查研究中的缺失数据。其实,在如今这种信息爆炸的时代完整的和正确的数据是很难获得的。考虑到调查研究中数据的重要性,我们在研究工作中需要不断地采集数据,从大量的数据中抽取出对我们有用的知识来指导我们的实践,但是,收集的数据量越大,可能造成缺失数据的情况就越严重,这本身就是一对矛盾。对此,这不仅仅是必须针对大量的数据进行分析处理得到正确结果的问题,同时也需要对缺失数据给出适当的填补措施,使得数据的分析更加有意义。2.2 国内外研究情况2.2.1 国外研究情况外国学术界对缺失数据的问题研究早就开始了,关于统计调查中缺失数据问题的研究大致可分为三个阶段 2:第一阶段是启动期(1915 年20 世纪 40 年代)有关学者开始了对缺失数据问题的初步研究,强调处理无回答问题的重要性。第二阶段是专题研究、方法发展期(20 世纪 40 年代中期20 世纪 90 年代初)这一时期许多学者对缺失数据问题进行了大量的专题研究,提出了对缺失数据进行处理补救的经典方法。要减少调查中的缺失数据,主要从事前预防和事后补救两方面入手。事前预防也许是处理缺失数据最简单且有效的方法,早期学者也较多的关注减少缺失数据的事前预防方法和措施。但是人们逐步认识到,现实中由于种种原因和条件的限制,这种事先预防的方法并不能使问题得到完全解决。因此,对缺失6数据的补救越来越受到重视。第三阶段是方法的完善期(20 世纪 90 年代初至今)这一时期,较少有学者提出关于无回答处理的全新思想,但很多学者或者提出了方法的改进和扩展,或者研究如何使用插补后的数据进行方差估计。此外,大量现代统计方法在缺失数据研究领域的应用,带动了这一领域的蓬勃发展。近 20 年来涌现出众多关于处理缺失数据的研究文献,对缺失数据进行调整的统计方法取得了很多突破,方法不断完善。至今处理缺失数据仍为抽样应用和理论界的热点专题之一 3。2.2.2 国内研究背景概况缺失数据是一个普遍现象,在我国同

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论