第四讲回归分析回归诊断ppt课件.ppt

上传人：闯*** IP属地：广东上传时间：2020-03-30 格式：PPT 页数：121 大小：3.75MB 积分：25 举报 版权申诉

已阅读5页，还剩116页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

回归模型的诊断通过简单回归和多元回归模型可以有了计算结果这些结果能做推断需要建立在一些概述性统计量的基础之上这些统计量由数据来计算而只有当标准的回归假定满足时所做的推断才有可能是合理的有意义的而对假定的核定可以用图形的方法也可以用严格的数值去检查数据也需要考虑还有模型的设定标准的回归假定 1 关于模型设定的假定2 关于误差的假定3 关于预测变量的假定非随机的其取值是误差取得的但几乎不可能测量误差将影响到误差方差相关系数复相关系数及回归系数的估计其影响程度的大小取决于多个因素是线性无关的4 关于观测的假定所有观测是同样可靠性数据的诊断异常值强影响点假定是否满足模型的诊断 6 线性回归模型中的异常点分析异常点的识别与处理是统计诊断中很重要的一项内容异常点的出现会影响分析结果的可信度异常点的存在往往蕴涵着重要的信息在有些情况下异常点的出现是因为有新事物出现或者新情况发生比如经济模型中某种经济政策的出台等都能表现出异常这通常是我们的研究兴趣所在在另外一些情况下异常点的出现是由于人为差错或者仪器的故障所引起的在我们需要根据样本对模型进行参数估计或者根据模型对将来进行预测与控制的时候异常点的出现会对我们的工作产生很强的影响这样的结果是令人怀疑的因此异常点的研究受到了广大研究者的重视自Bernoulli首次提出了异常点的概念接下来对异常点的概念类型以及处理问题的讨论一直没有停止过异常点的成因与处理为什么会出现异常点对这个问题的回答大致可以归结为以下三种情况整体模型变化局部模型变化和自然变异在前两种情况下异常点出现的多而且连续往往蕴涵着机制的变化新事物的出现或者新局面的形成大量而且连续的异常点可以用新的模型来拟合对于整个数据集实质上已经成为一个混合模型而第三种成因更为常见偶尔的人为差错或者仪器的故障都可以引起异常对于由不同的原因引起的异常点它们的处理方法是不同的在进行统计诊断时判断异常点的成因是很重要的是对异常点进行正确处理的先决条件通常对异常值的处理方法有两种一种是把异常点作为工作重点目标就是发现异常点并确定是否要作进一步的研究这样的异常点往往含有很重要的信息这时不仅要判断出异常点的存在与否还要确定异常点出现的位置以及影响大小这是统计诊断中一个重要内容围绕此类问题出现了大量的统计量检验方法及影响分析研究对于由第三种成因引起的异常点发现之后可以进行删除以免影响参数估计等以后的工作效果另外一种方法就是对于异常点采取容忍的态度把整个数据集作为研究的基础对于一定比例的坏数据或者远离数据中心的数据采取一定的容忍或适应政策回归系数一般采用最小二乘估计 leastsquaresestimator LSestimator 求解但是在应用中容易忽视的问题是LS估计只有在数据满足相应条件的情况下才会具有统计描述和推断的优良性质如要求误差服从正态分布总体方差相同且相互独立等当实际数据没有近似满足这些假定时就会出现一些异常点 outliers 杠杆点 leveragepoint 及影响点 influentialobservations 使分析结果变得不可靠不能发现数据中的真实结构从专业上难以解释结果甚至得到完全错误的结论尤其是随着统计软件的日渐普及我们倾向于简单地将数据交给软件来分析而不注意具体方法的应用条件尽管采用了SAS SPSS这些国际标准软件但是输出结果有时却与专业解释相悖异常点在统计诊断中的地位异常点 outlier 是统计诊断中很重要的一个概念统计诊断 StatisticalDiagnostics 就是对从实际问题中收集起来的数据提炼出来的模型以及由此出发所作的推断方法的合理性进行深入而细致的分析并通过一些诊断统计量来检查数据模型及推断方法中可能存在的毛病进而提出治疗方案进行模型或者推断方法的改进统计诊断主要包括异常点识别残差分析影响分析和数据变换等内容异常点的识别是处理统计诊断的重要内容之一它进行的好坏通常影响到整个过程的诊断异常值有时一个有时多个在回归模型中异常点是指对既定模型偏离很大的数据点但究竟偏离达到何促程度才算是异常这就必须对模型误差项的分布有一定的假设通常假定为正态分布目前对异常点有以下两种较为流行的看法异常点把异常点看成是那些与数据集的主体明显不协调使得研究者大感惊讶的数据点这时异常点可解释为所假定的分布中的极端点即落在分布的单侧或双侧分位点以外的点而通常取很小的值如 0 005 致使观察者对数据中出现如此极端的点感到意外把异常点视为杂质点它与数据集的主体不是来自同一分布是在绝大多数来自某一共同分布的数据点中掺入的来自另一分布的少量杂质残差在回归分析中异常数据的发现或模型的检测标准假设的检测的一个简单而有效的方法是研究残差图残差图能够指明哪个或哪些标准假定不成立更重要的是残差分析可能引导我们发现数据中的结构也可能指出那些蕴涵在数据中的在只用一些概述性统计量分析时容易被疏漏的信息这些启发或线索可能帮助我们更好地理解所研究的问题或者找到更好的模型对残差进行图形分析往往是回归分析中最重要的一部分工作残差普通最小二乘法的残差学生化残差强影响点强影响点和异常点是两个不同的概念它们之间既有联系也有区别强影响点可能同时又是异常点也可能不是反之异常点可能同时又是强影响点也可能不是已知20条河流流域的有关测量数据研究者感兴趣的是河流周边地区土地的利用程度对水污染平均氮浓度有何影响利用三个数据集合获得的回归系数和其T检验统计量相差很大1 用全部数据2 剔除NEVERSINK数据 4 3 提出HACKENSACK数据 5 尽管三个数据集只差一观测数据但回归结果有巨大差异比如看X3回归系数的T检验值使用全部数据时该检验是不显著的剔除掉数据4后显著为正可见仅一个观测就能导致根本不同的结论数据 4 5 称为强影响观测因为他们对回归的影响远强于其他观测看数据一眼就能发现数据 5 其X3的值突出的高然后再分析其背景数据集中的强影响点是指那些对统计量的取值有非常大的影响力的点在考虑强影响点时有几个基本问题需要考虑首先必须明确是对哪个统计量的影响例如对线性回归模型所考虑的是对回归系数的估计量的影响不是对误差方差的估计影响或是对拟合优度统计量的影响等等分析目标不同所考虑的影响亦有所不同强影响点其次必须确定度量影响的尺度是什么为了定量地刻划影响的大小迄今为止已提出多种尺度基于置信域的尺度基于似然函数的尺度等等在每一种类型中又可能有不同的统计量每一种度量都是着眼于某一方面的影响并在某种具体场合下较为有效这一方面反映了度量影响问题的复杂性另一方面也说明了影响分析的研究在统计诊断中是一个甚为活跃的议程强影响点通常是数据集中更为重要的数据点它往往能提供比一般数据点更多的信息因此需引起特别注意有影响的观测值图示有影响的观测值图示有影响的观测值图示有影响的观测值图示有影响的观测值存在影响值的趋势有影响的观测值图示不存在影响值的趋势有影响的观测值存在影响值的趋势强影响观测或者其影响变量取值异常或者其预测变量取值异常响应变量取值异常标准化残差大的观测其响应变量的取值异常因为在Y方向上他们远离拟合的回归方程由于各标准化残差近似服从标准正态分布那么标准化的残差之绝对值大于2或3的点称为异常点预测变量取值异常异常点也可能出现在预测变量中他们同样也会影响回归结果杠杆值可用于度量观测在预测变量中的异常程度伪装与淹没的问题光看残差是不够的需要其他的度量指标看这个图形 5 4 是强影响点但看标准化残差看不出来残差图也看不出来杠杆值的序列图可以看出来了我们还需要相关的度量指标影响的各种度量影响的各种度量如果有些数据的C比其余点突出那么该对此点打上标记影响点通过图显示强影响点图形方法图形方法在数据分析中起着重要的作用在对数据拟合线性模型时图形方法尤其重要没有哪种统计工具能象一张精选出来的图形一样有威力图形方法可以被视为探索性的工具同时也是验证分析或统计推断不可缺少的一部分图形方法的作用 1 发现数据中的错误如印刷错误 2 辨别数据中的模式如密集群异常点明显的差距等 3 探索变量间的关系4 发现新现象5 确认或否认各项假定6 评价拟合的模型是否充分7 建议修正措施例如数据变换收集更多的数据等图形 1 一维图看变量的分布 2 二维图3 旋转图4 动态图一维图直方图茎叶图点图箱线图二维图我们希望图中的各散点图看上去是怎么样的呢对于简单回归我们预期Y与X之间呈现某种直线模式但对于多元回归 Y与各自变量之间的散点图可能呈直线状在线性模式较为肯定的场合这些散点图的非线性状态并不说明线性模型不正确应同时依赖于各个预测变量而不是单个从上面的二维图看到 Y与X1之间 Y与X2之间都不存在线性关系然而作Y关于X1和X2两个变量的回归时拟合程度几近完美我们假定预测变量之间是线性无关的所以预测变量对散点图不应该呈直线状更理想地我们希望从中看不出任何可辩识的模式无论是线性的还是非线性的但是上面例中该假定是不成立因为X1和X2有明显的线性关系当然这些散点图不呈直线状还不能说明全部变量间的线性无关的因为线性关系可能存在与多个预测变量之间旋转图如何处理异常点异常点和强影响观测值不应该机械被删除或自动降低权重因为他们不一定是坏的观测相反如果它们是准确的它们就可能是数据中含信息最多的点比如他们可能指出数据并非来自正态总体或者模型不是线性的我们看下例中的数据看异常点及强影响点可能是数据中含信息量最多的点图中是XY两个变量的散点图数据主体显示了X与Y之间的某种线性关系但右上角的22和23两个点是异常值如果这两个点是正确的那么它们则是数据集中仅有的显示着这批数据可能服从某种非线性模型的观测我们把这想象为一个细菌的群体它在异端时间内最后的非常缓慢但过了某个时间的临界点之后迅速增长一旦鉴别出了异常点和强影响观测后如何处理呢因为异常点和强影响观测可能是数据集中信息最丰富的观测因而不应该不加说明自动地抛弃它们相反应当通过考察判断它们为何是异常的或强影响点根据这些考察才可能采取合适正确的措施正确的措施包括改正数据中的错误删除异常点或降低他们的权重变换数据考虑不同的模型重新收集或补充更多的数据模型的误设及其后果 1 包含不相干的解释变量则估计量是一致无偏的但不是最佳线性无偏估计量假设检验是有效的此外如果包含的不相干的变量与其它解释变量相关则引起的主要后果是解释变量之间的多重共线性设Y 0 1X1 v 为正确模型但却估计了Y 0 1X1 2X2 如果 2 0 则与相同因此可将式视为以 2 0为约束的式的特殊形式包含无关变量偏误则扰动项的性质完全起了变化模型的估计会由于自相关而引起误差估计量将不会是最佳线性无偏估计假设检验将是无效的 2 遗漏解释变量例如如果正确的模型为而我们将模型设定为即设定模型时漏掉了一个相关的解释变量动态设定偏误遗漏相关变量表现为对Y或X滞后项的遗漏采用遗漏相关变量的模型进行估计而带来的偏误称为遗漏相关变量偏误设正确的模型为Y 0 1X1 2X2 却对Y 0 1X1 v进行回归得遗漏相关变量偏误模型的估计会由于自相关而引起误差估计量将不会是最佳线性无偏估计假设检验将是无效的例如如果真实的回归函数为但却将模型设定为显然两者的参数具有完全不同的经济含义且估计结果一般也是不相同的 3 模型形式的误设 4 如果在设定的模型里用错误的解释变量代替正确的解释变量则可看成出现1和2两种情形误设的复合即遗漏解释变量的同时加入不相干的变量分析四种模型误设的情形后果最严重的是哪一种情况可用t检验与F检验完成检验的基本思想如果模型中误选了无关变量则其系数的真值应为零因此只须对无关变量系数的显著性进行检验 t检验检验某1个变量是否应包括在模型中 F检验检验若干个变量是否应同时包括在模型中模型设定偏误的检验 1 检验是否含有无关变量 1 残差图示法 2 检验是否有相关变量的遗漏或函数形式设定偏误残差序列变化图趋势变化模型设定时可能遗漏了一随着时间的推移而持续上升的变量循环变化模型设定时可能遗漏了一随着时间的推移而呈现循环变化的变量模型函数形式设定偏误时残差序列呈现正负交替变化 2 一般性设定偏误检验但更准确更常用的判定方法是拉姆齐 Ramsey 于1969年提出的所谓RESET检验基本思想如果事先知道遗漏了哪个变量只需将此变量引入模型估计并检验其参数是否显著不为零即可问题是不知道遗漏了哪个变量需寻找一个替代变量Z 来进行上述检验 RESET检验中采用所设定模型中被解释变量Y的估计值的若干次幂来充当该替代变量 3 检验是否有相关变量的遗漏或函数形式设定偏误例如在一元回归中假设真实的函数形式是非线性的用泰勒定理将其近似地表示为多项式因此如果设定了线性模型就意味着遗漏了相关变量X12 X13 等等因此在一元回归中可通过检验各高次幂参数的显著性来判断是否将非线性模型误设成了线性模型 RESET检验也可用来检验函数形式设定偏误的问题 0 085 8 274 6 457 6 692 R2 0 9842 在 5 下查得临界值F0 05 2 20 3 49判断拒绝原模型与引入新变量的模型可决系数无显著差异的假设表明原模型确实存在遗漏相关变量的设定偏误 3 同期相关性的豪斯蔓 Hausman 检验由于在遗漏相关变量的情况下往往导致解释变量与随机扰动项出现同期相关性从而使得OLS估计量有偏且非一致因此对模型遗漏相关变量的检验可以用模型是否出现解释变量与随机扰动项同期相关性的检验来替代这就是豪斯蔓检验的主要思想当解释变量与随机扰动项同期相关时通过工具变量法可得到参数的一致估计量而当解释变量与随机扰动项同期无关时 OLS估计量就可得到参数的一致估计量因此只须检验IV估计量与OLS估计量是否有显著差异来检验解释变量与随机扰动项是否同期无关对一元线性回归模型Y 0 1X 所检验的假设是H0 X与无同期相关式表明 IV估计量与OLS估计量无差异当且仅当 ziei 0 即工具变量与OLS估计的残差项无关检验时求Y关于X与Z的OLS回归式在实际检验中豪斯蔓检验主要针对多元回归进行而且也不是直接对工具变量回归而是对以各工具变量为自变量分别以各解释变量为因变量进行回归模型设定的方法之从一般到简单作为建模起点的总体模型必须能够包容所有经过约化得到的简洁的模型它应该包含所有对被解释变量产生影响的变量尽管其中的某些变量会因为显著性不高或者不满足正交性条件等原因在后来的约化过程中被排除回归分析是一

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第四讲回归分析回归诊断ppt课件.ppt

文档简介

温馨提示

最新文档

评论

第四讲回归分析回归诊断ppt课件.ppt

文档简介

温馨提示

最新文档

评论

相关文档