(概率论与数理统计专业论文)基于经验似然的删失线性模型的统计诊断.pdf_第1页
(概率论与数理统计专业论文)基于经验似然的删失线性模型的统计诊断.pdf_第2页
(概率论与数理统计专业论文)基于经验似然的删失线性模型的统计诊断.pdf_第3页
(概率论与数理统计专业论文)基于经验似然的删失线性模型的统计诊断.pdf_第4页
(概率论与数理统计专业论文)基于经验似然的删失线性模型的统计诊断.pdf_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

果 撰 材 刁专 = 、关于学位论文使用授权的说明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的 复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文本人电子文档的内容 和纸质论文的内容相一致除在保密期内的保密论文外,允许论文被查阅和借阅,可以公 布( 包括刊登) 论文的全部或部分内容论文的公布( 包括刊登) 授权东南大学研究生院办 理 鼢辑 导师签名裂缸啉址:埘 摘要 删失线性模型是社会生活尤其是生存分析中经常遇到的一种特殊的线性模型,它具 体可分为左删失,右删失,双向删失和区间删失,本文中只研究右删失情况( 以下文中提 到的删失均指右删失) ,由于删失数据所反映的信息是有缺失的,故比一般形式的线性模 型要复杂,通常的诊断理论就不能直接应用于删失线性模型本文用基于经验似然的方 法来研究删失线性模型的统计诊断问题,首先通过对删失数据进行变换将删失线性模型 转换为另一种一般形式的线性模型,然后对转换后的一般线性模型应用基于估计方程的 经验似然方法来寻找它的异常点和强影响点,可以证明这些点也同样是原删失模型的异 常点和强影响点,从而间接的解决了删失线性模型的统计诊断问题在此过程中会用到几 个基于经验似然方法提出来的诊断统计量最后通过一个模拟数据和一个实际问题数据 来验证该种方法的可行性和有效性 关键词:删失线性模型,估计方程,经验似然,诊断方法,异常点 a b s t r a c t c e n s o r e dl i n e a rm o d e l ,a sas p e c i a lk i n do fl i n e a rm o d e l ,i so f t e nf o u n di ns o c i a ll i f e , e s p e c i a l l yi ns u r v i v a la n a l y s i s i tc o u l db ed i v i d e di n t ol e f tc e n s o r e d ,r i g h tc e n s o r e d ,t w o - w a yc e n s o r e da n di n t e r v a lc e n s o r e dm o d e l ,o n l yt h er i g h t c e n s o r e dc a s e ( a l lt h ec e n s o r e d m o d e lm e n t i o n e di nt h ef o l l o w i n gt e x tr e f e rt ot h er i g h tc e n s o r e dc a s e ) i ss t u d i e di n t h i sp a p e r c o m p a r e dw i t ht h ec o m p l e t ed a t a ,c e n s o r e dd a t am i s ss o m ei n f o r m a t i o n , s oc e n s o r e dl i n e a rm o d e li sm o r ec o m p l e xt h a nt h eg e n e r a ll i n e a rm o d e l i nt h i sp a p e r , e m p i r i c a ll i k e l i h o o dm e t h o di su s e dt os t u d yt h es t a t i s t i c a ld i a g n o s t i c sf o rc e n s o r e dl i n e a r m o d e l f i r s t l y , c e n s o r e dd a t ai st r a n s f o r m e di n t oa n o t h e rf o r ma n dt h ec e n s o r e dl i n e a r m o d e lb e c o m eac o m p l e t ed a t al i n e a rm o d e l t h e ne m p i r i c a ll i k e l i h o o dm e t h o db a s e d o ne s t i m a t i n ge q u a t i o n si su s e dt of i n di n f l u e n t i a lp o i n t so ro u t l i e r so ft h ec o m p l e t ed a t a l i n e a rm o d e l ,a n di tc a nb ep r o v e dt h a tt h ec o r r e s p o n d i n go b s e r v a t i o n sa r ea l s oi n f l u e n t i a l p o i n t so ro u t l i e r so ft h eo r i g i n a lc e n s o r e dl i n e a rm o d e l t h e r e f o r ,t h ep r o b l e mo ff i n d i n g i n f l u e n t i a lp o i n t so ro u t l i e r so fc e n s o r e dl i n e a rm o d e li sf i g u r e do u ti n d i r e c t l y f i n a l l y , a s i m u l a t e de x a m p l ea n da l la c t u a le x a m p l ea r ec o n d u c t e dt oi l l u s t r a t et h ef e a s i b i l i t ya n d v a l i d i t yo ft h i sm e t h o d s k e yw o r d s :c e n s o r e dl i n e a rm o d e l ,e s t i m a t i n ge q u a t i o n ,e m p i r i c a ll i k e l i h o o d ,d i a g n o s t i c m e a s u r e s ,o u t l i e r s n 摘要 a b s t r a c t 第一章 1 1 1 2 第二章 2 1 2 2 2 3 引言 统计诊断简介 经验似然方法 目录 基于估计方程的经验似然诊断方法 基于估计方程的经验似然 基于经验似然的诊断方法 线性模型的经验似然诊断 第三章删失线性模型的统计诊断 3 1 删失线性模型 3 2 模型转换 3 3 统计诊断 第四章模拟计算和实例 4 1 模拟数据分析 4 2 实例数据分析 总结 致谢 参考文献 i 一 1 1 4 7 7 8 2 3 3 4 5 9 9 2 7 8 9 1 1 1 1 1 1 1 2 2 2 2 第一章引言 本文旨在应用经验似然方法对删失线性模型进行统计诊断分析,主要是识别删失数 据中的异常点,因该方法涉及众多统计诊断和经验似然的知识,故首先对统计诊断和经验 似然基础知识作一概述 1 1 统计诊断简介 随着科学技术的飞速发展,人们在日常生活和工作中处理的各种数据量也越来越大, 处理数据就不免要用到统计方法,而计算机的高速发展更加有力的推动了统计学向社会 生活各个领域的渗透,统计诊断作为统计学的一个研究领域也得到了越来越多的重视统 计诊断是上世纪七十年代中期发展起来的一门统计学新分支,它是对从实际问题中收集 起来的数据和提炼出来的模型以及由此出发所做的推断方法的合理性进行深入细致的分 析,并通过一些诊断统计量来检查数据、模型以及推断方法中可能存在的“毛病”,进而 提出“治疗”方案,也就是说对统计方法解决问题的全过程进行诊断统计诊断有着强烈 的应用背景,广泛的研究内容和丰富的实际成果,它的理论和方法已经渗透到各种统计模 型,如c o o k 和w e i s b e r g ( 1 9 8 2 ) 以及韦博成等( 1 9 9 1 ) 对于线性回归模型的统计诊断问题作 了全面而综合的讨论,m c c u l l a g h 和n e l d e r ( 1 9 8 9 ) 及w e i ( 1 9 9 8 ) 分别研究了广义线性模 型和指数族非线性模型的统计诊断问题 回归模型的统计诊断主要涉及异常点识别,强影响点分析,残差分析,局部影响分 析等内容,目前这些诊断方法已趋向成熟,如h o n g - t uz h u 和s i k - y u m ( 2 0 0 3 ) 研究了广义 线性混合模型的局部影响分析,b e c k m a n ( 1 9 8 7 ) ,c h r i s t e n s e n ( 1 9 9 2 ) ,h o d g e s ( 1 9 9 8 ) ,l e s a f f r e 和v e r b e k e ( 1 9 9 8 ) ,石磊等( 1 9 9 6 ) 研究了对参数估计的影响分析和局部影响分析,z h o n g a n dw e i ( 1 9 9 9 ) 讨论了关于参数和随机效应的估计的影响分析z h u 和l e e ( 2 0 0 1 ) 及z h u ( 2 0 0 1 ) 对带缺失数据的统计模型提出了基于q 函数一般的影响分析方法,该方法已被广泛 用于各种统计模型x u 和l e e ( 2 0 0 5 ) ,z h u ( 2 0 0 7 ) 提出了一种以相应的统计模型的观测似然 函数为基础的扰动选择方法和局部影响度量,给出了度量张量矩阵的定义c h e n ( 2 0 0 7 ) 对z h u ( 2 0 0 7 ) 的方法进行了推广,他以完全数据的密度函数和似然函数为基础,提出了复杂模型 的度量张量矩阵方法和度量局部影响的二阶局部影响度量,对于很多缺失数据模型该方 法是很有效的 异常点识别,强影响点分析主要用来考察观测数据,比如在实际记录数据时由于人为 1 墅塾叁兰堡主兰垒笪垒二呈薹堕一2 原因出现了数据记录错误,如果这种错误是在可允许范围之内的,也就是该错误对我们从 这批数据分析出某些结论并不会产生什么大的影响,那么此时我们可以容许这种错误的 存在,其实这种小的误差即使用诊断方法也是不容易检测出来的但是如果该错误大到 了一定程度,即会对我们得出的结论产生比较大的影响,那么就可以通过一些诊断方法来 识别出该异常点,这就是识别异常点方法的应用统计诊断中有两个最基本最重要的概 念:异常点和强影响点异常点就是指和数据集主体偏离比较大的,以至于使人们大感惊 讶的点,也可以将异常点视为与数据集主体不是来自同一分布的“杂质点”强影响点是 那些对我们从数据集中得出的某些统计量或结论影响很大的点,也就是在有这些点和没 有这些点两种情况下得出的统计量或结论会有很大的差异异常点和强影响点是两个不 同的概念,他们既有联系也有区别,异常点可能是强影响点也可能不是,反之,强影响点 可能是异常点也可能不是 由于本文只涉及线性回归模型,下面我们给出线性回归模型中一些常用的识别异常 点和强影响点的统计量: 设有线性回归模型 y = x 口+ ( 1 1 ) 其中y = ( y l ,) t ,e = ( e 1 ,e 住) t ,0 = ( 口l ,铭) r ,x 为他p 阶列满秩设计阵,且 有e ( ) = 0 ,v a t ( 6 ) = 盯2 i 学生化外残差 线性模型( 1 1 ) 的学生化外残差定义为: 色 扎2 5 ( i ) v r - p 2 t , ( i = 1 ,礼) 其中自= 玑一统,搋= 五t 百,舀为参数p 的最小二乘估计,子( z ) 为线性模型( 1 1 ) 中去掉第z 个 数据点所得的标准差盯的最小二乘估计,鼽 为x 生成的投影阵p = x ( x t x ) 一1 x t 的 第i 个对角元素 由学生化外残差的表达式可以看出n 是响应变量y i 变化( 即观测值和预测值之间的 差) 的一种度量,而当第i 个点是异常点时它必然会引起响应变量y i 产生较大的变化,进而 使如的值比较大,所以可以把学生化外残差作为检验异常点的一个统计量 c o o k 统计量 线性模型( 1 1 ) 的第i 个观测值( 犰,五t ) 的广义c o o k 距离( 亦称为c 0 0 k 统计量) 定义 为: e c 眈= ( o ( i ) 一口) t m ( o ( i ) 一p ) 盔直盔堂亟圭堂笪迨塞蔓= 重呈! 壹 3 其中a ( i ) 是在模型( 1 1 ) 中去掉第i 个观测点( 玑,五t ) 所得到的参数p 的最小二乘估计,m 是任一个正定矩阵 由c o o k 统计量的表达式可知e c 现可视为台( z ) 与台之间的一种加权距离,而扫( i ) 与a 之 间距离正反映了第i 个观测值对参数0 估计值影响的大小,因此可将e c d ;作为识别强影响 点的一个统计量 局部影响分析 局部影响是针对扰动模型提出来的,给定一组服从f 分布的数据,设l ( p ) 为其对数似 然函数,日为未知参数,u 为扰动向量,且u = u o 对应无扰动情形l ( oi ) 为加入扰动之 后的对数似然函数,l ( olu o ) 为无扰动时的对数似然函数为了度量u 变化所引起的影 响,引入下面的似然距离 l d ( u ,) = 2 l ( o ) 一l ( 8 ( u ) ) 】 从几何上来看,l d ( w ) 表示空间上的一个曲面,曲面上的变量可表示为 q c 小( l 称之为影响图 在空间中过u o ,沿z 方向上的一条曲线可表示为u = u o + “,其中z 为单位方向向量, t 为实参数该直线在影响图上的投影曲线为o l l ( 亡) = q ( u o + t 1 ) ,称该曲线为z 方向上的提 升线那么影响图在u o 处沿z 方向的曲率和最大曲率分别定义为 q = 器c r n a z = - m a x 忙忙以 a 和c 如都称为影响曲率,使影响曲率达到最大的方向记为z 一面和面分别表示提升 线铆( ) 关于的一阶和二阶导数,且在t = o 和u = u o 处记值,& ,表示向量& f 在蛐处法 空间上的投影影响曲率a 表示影响图q ) 在u o 处沿方向z 的变化率,它反应了模型对 于沿z 方向扰动的敏感程度 局部影响分析方法应用范围很广泛,适用于很多扰动模型,但它要求预先知道似然函 数的具体形式,这多少给它的应用带来了些不便 以上对统计诊断方法及几个常用的诊断统计量做了一个简要的介绍,对于其它的诊 断统计量和有关统计诊断的详细内容可参见【1 7 】 1 2 经验似然方法 对经验似然的研究可追溯至l j t h o m a sa n dg r u n k e m e i e r ( 1 9 7 5 ) 这篇文章,作者在随机 删失的条件下用非参数似然比方法构造生存概率置信区间,然而他们所使用的方法是通 过分解生存概率为条件概率的乘积而使用乘积型约束条件的非参数似然比,但乘积型约 束条件限制了这一方法应用到其它情形经验似然法是一种非参数的统计推断方法,它 的本质就是在约束条件下求非参数似然比的极大值,而总体参数由约束条件带入到极大 似然比中后来o w e n 将经验似然的思想引入到独立同分布样本均值的统计推断中,而最 为重要的是他用的是线性约束条件,此约束条件的适用范围很广泛,因为在统计中许多我 们感兴趣的参数或者参数的己知函数的估计方程是线性的,或者许多参数可由该参数或 者其己知函数的线性方程所决定此后经验似然方法得到广泛应用,开辟了经验似然方 法的新篇章 经验似然方法同其它统计方法相比有许多突出的优点,比如:用经验似然构造的置信 区间具有域保持性,变换不变性以及置信域的形状完全由数据决定,此外还有b a r t l e t t 纠 偏性及无需构造枢轴统计量等优点,更为重要的是经验似然方法在构造置信域时可以避 免估计量的渐近方差的估计,h a l lp e t e r 和l as c a l ab a r b a r a ( 1 9 9 0 ) 详细地讨论了经验似 然的各种优点,并与b o o t s t r a p 方法作了比较鉴于经验似然上述以及有待进一步研究 发现的优点,很多统计学家对经验似然方法做了进一步的研究发展,从而使经验似然方 法渗透到了统计学的诸多领域,为许多统计问题提出了一些新的解决之道经验似然推 断在总体均值推断、线性模型推断、分位数推断、估计方程推断及利用辅助信息进行 推断等几种重要统计推断中有着广泛的应用,如,o w e n 将经验似然方法应用到线性模型, k o l a c z y k ( 1 9 9 4 ) ,s o n g x ic h e n 和h e n g j i a nc u i ( 2 0 0 3 ) 等将其推广到了广义线性模型,q i n l a w l e s s ( 1 9 9 4 ) 将经验似然推广到半参数模型中,k i t a m u r a ( 2 0 0 1 ) 将经验似然方法应用 到了经济模型的研究中,z h ua n di b r a h i m ( 2 0 0 8 ) 将经验似然方法应用到统计诊断中, 提出了基于经验似然的几个诊断统计量,本文正是将该诊断方法应用到一类特殊的删失 线性模型上另外,经验似然方法的应用还包括m 一泛函的统计推断,时间序列模型的研 究,抽样调查问题的讨论以及不完全数据的统计分析等等 下面具体给出经验似然方法的定义,不失一般性,假设z 1 ,z n 为独立同分的样本,其 共同分布为娲且未知,则对f 莎,定义非参数似然函数为: nn l ( f ) = i id f ( z i ) = | ip i( 1 2 ) i = 1i = 1 其中p i = d f ( x i ) = p ( x = 兢) ,可见只有当在每个x i = 1 ,佗) 处概率不为。时,非参数 似然函数才不为o ,易见z 1 ,z n 的经验累积分布函数r ) = 元1e t 扭 t1i ( x i 0 的情况,此时经验似然比检验统计量可变为如下形式: r c o ) = s u p n 嘞l p i = 1 ,p i o ,t ( f ) = 9 ) 。 i - - - - 1i = 1 下面通过一个简单的例子来具体分析一下经验似然方法的应用,假设分布函数f 在以0 = 1 ,n ) 处的概率为鼽,且有銎1 p i = l ,我们对分布f 的均值p 感兴趣,则易得分布f 和均值p 之间的关系式:1x i p i = p ,定义经验似然比统计量为 r ( p ) 一u 。p h n p , le p i = 1 ,a o ,x i p i = p ) 求冗) 也就是求在条件:lx i p i = p ,:1p i = 1 ,p t o 的限制下,兀:1 啦的最大值 应用l a g r a n g e 乘数法来求解最大值,可求得 a = 轨( p ) = n 一1 l + t t ( 戤一p ) ) 一1 其中t 是如下方程的解 1 + t ( 戤一p ) ) 。1 ( 甄一p ) = 0 = 1 至此就可以通过r ) 来研究参数p 的一些统计推断问题了 以上是对经验似然方法的一些简单介绍,详细内容请参见o w e n ( 2 0 0 1 ) 第二章基于估计方程的经验似然诊断方法 2 1 基于估计方程的经验似然 由经验似然方法可知,要利用经验似然方法解决参数的统计推断问题,关键是找出有 关参数的一些约束条件,进而由这些约束条件导出含有参数的经验似然比统计量,再利用 此统计量对参数进行统计推断我们知道,一些估计方程中会含有我们感兴趣的参数,因 此在可以找到含有感兴趣参数的估计方程的情况下,考虑将此估计方程作为参数的约束 条件 以下将经验似然方法具体应用到估计方程含有兴趣参数的情形,设z l ,z n 为独立 同分布样本,蛾r d ,它们共同分布为f ,f 中含有未知参数0 = ( 口1 ,如) t o ,其 中t 代表转置( 下同) ,而f 的具体形式也是未知的假设有估计式 满足如下估计方程 g ( x ,p ) = ( g l ( z ,p ) ,g r ( z ,口) ) r e 9 ( z ,口o ) ) = 0 o o 0 ( 2 1 ) 这里要求r p ,即估计式的维数大于等于参数维数,其中毋表示在分布f 下求期望 在估计方程( 2 1 ) 的约束条件下,由经验似然方法构造如下的经验似然比函数 l e ( o ) = s 印 o ,仇夕( 兢,9 ) = o ) ( 2 2 ) i = 1i = 1i = 1 由q i nl a w l e s s ( 1 9 9 4 ) 和o w e n ( 2 0 0 1 ) b - 丁知当 鼽( p ) = n - 1 【1 + t n ( 日) r g ( z i ,日) ) 一1 时估计式( 2 2 ) 取得最大值,其中k ( d ) j 矿是如下方程的解 夕( p ) 1 + t t g ( x ,日) ) 一= 0 i = 1 甚p l e ( o ) = 兀竺1 1 + k ( p ) 丁g ( x i ,口) ) ,n - 现l e ( o ) 是关于参数日的一个函数式以上 就是基于估计方程的经验似然方法,最后得到了经验似然比统计量l e ( o ) ,通过l e ( p ) 就 可以对参数日作一些统计推断了 7 类似于参数似然函数的情形,定义对数经验似然函数l e ( o ) 如下 坛( p ) = l e t ( 日) = 一l o g 1 + k ( p ) t g ( x t ,8 ) ) i = li = l 其d p i e i ( o ) = 一f d 9 1 + t n ( 口) 丁g ( 翰,o ) 1 ,为了得到参数p 的一个估计值我们求解使f e ) 达 最大值的台,即有 l g ( o ) = s u p ( b ( p ) ) 口e 并将台定义为参数p 的极大经验似然估计m e l e q i nl a w l e 豁( 1 9 9 4 ) 还证明t o n i = 如( a ) 的渐近性质如下 何( a o o ) 与n ( o ,c p )何( 主一o ) 与n ( o ,c 。) 其中与表示依分布收敛,c 口和g 为协方差矩阵且有 c o = ( s 2 1 s 叠s 1 2 ) 一1c t = s 叠一s 膏s 1 2 s 五l & l s 叠 其中s 嵇的含义将在下一节给出 2 2 基于经验似然的诊断方法 这一节主要介绍参考文献【3 】中提出的几个基于经验似然方法的诊断统计量,分别是:c o o k 距 离,局部影响和伪残差在这里求诊断统计量的思路和求1 1 节中一般统计量的思路是类 似的 首先介绍基于经验似然的c o o k 距离,由1 1 节知道c o o k 距离e c 现度量了第i 个观测 点对参数估计值日的影响,为此需要分别知道含有第i 个观测点和去掉第i 个观测点时参数 估计值的大小在基于估计方程的经验似然情况下我们求得了经验似然比函数,下面就 用经验似然比函数来求解参数的极大经验似然估计( m e l e ) 下文中凡是在2 1 节中出现 过的符号,含义和2 1 节中相同 记x = ( z 1 ,x n ) t ,x q 表示从全样本x 中去掉第i 个样本戤剩余样本点的集合 对于全样本x 定义 nn q n ( t ,p ) = n - l l e ( t ,p ) = n 一1 l i ( t ,8 ) = 一n 一1 l o g ( 1 + t t 9 ( 劬,d ) ) i = 1i = 1 其中如( t ,0 ) = 一l o g ( 1 + t t g ( z t ,日) ) ,因台为对数经验似然函数的最大值,故可通过如下方 程组来求得扫和壬= 主n ( 台) i q ,n ,p ) = a q 。 ,口) = 一n 一1 g ( z t ,日) 1 + t :g ( 茁i ,p ) ) 一1 = o n 扭1 ( 2 3 ) i ( t ,p ) = o o q n ( t ,p ) = 一佗。o o g ( = i ,p ) n 1 + t :g ( 口) ) = o 1 = 1 对于不完全样本x q 定义 骗水9 ) = 一竹一1 l o g ( 1 + t t g ( x j ,口) ) j i 类似于a 和壬我们定义台( ) 和( i ) 为如下方程组的解 q l ,n 吲 ,9 ) = 侥q n 嘲 ,p = o ( 2 4 ) lq 2 ,n h ( t ,0 ) = 岛仉嘲( t ,0 ) = 0 由上面的定义可知台和台( i ) 分别为含有第i 个样本和去掉第i 个样本时参数8 的m e 三e ,因 此定义第i 个样本点的c o o k 距离如下 e c d i ( m ) = ( a ( i ) 一台) r m ( 8 ( i ) 一舀) 其中m 为正定阵,当m = 一劈k ( 台) 时,i e e c d i ( m ) = e c d i ,劈表示对参数p 求两阶 导数 可见用基于估计方程的经验似然方法得到的c o o k 统计量的意义和用一般方法求得 的c o o k 统计量的意义是相同的,它们都度量了第i 个观测点对参数估计值a 的影响,只是在 经验似然方法下我们是用经验似然函数来求解参数的某一个估计值 为了在经验似然情况下引出局部影响分析方法,类似的需定义有扰动模型的经验似 然距离设u j 妒为模型的一个扰动,= u o 对应无扰动的情况对数经验似然函数有 如下形式 l e ( ou ) = u i l e ,t ( p ) l e ( oiu o ) = k ( p ) i = 1 经验似然距离定义如下 l d e ( w ) = 2 【z e ( a ) 一i e ( a ( u ) ) ) :壅童:奎堂堡三兰堡垒塞: :一:= 一 篁;兰兰垂笪童童堡塑丝堕堡鳖丝堑! ! 壅:一1 0 其中a ( u ) 是口的基于经验对数似然函数f e ( 91w ) 拘m e l e 令u ( g ) = o j o + a h ,则 有u ( o ) = u o 和幽( o ) 出l a :o = h ,这里 是冠;上的一个方向向量此时,影响图p t ,己d e ( u ) ) t 在方向h 上的曲率定义为 c h ( u o ) = h r h l o e ( u 。) 上式中 耽。e ( u 。) = 一2 0 2 1 l d 石e 瓦( o 厂( w ) ) i 峋= 2 r 一劈2 e ( p ) ) 一1 i 蛐,百 其中= 虢l d e ( o ,u ) 为一佃x 几阶的矩阵,第( ,i ) 元素为岛。:e ,i ( p ) 下面基于曲率g ( u o ) 考虑两种局部影响分析方法: 令a 1 入r + 1 = = a n = o :为矩阵h l o e ) 的特征值, 王,m = ( m l ,竹) t : m = 1 ,扎) 为对应的一组标准正交特征向量,则有觇啦) 王,m = 入m m ,y 因h l o e ) 为 正定阵,因此矩阵也d f ) 的谱分解为 i t l o e ) = h l ,m 磊 m = l 两种常用的局部影响分析方法就是:一,最大特征值入。对应的特征向量工,1 ,它代表 模型对于扰动u 最敏感的方向二,定义统计量= 幺:1 入m 嘿,其中e t 为第z 个分量 为1 其余分量为0 的几x1 维向量如果第i 个观测点对应一个很大的魄,那么就可以认为 第i 个点为强影响点 接下来给出伪残差的定义,由( 2 1 ) 式可知e f g ( 茁,0 0 ) = 0 ,下面为每一个观测值戤定 义伪残差: j 屯= ( 冠,1 ,咒 r ) t = 夕( z ,a ) = ( 夕l ( z t ,台) ,肼( z t ,a ) ) t i = 1 ,n 考虑到9 ( z ,0 ) 各个分量的方差有可能不一样或某些分量方差比较大,故对伪残差进行标 准化得到标准伪残差如下 群= ( 娥l 磁r ) t = ( 夕( 觋,台) 胪t ,办( 兢,台) 胁) r 其中p ,盯;) = d i a g e f ( g g r ) ) 为夕( z ,p ) 各分量的方差,( 方1 2 ,砖) 为方差的估计值 由于碍= 乃( z ,o o ) 1 ,j = 1 ,r 的期望为。方差为1 ,而作为磁的估计值我们有理 由要求集中在。的附近且不能离。太远,所以一旦某个的绝对值很大那么就有理由 认为第i 个观测点为异常点 东南大学硕士学位论文 第二章基于估计方程的经验似然诊断方法1 1 下面集中给出计算上述各诊断统计量时用到的一些渐近表达式,首先给出下述三个 条件: c i :0 0c 舻且参数o 真值日。是e 的内点,o 在夕( z 1 ,p ) ,夕( ,0 ) 所围成的凸 包中 c 2 : g ( z ,p ) 在参数真值o o 的某个邻域内存在对参数0 的二阶连续导数,函数l i o o g ( = ,o ) 1 1 , l l 劈g ( z ,o ) i i ,( z ,o ) 1 1 3 被一个可微函数g ( z ) 所界定,且互 g ) ) 。 c 3 : 矩阵毋【岛g ( 霉,口o ) ) 的秩为p ,且矩阵坼 g ( z ,氏) 9 ( z ,o o ) r ) 是正定阵 q i na n dl a w l e s s ( 1 9 9 4 ) 和l o w e n ( 2 0 0 1 ) 在证明极大经验似然估计m e l e 的渐进性质时 用到了上述三个条件 下面定义两个矩阵: 删郴垆慨s n 2 1 瓯0 1 2 ) = ( ( a t q 2 1 , n :;t 裂t ) ,() r岛q 2 n , s = s c t o ,口。,2 ( 喜:2 ) 2f - 岛e f 夕( o 夕o t g ) 一毋? 夕t ) 。的川 且有s 竹臼( 未,6 ) 为s 巧的相合估计,即s 删与s 巧,l ,j = 1 ,2 其中9 = g ( z ,o o ) ,岛表示 对0 求偏导,定义s 2 2 1 = 一s 2 1 s 五1 s 1 2 ,则有 p ) 一0 = - - n 一1 s 荔1 s 2 1 s l l g ( z ,口) 1 + d p ( 1 ) ) i = 1 ,佗 v a r g k ( x 1 ) 卜2 n - 1 e f 鲰( 戤) 岛鲰( z i ) r s 墨1 s 2 l s 叠g ( 翰) 卜n - 1 胁 岛矶( 兢) t s 菱1 岛鲰( 兢) ) k = l ,r ,其中g ( 兢) = 夕( 兢,e o ) ,m ( 戤) = g k ( x i ,o o ) 既= - 2 n 。t s 一- 1 l i + o p ( 1 ) 劈b ( p ) n s 2 2 1 在具体问题中计算基于经验似然诊断统计量时都用上面列出的式子中右边的近似表 达式,求期望的地方用样本均值来代替,口。用a 来代替从上面介绍的方法可以看出,应用 基于估计方程的经验似然诊断方法,关键问题是找到模型的估计方程,而且该方法只和 模型的估计方程有关,一旦找到模型的估计方程,就可以应用上面介绍的方法求出参数 的m e l e 进而求得各种诊断统计量 下面的性质2 1 给出了上述统计量之间的一些关系式 性质2 1 :假设条件c 1 一c 3 成立,则有下列关系式 d p - 1 ) = = 2 e c d , 1 + 吻( 1 ) ) :奎:! 里苎兰堡兰圣兰堡篁:兰r _ :;:一:篁三塞董垂笪堇童堡墼丝堕丝竺篁堑童鎏:;:;:;1 2 = 2 e c d i 1 + ( 1 ) ) = 2 p + d p ( 1 ) i = 1i = 1 由性质( 2 1 ) 可知e c 取的和约为p ,的和约为2 p ,这就为应用上述诊断方法判断强 影响点提供了一种手段,因为观测点x ;是独立同分布的,因此每个e c d ;都应该在它们的 均s v n 附近,每个也应该在它们的均值印加附近,从而,如果e c d l 远大于p 礼或c 乞远 大于2 p 加,那么就可以认为第i 个观测点甄为强影响点 以上给出了基于估计方程的经验似然方法求出来的几个诊断统计量及它们的一些性 质,这些统计量对可以求出估计方程的模型是很有效的 2 3 线性模型的经验似然诊断 在下文中会看到,对删失线性模型的统计诊断最终会转换为一个无删失线性模型的诊 断问题,因此在这里首先介绍无删失线性模型的经验似然诊断方法 线性模型是研究问题时会经常遇到的一类模型,也是现实世界中最普遍存在的一种 模型,许多学者对此作了大量深入而有成效的研究,线性模型理论相对来说发展是比较完 善的,关于线性模型的统计诊断问题也有一套相对完善的理论体系,可参见韦博成【17 】但 已有的诊断理论是在参数模型的基础上提出来的,下面将给出有关线性模型的基于经验 似然的诊断方法 设有线性回归模型 y = x 0 + g 其中y = ( y x ,) t ,g = ( 6 1 ,) t ,0 = ( p 1 ,钐) r ,x 为佗p 阶列满秩设计阵,且 有e ( 6 ) = 0 ,v a r ( g ) = a 2 i 由上面关于线性模型的条件易知有e ( y i x t oix i ) = 0 ,由此可得e x i ( y i x t o ) = 0 ,其中x i 表示设计阵x 的第z 行,因此在线性模型中可取估计式为 g ( z t ,日) = x l ( 犰一x t o ) 其中戤= ( x i , l ,z 馏) = ( y i ,x t ) ,即此时观测值由两部分组成,且有r = p ,r 为估计 式g ( z i ,0 ) 的维数 至此我们找到了线性模型的估计方程,从而解决了应用基于估计方程的经验似然诊 断方法的关键问题有了线性模型的估计方程就可以应用2 1 ,2 2 节中介绍的方法来研 究线性模型的统计诊断问题了 第三章删失线性模型的统计诊断 3 1 删失线性模型 在许多实际问题中,诸如抽样调查、生存分析、可靠性寿命试验、医药追踪试验中 多少会产生一些数据删失,因此删失数据问题在各应用领域越来越引起人们的普遍关注 模型在完全数据下的理论已经发展的较为完善,相对而言,基于删失数据下估计量统计性 质的研究分析还是统计分析中一个比较薄弱的环节删失线性模型是社会生活尤其是生 存分析中经常遇到的模型,它具体可分为左删失,右删失,双向删失和区间删失等多种情 况,而其中又以右删失最为常见,例如灯泡在长达5 0 0 d 、时的寿命实验中没有损坏;机器从 昨天上午9 时到现在已经出现了5 次毛:病人在长达1 0 年的术后生存调查中还没有去世等 对于以上这些数据我们并不知道它们的确切数值,但知道大于等于某个数,它们由于某种 原因被截断了,我们能得到的信息仅仅是:灯泡寿命大于5 0 0 d 、时,机器出毛病的次数大 于5 次,病人术后存活时间大于1 0 年等以上就是典型的右删失数据,本文主要研究右删 失线性模型的统计诊断问题,并且用基于估计方程的经验似然方法来求它的各种诊断统 计量 首先具体介绍右删失线性模型: 设有线性回归模型 y = x o + g 其中y = ( y t ,鲰) t ,e = ( e 1 ,) t ,0 = ( 0 1 ,) t ,x 为他xp 阶列满秩设计阵, x t 为x 的第i 行,e ( g ) = 0 ,v a r ( e ) = 盯2 j ,这是常见的完全数据回归模型,然而在某些情 况下,玑可能被某个随机变量q 所截掉,从而导致y i 不能完全被观测到,也就是说,观测到 的数据不是( 玑,x t ) ,而是( 忍,盈,x t ) ,其中 旎= m i n ( 犰,q )民= i y i q ) i = 1 ,n j a ) 为集合a 的指示函数,并假设删失变量q 是独立同分布的,其共同分布为g 上述模型就称为是右删失线性模型,左删失,双向删失和区间删失的定义和它类似 由定义可知,民用来标记第i 个观测值是玑还是白,若盈= 1 则表示犰,若文= 0 则表示c i 本节开始所举的几个例子就属于此类右删失数据,只是它们对应的删失变量是个定值, 属于比较简单的一种情况删失数据和全数据相比缺失了一部分数据信息,如果为了处 1 3 东南大学硕士学位论文第三章删失线性模型的诊断问题 1 4 理简便把删失数据也近似看作真实数据,而用通常基于全数据的统计方法去研究解决删 失数据问题,其结果必然与现实有较大的误差对此统计学家们发展了一些基于删失模 型的统计理论,应用这些理论和方法去研究删失数据,就避免了研究的人为性而对删 失线性模型的研究主要集中在如何估计模型中的参数,即研究删失数据所服从的模型, 如m i l l e r ( 1 9 7 6 ) ,b u c k l e yj a m e s ( 1 9 7 9 ) ,k o u l 、s u s a r l aa n dv a n r y z i n ( 1 9 8 1 ) 分别提出了三种 不同的估计参数方法本文关心的是异常点的检验问题,我们将用经验似然的方法来估 计删失线性模型的参数,进而解决它的统计诊断问题 3 2 模型转换 对于删失线性模型,无论单独使用非删失数据,还是将删失数据简单的看作是真实数 据,都是不合理的换言之,删失数据既不能丢掉也不能直接使用,关键在于寻求一种方 法尽量提取其中的信息而且基于完全数据提出的一系列统计方法也不能直接应用于删 失数据,一种自然的想法就是能不能将删失数据模型通过某种方法转换成另外一种完全 数据模型k o u l e t a l ( 1 9 8 1 ) 针对删失数据模型提出了一种数据转换方法,成功的解决了从 删失数据模型到完全数据模型的转换问题,下面就来看一下这一问题是怎么解决的 首先进行数据转换,令 y i g :f 笔去 江1 ,柚( 3 1 ) g 2 f 虿两 忙l ,柚 即 玑g :i y i 丽文一 ( 3 2 ) l 0也= 0 其中g 是删失变量q 的分布函数,这时得到了新的数据集( x ,犰g ) ,i = 1 ,扎,并且 可以证明e ( 玑gix i ) = x t o ,这样我们就可以构造新的线性模型如下 y c = x o + g( 3 3 ) 其c o y c = ( y l g ,蜘) t ,x 和0 的定义同3 1 中,g 期望仍为0 ,但其方差有可能和3 1 中 不同 至此就把删失数据转换成了服从另一个线性模型的无删失数据集,并且前后两个线 性模型中的参数完全相同,这样就可以把对删失数据的统计推断问题转换成另一个无删 失数据的统计推断问题了,从而实现了问题的可行性转换本文也正是基于该方法通过寻 东南大学硕士学位论文第三章删失线性模型的诊断问题 1 5 找转换后线性模型的异常点来找出原删失模型的异常点,即通过转换的思想来实现问题 的解决 从转换式( 3 2 ) 中可知,要实现数据转换还必须知道删失变量c 的分布函数g ,在有些 情况下,删失是由某些自然原因或突发事件而产生的,此时删失变量的分布函数g 是未知 的,例如,在医学研究中,由于病人的中途退出,或在观测结束时仍然存活等等,造成对病 人生存时间的观测往往是不完全的但是,删失有时是由于人为的设定与控制而造成,例 如,在工程技术方面,对一些物件进行( 毁坏性) 试验,但不希望无休止地等待下去直至所有 的物件都毁坏,因为这将耗费太大的人力财力,所以可以设定试验的时间不能超过某个界 限,在这种情况下,删失变量的分布函数g 是已知的有不少学者对删失分布己知情况下 的统计模型作过研究,例如z h e n gz u k a n g ( 1 9 8 7 ) ,秦更生( 1 9 9 5 ) 等如果g 己知就可以 直接进行数据转换,而事实上在很多情况下g 的分布是未知的,这时就需要寻找g 的一个 估计式来代替它s u s a r l a ,v a n r y z i n ( 1 9 8 0 ) 给出了g 的一个如下形式的估计式g 1 : n 0 1 ( t ) = i i ( 1 + n + ( 旎) ) ( 2 + n + ( 旎) ) ) “魂 兹) , a ) 为集合a 的指示函数他们还证明了在某些条件 下0 1 ( t ) 是c ( o 的相合估计 另外,k o u l ( 1 9 8 1 ) 又提出了g 的k m 估计式0 2 ,定义如下: 其中,f 4 ,为集合a 的指示函数 可见g 的两种估计式都只与实际观测值( 乞,以,x t ) 有关,因

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论