




已阅读5页,还剩27页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
一、学位论文独创性声明 东南大学学位论文 性声明及使用授权的说明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果 尽我所知,除了文中特别加以标明和致谢的地方外,论文中不包含其他人已经发表或撰写过的 研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料与我一同 工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意 二、关于学位论文使用授权的说明 签名:趁日期:罂i 旦:三:! f 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印件 和电子文档,可以采用影印、缩印或其他复制手段保存论文本人电子文档的内容和纸质论文 的内容相一致除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布( 包括刊登) 论 文的全部或部分内容论文的公布( 包括刊登) 授权东南大学研究生院办理 摘要 本文基于贝叶斯方法对存在异常点时的变量选择及变量选择的影响分析进行研究 在存在异常点时的变量选择这个问题中,异常点的个数和被选自变量的个数都是未知的 在本文中,我们运用贝叶斯方法同时考虑异常点的诊断和自变量选择的问题在以前的贝叶斯 统计诊断文献中,一般假定正常点和异常点来自同一个分布族,只是参数值有所不同而已,这 种做法要求我们对于异常点的产生机制预先有充分的了解这在实际中并不总是可能的,因为 异常点的来源一般是不清楚的本文采用最保守的做法,假定异常点来自整个空间上的均匀分 布,这相当于假定没有任何关于异常点的先验信息对于每个数据点,我们都给它设置了一 个指示变量用以指示该数据点是否为异常点通过更新指示变量来确定异常点对于自变量选 择,我们采用随机搜索法,即设置被选自变量的个数和被选自变量的下标( 它们结合在一起决定 了被选的自变量) 为随机变量,通过更新这两个随机变量来进行自变量的选择本文首先运用贝 叶斯方法计算出了各参数的后验分布;其次依据各参数后验分布,本文给出了相应的算法:通 过生死m a r k o v 链m o n t ec a r l o 方法和g i b b s 抽样策略对维数变化的未知参数进行更新,通过 有限次迭代可以估计出未知参数的值,即选择出自变量和异常点 对于变量选择的影响分析,本文首先运用随机搜索法对原模型和数据删除模型分别进行 自变量选择通过比较被选自变量是否相同来确定所删除的数据点是否为强影响点;其次对方 差扩大模型中变量选择的后验概率进行局部影响分析,通过计算每个数据点影响曲率的大小来 确定那个点为强影响点最后,通过随机模拟和对实际数据的分析来说明本文方法的有效性 关键词:异常点;变量选择;强影响点;影响分析;生死m a r k o v 链m o n t ec a r l o ;g i b b s 采样 a b s t r a c t b a s e do nb a y e s i a nm e t h o d s ,i nt h i sp a p e r ,w er e s e a r c ht h ev a r i a b l es e l e c t i o ni nt h ep r e s e n c e o fo u t l i e r sa n dt h ei n f l u e n t i a la n a l i s i so ft h ev a r i a b l es e l e c t i o n i nt h ep r o b l e mo ft h ev a r i a b l es e l e c t i o ni nt h ep r e s e n c eo fo u t l i e r s ,w es s s u m et h en u m b e ro f o u t l i e r sa n dt h en u m b e ro fv a r i a b l e sa r eb o t hu n k n o w n i nt h i sp a p e r ,w es o l v et h eo u t l i e rd e t e c t i o n p r o b l e ma n dt h ev a r i a b l es e l e c t i o ns i m u l t a n e o u s l yb yb a y e s i a nm e t h o d s i nt h eb a y e s i a ns t a t i s t i c a l d i a g n o s i sl i t e r t u r e ,u s u a u yas i n g l ef a m i l yo fd i s t r i b u t i o n si s u s e df o ra l ld a t a ,t h eo u t l i e r sa r e s i g n i f i e db yd i f f e r e n tp a r a m e t r i cv a l u e s s u c hac h o i c ei sr e a s o n a b l eo n l yi fw eh a v es u f f i c i e n tp r i o r i n f o r m a t i o nf o rt h eg e n e r a t i o no fo u t l i e r s i np r a c t i c e ,t h em e c h a n i s mf o rt h eg e n e r a t i o no fo u t l i e r s i sr a r e l yc l e a r w es u p p o s et h eo u t l i e r sa r eg e n e r a t e df r o mu n i f o r md i s t r i b u t i o no nt h ew h o l es p a c e t h i si se q u i v a l e n tt oa s s u m en op a r t i c u l a rk n o w l e d g er e l a t e dt oo u t l i e r s f o re a c hd a t a ,a ni n d i c a t o r i si n t r o d u c e dt op o i n tw h e t h e ri t i sa no u t l i e r w ec a na s c e r t a i nt h eo u t l i e r sb yu p d a t i n gt h e i n d i c a t o r s f o rt h ec h o i c eo fi n d e p e n d e n tv a r i a b l e s ,w eu s er a n d o ms e a r c hm e t h o d ,t h a ti s ,w es e t t h en u m b e ro ft h es e l e c t e dv a r i a b l ea n dt h es e l e c t e dv a r i a b l es u b s c r i p t ( w h i c ht o g e t h e rd e t e r m i n e t h es e l e c t e dv a r i a b l e s ) a sr a n d o mv a r i a b l e s w ec a nc a r r yo u tt h ec h o i c eo fi n d e p e n d e n tv a r i a b l e s b yu p d a t i n gt h et w or a n d o mv a r i a b l e s f i r s t l y , w eu s eb a y e s i a nm e t h o d st oc a l c u l a t et h ep o s t e r i o r d i s t r i b u t i o no fe a c hp a r a m e t e r ;s e c o n d l y , b a s e do nt h ep o s t e r i o rd i s t r i b u t i o no fe a c hp a r a m e t e r w 号 s h o wt h ec o r r e s p o n d i n ga l g o r i t h m :u s e i n gt h eb i r t ha n dd e a t hm a r k o vc h a i nm o n t ec a r l oa n d g i b b ss a m p l i n gs t r a t e g i e su p d a t et h eu n k n o w np a r a m e t e r sw h o s ed i m e n s i o na r ec h a n g e d t h r o u g h al i m i t e di t e r a t i o n s ,t h ev a l u eo ft h eu n k n o w np a r a m e t e r sc a nb ee s t i m a t e d ,i e g e t t i n gt h es e l e c t e d i n d e p e n d e n tv a r i a b l e sa n do u t l i e r s i nt h ep r o b l e mo ft h ei n f l u e n t i a la n a l i s i so ft h ev a r i a b l es e l e c t i o n ,f i r s t l y , w eu s et h er a n d o m s e a r c hm e t h o dt oc a r r yo nt h ev a r i a b l es e l e c t i o nt ot h eo r i g i n a lm o d e la n dd a t ad e l e t i n gm o d e l r e s p e c t i v e l y w ec a nd e t e r m i n ew h e t h e rt h ed e l e t e dd a t ai si n f l u e n t i a lp o i n tb yc o m p a r i n g w h e t h e r t h es a m ev a r i a b l e sw e r es e l e c t e d ;s e c o n d l y ,w ec a r r yo nt h el o c a li n f l u e n t i a la n a l y s i sf o rt h ep o s t e r i o r p r o b a b i l i t yo fb a y e s i a nv a r i a b l es e l e c t i o ni nt h ev a r i a n c ee x p a n s i o nm o d e l w e c a nd e t e r m i n et h e i n f l u e n t i a lp o i n tb yc a l c u l a t i n gt h ec u r v a t u r eo fe a c hd a t a f i n a l l y , t h r o u g hs t o c h a s t i cs i m u l a t i o n a n da n a l y s i n gt h ea c t u a ld a t a ,w ec a ni l l u s t r a t et h ee f f e c t i v e n e s so fo u rm e t h o d k e yw o r d s :o u t l i e r ;v a r i a b l es e l e c t i o n ;i n f l u e n t i a lp o i n t ;i n f l u e n t i a la n a l i s i s ;b i r t ha n dd e a t h m a r k o vc h a i na n dm o n t ec a r l o ;g i b b ss a m p l i n g n 摘要 a b s t r a c t 目录 第一章引言 1 1 变量选择 1 2 统计诊断 1 3 本文工作 第二章存在异常点时的变量选择 2 1 模型的定义 2 2 贝叶斯框架 2 2 1 各参数的先验设置 2 2 2 存在异常点时的贝叶斯变量选择统计量 2 2 3 各参数的边际后验分布 2 3 抽样算法 2 4 实验模拟 第三章变量选择的影响分析 3 1 贝叶斯变量选择的影响分析 3 2 方差扩大模型中贝叶斯变量选择的局部影响分析 3 2 1 单个影响点的局部影响分析: 3 2 2 多个影响点的局部影响分析 第四章结论 附录一5 4 位肝手术病人的观测数据 致谢 参考文献 2 4 , 2 5 2 6 2 7 ; 一 1 2 2 3 3 3 3 4 6 8 9 :宝 m 竭 殂 第一章引言 美国著名统计学家、美国科学院院士e f r o n 曾经说过:。在二十世纪,统计思想和方法已 成为许多科学领域的理论支柱目前,它在诸如天文学、物理学、地质学等更复杂的科学领域 中也发挥了日益重要的作用在二十一世纪,人们将广泛认识到统计学是科学思想的中心成分 之一”变量选择和影响分析都是统计中重要的内容,在现实中有着广泛的应用 1 - l 变量选择 在实际问题中,变量选择是非常重要的在多元回归分析中,一方面,为获取较全面的信 息,总希望模型中包含尽可能多的自变量;另一方面,考虑到获取如此多自变量的观测值的实 际困难及费用,我们则希望回归方程中包含尽可能少的且重要的自变量加之理论上可证明预 报值的方差随着自变量数目的增加而增大,且包含较多自变量的模型拟合的计算量大,又不便 于利用拟合的模型对实际问题作解释因此,在实际应用中,我们希望拟合这样一个模型,它 既能较好地反映问题的本质,又包含尽可能少的自变量这两个方面的一个适当折中就是最优 回归方程的选取问题,其基本思想是在一定的准则下选取对因变量影响较为显著的自变量,建 立一个既合理又简单实用的回归模型 以多元线性回归模型y = x 1 尻+ x 2 屉+ + 姊岛+ 为例由于种种原因,这些回归自变 量中可能有许多与响应变量y 无关的回归自变量,这就需要从这些可能的回归自变量中找出与y 最有关的k ( k p ) 个回归自变量寻找回归自变量的子集& = u 1 ,如) :j l ,靠互不相等) 的过程就叫做变量选择,其中歹l ,如为回归自变量的下标 变量选择通常的方法包括穷举法和逐步回归法一般地,回归自变量 z l ,x p ) 的任何 一个子集都被称为一个模型对于穷举法来说,我们要从2 p 个可能的模型中选择个最优的 当p 的值过大的时侯,确定性的搜索方法带来了无法克服的计算困难逐步回归法是目前应用 较广泛的选择最优回归方程的方法它和穷举法相比,计算量少,其不足之处在于该方法最终 只提供一个。最优”回归方程,而无其它选择的余地 上世纪九十年代,随着m a r k o v 链m o n t ec a r l o ( m c m c ) 方法的发展,人们开始用贝叶斯 方法解决变量选择的问题通过后验分布的指导,我们完全不必搜索全部的模型空间其中最 著名的就是g e o r g e ( 1 9 9 3 ) 提出的随机搜索变量选择( s t o c h a s t i cs e a r c hv a r i a b l es e l e c t i o n ,s s v s ) 方法在s s v s 中,0 、1 向量7 = ( 饥,加,饰) 7 指示选择的变量,即竹= 1 代表第r 个回 归自变量被选入在给定屈矿2 和7 = ( 饥,能,饰) 7 的先验分布的情况下,g e o r g e ( 1 9 9 3 ) 利用 g i b b s 方法对后验分布丌( p ,叮2 ,y i 耖) 进行了抽样,由此可以估计边际后验分布丌( 7 i 剪) 显然,使 得丌( 7 1 秒) 最大的模型就是我们要选择的模型但是其为了避免参数维数变化而采用了复杂的先 验设置这导致了结果与超参数的设置直接相关 1 东南大学硕士学位论文第一章引言 2 1 2 统计诊断 异常点是统计诊断的一个重要概念在回归分析中,异常点是指对既定模型偏离很大的数 据点这些点可能是由于观测错误或记录错误导致的,也可能是来自其它的分布它们的存在 会使我们的统计推断结果和真实结果偏离很大所以我们在进行推断之前必须对它们进行妥善 的处理 影响分析是统计诊断中重要的分枝,其研究内容和方法近年来仍然在不断的发展和开拓 从目前来看,影响分析的内容大致可分为两个方面:第一,数据点的影响分析,主要是研究特定 的某几个点,特别是研究某一个点对于统计分析的影响这是影响分析初期研究的重点,也是 最有实用价值的部分第二,广义影响分析,主要研究当模型有微小扰动时,对于统计推断的影 响通常可把扰动归结为与模型有关的若干具体因素所产生诸如均值的漂移、方差的扩大、 自变量的改变等等问题归结为如何定量的刻划这些扰动的影响,以及对于各种具体模型、具 体问题的应用在大量的研究中,度量影响的基本统计量主要有c o o k 距离,w - k 距离和k l 距离 1 3 本文工作 本文主要研究存在异常点时的变量选择和变量选择的影响分析对于异常点假定它无任 何先验信息,从而假定它服从整个空间上的均匀分布 在第二部分中,本文主要研究存在异常点时的变量选择问题:首先,基于贝叶斯方法对存 在异常点时的变量选择问题进行研究分析;其次,依据这个结论,本文给出了相应的算法:通 过s t e p h e n s ( 2 0 0 0 ) 生死m a r k o v 链m o n t ec a r l o ( b d m c m c ) 和g i b b s 抽样策略对维数变化的未 知参数进行抽样估计,从而可选择出自变量和异常点;最后,通过随机模拟和对实际数据的分 析来说明本文方法的有效性 在第三部分中,本文主要研究变量选择的影响分析:首先,研究删除一个数据点对变量选 择的后验极大似然估计的影响;其次,研究方差扩大模型对变量选择的后验概率的局部影响; 最后,通过随机模拟和对实际数据的分析来说明本文方法的有效性 , 第二章存在异常点时的变量选择 在进行变量选择的时候,我们总是希望所有数据点都服从真实模型,只有这样它们包含的 信息才是对我们选择真实模型有用的信息而在实际问题中,由于某种原因使得某几个数据点 偏离了真实模型,这些点被称为异常点它们的存在会干扰我们选错模型所以在变量选择之 前,我们应该先把这些点删除掉,然后再进行变量选择 2 1 模型的定义 假设y = ( y l ,) 为响应变量,x = ( x l ,耳) 为n x p 阶设计矩阵,我们考虑正态 线性模型: 秒= x z + ,e 一? 、,k ( o ,0 2 j ) ,( 2 1 ) 其中,p = 慨,伟) 为p 维未知参数向量,口2 为未知参数,e 是一个g a u s s 误差向量由 于在实际中,截距向量通常都是被选入模型的,所以我们不再指出截距向量,认为( 五,x ,) 就是p 个回归自变量由于种种原因,这些回归自变量中可能有许多与响应变量耖无关的回归 自变量,这就需要从这些可能的回归自变量中找出与y 最有关的七( 忌p ) 个回归自变量,寻找回 归自变量的子集, s k = 0 1 ,靠) :歹l ,靠互不相等 的过程就叫做变量选择,其中歹l ,如 为回归自变量的下标 通常,回归自变量 溉,玛 的任何一个子集都被称为一个模型,所以我们要从2 p 个 可能的模型中选择一个最优的当p 的值过大的时侯,确定性的搜索方法带来了无法克服的计 算困难而用贝叶斯方法解决变量选择问题时,通过后验分布的指导,我们完全不必搜索全部 的模型空间 我们所考虑的问题是存在异常点时的变量选择,在问题中我们事先并不知道有几个异常 点,更不知道是那几个这就需要我们引入一个指示变量6 = ( 西,如) 来指示异常点, ( 口) :瓯= 0 表示第i 个数据点为异常点,在模型选择中被删除; ( 6 ) :最= 1 表示第i 个数据点为正常点,在模型选择中被保留 本文假设不知道异常点先验信息,认为异常点服从整个空间上的均匀分布这时模型的似然函 数为: p ( y k 柚舢州2 ) :( 2 ,r a z ) 一犁e x p 一鱼坐掣) ,歹 ) ,岛,口6 ) = 2 ) 一平 一鱼型坐磊鲨型旦 2 2 贝叶斯框架 2 2 1 各参数的先验设置 利用贝叶斯方法来解决上述一系列的问题,首先要做的就是给未知参数向量口= ( 七,歹( ,房盯2 ,6 ) 东南大学硕士学位论文 第二童存在异常点时的变量选择4 一个合适的先验分布 对于回归自变量个数k ,我们赋予它一个截断泊松先验: 丌( 惫) 翕j 后办, 其中,j 代表指示函数由于e ( 七) 天,所以超参数天代表我们所认为的真实模型中回归 自变量的个数 在k 给定下,我们假设第s 个回归自变量以概率p 。被选入真实模型我们这里定义集合 瓯= t ( j l ,a ) :歹l ,如互不相等) ,模型歹( 七) = ( j i l ,办) 的先验分布定义为。 七 ; 7 r g 七i 忌) = 靠1 , 歹七瓯 i i , 其中,= 邑c - ) 鼠兀笔,戤为规范化常数当没有先验的信息时,我们认为每个回归自变量 都是等可能的被选入的,即p s = ;,s = l ,p 所以j ( 七) 的先验分布可以简化为; 彬叫咖学 在给定模型( 2 1 ) 下,我们把模型中未知参数反仃2 的先验分布设置为常见的共轭先验,具体如 - f ; 7 r ( 色( ”i 七,歹( 柚,盯2 ) = 肌m o ,a r 2 鼋j r ) , 7 r ( 仃2 ) = 1 0 ( v 2 ,a 2 ) , 其中,x a ( ,) 代表逆伽马分布, 可以认为先验的样本量 指示变量6 的先验分布设置为伯努利分布: 丌( 6 ) = 。( 1 一) 1 _ 以 2 2 2 存在异常点时的贝叶斯变量选择统计量 对于正态线性模型( 2 1 ) ,假定各参数都是相互独立的,我们得到参数p = ( 七,歹( ,良( 0 - 2 ,6 ) 的联合后验分布为: 嘶脚矧沪燮盟垃业逊龆塑盟业绌巡, 其中,p ( y l k ,j ( 扪,色( 仃2 ,6 ) = n :1n h ( x :i ( ”岛( 七) ,仃2 ) 是样本似然函数, p ( e k ,i l k ) , 岛( - ) ,矿,6 ) 7 r ( 岛( ”i 七,歹( ) ,盯2 ) 7 r ( c r 2 ) 7 r ( 七) 7 r 0 ( 七i 七) 7 r ( 5 ) = ( 刍) 半唧 一翌学) 东南大学硕士学位论文第二章 存在异常点堕丝童苎缝差墨一 5 c ( 秒) 全 r e x p 一 l 一卢o ) ( 岛( ”一p o ) 2 r 苦a 2) ( 击) 针1 e x p _ 杀) f l 咖喵) 1 _ 吣蔷m p ) 等拶,u 阳一u t ) 卜以鲁j 【p ) 罕, p ( 秒i 七,歹( 砷,岛( ”,盯2 ,6 ) 丌( 岛( - ) i j ;:,歹( 砷,仃2 ) 7 r ( 盯2 ) 丌( 后) 7 r ( 歹( 七) l 后) 7 r ( 6 ) p ( 詹,歹( 七) ,岛伪) ,盯2 ,6 ) 参数( 后,歹( 七) ) 的边际后验分布为: p ( k ,歹( 膏) i 耖) = = 附,一伽彬2 ,啦) 郎,一6 ) c ( k ,歹( 七) ,秒) 7 r ( 忌) 7 r ( j ( 七) 1 ) c ( y ) 其中, c ( 后,歹( 砷,可) 垒p ( 3 ,i 七,j ( 的,岛( ”,盯2 ,6 ) 丌( 岛( 一) i 七,j ( 砷,仃2 ) 丌( 盯2 ) 丌( 6 ) p ( 卢,0 r 2 ,6 ) = ( 痂) - ) - _ l , 6 , e x p 一型掣 ( 嘲一i嘲2 k p - 堕鼍宰型) 翳( 击) ”1 唧 _ 券) 妙”州加2 埘 ( 2 2 ) 东南大学硕士学位论文 第二章存在异常点时的变量选择_ 6 y d i a g ( 5 ) y + 百2 u o u o p i 一1 p 1 + a u 2 - - 犁p ( 。 n,f2,以+tj、iili。 。m,z一,nt=-r-)ii-v-,-to 2 莩历磊瓦面磊磊= 磊i 蒂6 n - ,氐r ( 詈) 咕( a u + 耖,d 魄( 6 ) 暑,+ 百2 如伽一店一1 p 1 ) 垒卜 c ( 可) 一1 c ( k ,i l k ) , 可) 丌( 鬼) 万o mi k ) , o 8 0 ,让斫= ,结束算法如果t s o ,继续以下 步骤; ( 4 ) 选择一种跳跃方式:a ( ) 是一个给定的出生率,出生跳跃的概率为a ( ) ( a ( ) + d ( ) ) ,灭亡跳跃的概率为d ( ) ( ) + d ( ) ) ; ( 5 ) 更新 如果发生的是出生过程,我们就利用出生分布b ( j k + l ,氏+ 。) i ) 生成个新点( 靠+ 1 ,筋+ 。) , 然后更新的值,乍u ( j k + l ,岛。+ 。) ; 。 如果发生的是灭亡过程,从当前状态中以概率以;( j r ,岛,) ) d ( ) 选择一个点 ,岛,) 灭亡 : ( 6 ) 回到第( 2 ) 步 算法2 - - 对( 歹( ,岛( m 口2 ,6 ) 的g i b b s 抽样: 具体操作过程为:根据公式( 2 8 ) 先对矗进行更新,再根据( 2 3 ) 对岛,进行更新,根据 公式( 2 6 ) 对d r 2 进行更新 对魂,t = 1 ,的更新如下: ( 1 ) 由公式( 2 7 ) - - i 得p ( 民= 1 1 秒,k ,j ( 躺,岛( d r 2 ) 和p ( 6 i = o l y ,詹,歹( 舢,岛( m d r 2 ) 的值,分 别记为五1 ,; ( 2 ) 计算m = 概; ( 3 ) 抽取随机数w - , u ( o ,1 ) ,如果u 风,取氐= 1 ,否则,取尻= 0 对每个参数进行抽样的时候,其他的系数都要取最新的值 2 4实验模拟 例2 4 1 假设实验模型为y = x p + ,e 一( o ,d r 2 j ) ,其中p = ( 1 ,0 ,1 ,0 ,1 2 ) ,x 为n p 随机 正态矩阵,粕一( o ,1 ) ,y 为n x l 随机正态列向量,k 一( 弼卢,d r ) , 我们先令d r = 1 ,进行两次实验;然后再令d r = 0 1 ,进行两次实验 我们使用n = 8 p = 4 0 个数据点来分析模型,分别令砼9 = 弼9 p + 2 d r ,蚝o = x l o 卢+ 3 d r 为异常点我们的任务是选择出自变量的同时把异常点诊断出来 东南大学硕士学位论文 i i i - - l i 存在异常点时的变量选择一 1 0 下面我们应用上面的抽样方法对这个模型进行诊断得出的结果见图2 1 和表2 1 表2 1 :出现次数较高的模型( 4 0 个点,5 个自变量)例2 4 兰 s i g m a = ls i g m a = o 1 第一次实验第二次实验第一次实验第二次实验 模型次数模型次数模型次数 模型次数 z 1 ,z 3 ,z 5 3 6 0 4 z 1 ,z 3 ,z 5 3 3 6 9 z 1 ,茁3 ,z 5 3 8 9 5 z 1 ,z 3 ,z 5 3 9 0 7 z 1 ,z 2 ,z 3 ,x 5 1 8 2 z 1 ,z 3 ,z 4 ,z 5 1 9 4 z 2 ,z 4 ,z 5 3 5 z 1 ,z 2 ,z 3 ,z 5 5 6 z 1 ,z 3 ,z 4 ,x 5 1 4 3 z 1 ,z 2 ,z 3 ,z 5 1 3 5 z 1 ,z 3 ,z 4 ,z 5 3 0 z l ,z 3 ,z 4 ,z 5 4 l 图2 1 :各数据点的出现次数左上角的图对应盯= i 时的第一次实验,右上角的图对应盯= 1 时的第二次实 验,左下角的图对应盯= 0 1 时的第一次实验,右下角的图对应盯= 0 1 时的第二次实验 : 表2 1 列出了每次实验结果最优的前三个模型和每个模型在4 0 0 0 次迭代中出现的次数, 出现次数最高的模型为所选择的模型图2 1 给出了每次试验的4 0 0 0 次迭代中各数据点发挥作 用的次数,即魂= 1 ,t = 1 ,4 0 的次数,出现次数最低的数据点为异常点所以本文选出的 模型为x l ,弱,恐,异常点为( z 鲕,y a o ) ,这是正确的对于扰动不大的2 9 号点不能诊断出来,这 说明我们的方法诊断出的异常点都是方差大于等于3 a 的点而且,结合图2 1 和表2 1 可以看 出:一次试验中,当盯= 0 1 时,即实验误差相对均值比较小,则正常数据点出现的次数较高且 相对集中,即选出的模型能充分解释数据点所包含的信息,这时所选真实模型的出现次数也越 东南大学硕士学位论文第二章存在异常点时的变量选择 1 1 高;当盯= 1 时,即实验误差相对均值比较大,则这时对应的数据点图中就会有很多数据点的 出现次数较低且相对分散,出现次数越低的数据点离数据中心就越远,它们所包含的信息不能 完全由所选出的线性模型解释,同时,所选出的真实模型的出现次数比较低,当误差相对均值 足够大的话,还可能使我们选错模型 例2 4 2 假设实验模型为y = x z + e ,e , - , n ( 0 ,o r 2 j ) ,其中= 0 1 ,x 为n p 随机正态矩阵, 粕一( o ,1 ) ,y 为n x l 随机正态列向量,k 一( x :卢,盯) ,p = ( 1 ,1 ,0 ,0 ,0 ,0 ,1 5 ,- 1 ,o ,0 ,0 ,1 ,0 ,1 ,1 ) 我们使用n = 8 p = 1 2 0 个数据点来分析模型,分别令h 1 9 = x i l 9 p + 2 盯,h 2 0 t弼2 0 p + 3 仃我们的任务是选择出自变量的同时把异常点诊断出来 下面我们应用上面的抽样方法对这个模型进行诊断得出的结果见图2 2 和表2 2 表2 2 :出现次数较高的模型( 1 2 0 个点,1 5 个自变量) 例2 4 2 第一次实验第二次实验 模型出现次数模型出现次数 z l ,z 2 ,z 7 ,x 8 ,x a 2 ,x 1 4 ,x 1 5 3 9 2 7 z 1 ,z 2 ,z 7 ,:e 8 ,x 1 2 ,x 1 4 ,x 1 5 3 6 6 0 z 1 ,z 2 ,x 7 ,x 1 2 ,x 1 4 ,x 1 5 1 4 z 1 ,z 2 ,x 7 ,x 1 2 ,x 1 4 ,x 1 5 5 1 z 1 ,z 2 ,z 5 ,z 7 ,x 8 ,x 1 2 ,x 1 4 ,x 1 5 1 3 z 1 ,z 2 ,z 6 ,2 :7 ,x 1 2 ,x 1 4 ,x 1 5 3 4 结果表明,我们的方法对于自变量的个数比较多的情况也是很有效的,而且速度也很快 所选出的模型为噩,恐,为r ,x s ,噩2 ,x 1 4 ,x 1 5 ,异常点为( z i 2 0 ,y 1 2 0 ) 这是符合期望的 图2 2 :各数据点的出现次数左图对应第一次实验,右图对应第二次实验 例2 4 3 假设实验模型为y = x p + ,s , - , n ( 0 ,盯2 ,) ,其中p = ( 0 ,0 ,1 ,l ,1 ) 7 ,盯= 1 ,x 为n p 随 机正态矩阵,x i j v n ( o ,1 ) ,且x 3 = x 5 + o 1 5 x 3 ,y 为n x l 随机正态列向量,k 一( 弼p ,仃) 我们使用n = 8 p = 4 0 个数据点来分析模型分别令硷9 = 玛p + 2 a ,y 3 0 一砭o p + 3 a 我们的任务是选择出自变量的同时把异常点诊断出来 这个模型是复共线性模型,恐,溉的相关系数接近于1 试验结果见表2 3 和图2 3 根 据图表显示,可以看出对于复共线性模型我们的算法也有效所选出的模型为飓,蜀或托,恐, 东南大学硕士学位论文第二章存在异常点时的变量选择 1 2 表2 3 :出现次数较高的模型( 复共线性) 第一次实验第二次实验 模型出现次数模型出现次数 z 4 ,x 5 1 7 9 8 z 3 ,x 4 1 5 5 1 z 3 ,x 4 8 4 4 z 4 ,z 5 1 4 6 7 z 3 ,z 4 ,z 5 4 3 6 z 3 ,z 4 ,x 5 3 7 9 图2 3 :各数据点的出现次数左图对应第一次实验,右图对应第二次实验 异常点为( z o ,y 3 0 ) ,这是符合期望的 例2 4 4 影位肝手术病人的观测数据仅献胆,见附录一在这些组数据中,包含四个观测 自变量,x 1 表示凝血值,x 2 表示年龄,弱表示酵素化验值,凰表示肝功化验值因变量 y 表示生存时间的对数值经过分析,这组数据服从多元正态线性模型我们希望从这四个自 变量中选择最主要的几个自变量,从而得到合适的正态线性模型 下面我们应用上面的算法对5 4 位肝手术病人的观测数据进行分析由表2 4 知本文选择 的自变量为五,尼,弱,托在变量选择中,各数据点所起的作用如图2 4 ,所以第2 2 、2 7 、3 0 号点为异常点 表2 4 :出现次数较高的模型( 5 4 个点,4 个自变量) 第一次实验第二次实验 模型出现次数模型出现次数 z 1 ,0 2 ,z 3 ,x 4 1 8 5 9 z 1 ,z 2 ,z 3 ,x 4 1 9 9 1 z 1 ,z 2 ,2 :3 1 7 1 0 z 1 ,z 2 ,x 3 1 5 7 5 z 3 ,z 4 ,z 5 2 3 2 z 3 ,z 4 ,x 5 2 7 0 从图2 4 中,我们可以看出大部分数据点出现的次数都较高且相对比较集中,这说明模型 x 1 ,x 2 ,x 3 ,x 4 包含了数据点的大部分信息 把第2 2 、2 7 、3 0 号异常点删除以后,我们用所选择的自变量x 1 ,恐,弱,五和因变量 东南大学硕士学位论文第二章存在异常点时的变量选择 1 3 图2 4 :各数据点的出现次数左图对应第一次实验,右图对应第二次实验 y 建立线性回归模型如公式( 2 1 0 ) : p = 0 4 6 4 8 + 0 0 7 1 2 x 1 + 0 0 0 8 9 ) ( 2 + o 0 0 9 6 x a + 0 0 0 6 1 x 4 ( 2 1 0 ) 对回归方程( 2 1 0 ) 作残差分析,如图2 5 从残差正态概率图可以看出,数据点很接近于 直线,也就是说误差的分布几乎就是正态分布,且有序残差e ( i ) 与其期望值口( t ) 的相关系数达 到0 9 7 2 5 学生化残差图也说明以y 7 为因变量,以x l ,恐,弱,五为自变量的合理性 图2 5 :数据点的残差正态概率图和残差图( 5 缸3 个点) 左图为q q 图,右图为学生化残差图 如果把所有的数据点都认为是正常点,则选出的模型为x - ,拖,恐,这个结果和( q 准 则,m s e q 准则,逐步回归方法等等) 选择的结果一样用所选择的自变量x 1 ,恐,恐和因变 量y 建立线性回归模型如下; y = 0 4 8 3 6 + 0 0 6 9 2 x 1 + 0 0 0 9 3 x 2 + 0 0 0 9 5 x a ( 2 11 ) 对回归方程( 2 1 1 ) 作残差分析如图2 6 比较图2 6 和图2 5 ,可以看出,不论是残差正态概率图 还是学生化残差图都说明模型x l ,拖,磁,x 4 比噩,x 2 ,弱更能解释数据点的信息,而且有序 东南大学硕士学位论文第二章存在异常点时的变量选择 1 4 残差e ( t ) 与其期望值q ( t ) 的相关系数为0 9 5 9 ,也小于0 9 7 2 5 这说明本文方法的有效性 图2 6 :数据点的残差正态概率图和残差图( 5 4 个点) 左图为q q 图,右图为学生化残差图 例2 4 5h a l d 水泥问题f 文献,2 圳,考察含如下四种化学成分:x l :3 c a o a 1 2 0 3 的含量伤j , x 2 :3 c a o s i 0 2 的含量伤,x 3 :4 c a o a 1 2 0 a f e 2 0 3 的含量伤) ,x 4 :2 c a o s i 0 2 的含量俐 的某种水泥,每一克所释放的热量y 与这四种成分含量之间的关系,共有j 3 组数据,列在表 2 5 ) 札 , 表2 5 :h a l d 水泥问题数据例2 4 5 序号z 1z 2x 3x 4可序号z 1x 2 3 7 3 x 4y 172 666 07 8 5813 12 24 47 2 5 2 12 9 1 5 5 2 7 4 392 5 4 1 8 2 29 3 1 31 15 682 01 0 4 31 02 14 742 61 1 5 9 41
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 煤炭工业矿井抗震设计规范2025年
- 防汛相关知识培训
- Unit 1 A New Start Developing ideas 课件 高中英语外研版必修第一册
- 网络科技行业发展报告与前景
- 健康养生产品运营方案
- 最有可信度的房产买卖合同4篇
- 关于2025公路工程施工合同2篇
- 炎症细胞因子网络-洞察及研究
- 四川省德阳市第五中学2025-2026学年高二上学期开学考试物理试卷
- 部队依法治军课件
- 《水飞蓟提取物质量要求》
- 驾校教练员培训课件
- 冠寓公寓运营管理手册
- 人工智能 第2版 课件 AI12类脑智能
- 带状疱疹的中医护理方案
- 民谣酒馆项目融资计划书
- 新概念张云生讲解的笔记
- 大班数学《年妈妈的故事》课件
- 知情同意书模板(新闻采访)
- 混凝土防渗墙单元工程施工质量验收评定表
- 恶性肿瘤中医诊疗指南
评论
0/150
提交评论