已阅读5页,还剩34页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 因果效应分析作为一种发展较快的统计分析方法,主要考察兴趣变量之间所具有的 因果关系,在此基础上发展成为一门成熟的学科。因果性与一般所说的关联性是两个不 同的概念,为了研究这性质,涌现了许多新的方法,包括潜在输出值模型,图模型及 结构方程模型 本文感兴趣的是,在医学领域中,当患者接受某种治疗后,对病情有何影响已有较 多文献针对是非塑( 0 1 ) 处理值的情形作出了研究本文将同题推广,主要研究,当 处理值是多元分布数据,并且处理值和混杂量都依时间而变化时,处理值关于输出值的 边缘均值的因果效应我们运用潜在输出值的边缘结构模型及其 p t w 估计,来对处理 值的因果效应进行估计首先关于输出值的均值建立l o g i t 模型。虽然混杂量对输出值及 处理值都有影响,然而仅把这个影响放到个权重中去考虑,权重可以看作是处理值的 无条件概率分布与其在混杂量的条件分布下的比值通过对处理值的无条件及条件概率 分布分别进行建模,并求得其估计值,就可以得到权重的估计值将输出值模型与权重 相结合,由广义加权估计的方法,就可以得到相应参数的估计值,而这些参数就可以较 好的反映处理值的因果效应 第二、三章系统的介绍因果分析方法,包括其起源及发展,因果关系同关联性的区 别,并引入新的记号及表达方式之后提出我们所要研究的问题。并介绍以前的统计学家 是如何对处理值为是非型数据的情形进行因果分析的第四章,将是非型数据推广到多 项分布的情形,详细的阐述如何通过边缘结构模型及其i p t w 估计来对参数进行因果估 计,从而估计处理值对输出值的因果效应第五章,用a i p t w 估计来优化i p t w 估计。 得到的是相容性估计另外,在生存分析问题中,把截尾事件也看作一种依时间而变化 的处理值,运用边缘模型的方法来估计因果效应 关键词;因果分析;混杂性;与事实相反的量; 依时问变化的处理值;边缘结构模 型;处理值逆概率的加权估计 a b s t r a c t c a u s a li n f e r e n c ed e v e l o p sv e r yf a s tr e c e n t l yi nm o s te p i d e m i o l o g i c ,e c o n o m e t r i c ,o rs o c i a ls c i e n t i f i c a r e a s ,a n di ta i m st os t u d yt h ec a u s a lr e l a t i o n s h i pb e t w e e nv a r i a b l e sw h i c hw ea r ei n t e r e s t e di n c a t t s a - t i o ni sn o ta s s o c i a t i o n ,a n dw en e e ds o m es p e c i a la p p r o a c h e st om a k ei n f e r e n c e ,s u c ha 8c e a n t e f f a c t u a l ( p o t e n t i a lo u t c o m e s ) m o d e l 8 ,g r a p h i c a lm o d e i s ,a n ds t r u c t u r a le q u a t i o n sm o d e l s m yt h e s i s bi n t e r e s ti st h a t w h e nap s t i e n tr e c e i v e snt r e a t m e n t 。w i l lh ef e e lb e t t e ro re v e nw o r s e ? s o m es p e c i a lp a p e r sh a v em r e a d yf o c u s e do ns i t u a t i o nw h e nt r e a t m e n ti sb i n a r yd a t a s t b i st h e s i s s m a i na t t r i b u t i o ni st h a t ,w e 目t i m a t et h ec a u s a ld i e c to fm u l t i n o m i n a le x p 0 6 l _ t r eo nt h em a r g i n a lm e a n o far e p e a t e do u t c o m e ,w h e nt r e a t m e n ta n dc o n f o u n d e r sa r ea l lt i m e - v a r y i n g w ea c h i e v ehm s ma n d i t si p t we s t i m a t o r s i nc h a p t e rt w o ,w ep r o v i d eac o n c e p t u a li n t r o d u c t i o nt oc m a li n f e r e n c e ,i n c l u d i n gi t s0 n g i na n d d e v e l o p m e n t w ei l l u m i n a t et h ed i 位f e n c eb e t w e e nc a u s a t i o na n da s s o c i a t i o n ;a n da l s oi n t r o d u c en e wn o - t n t i e nf o re x p r e s s i n gc a u s a la s s u m p t i o n sa n dc 8 u s b lc l a i m s i nc h a p t e rt h r e e w es h o wf o r m e rs t a t i s t i s t s w o r ka b o u th o wt oe s t i m a t et h ec a u 9 a le f f e c to fb i n a r y 册1 l m i nc h a p t e rf o u r w h i c hi so u rm a i nw o r k ,w ee x t e n db i n a r yd a t at om u l t l a o m i n a ld n t a f i r s to f a l l ,w e s p e e d yal i n e a rl o g i s t i cm s mt om o d e lt h em e m i io fu n t c o m e s t h o u g hc o n f o u l l d e r sa t i e c tt h eo u t c o m e s a n dt r e a t m e n t w ea d j u s tf o rt h et i m e - d e p e n d e n tc o n f o u n d e b yu s i n gt h e mt oc a l c u l a t et h es t 曲i l i z e d w e i g h t sm r a t h e rt h a nb ya d d i n gt h ec o n f o u n d e r st ot h er e g r e s s i o nm o d e l r e g r e s s o r s s t a b i l i s e d w e i g h tc a nb ev i e w e d 8r a t i oo ft h ep r o b a b i l i t yo fr e c e i v i n gt r e a t m e n ta n dt h ep r o b a b i l i t yc o l a d i t i o n 0 1 1t h ec o n f o u n d e r s ,a n dt h a tc a nb ee s t i m a t e dw i t hm l e s a tt h el a s t ,w eu s ew e i g h t e dg e et og e t c o r r e s p o n d i n ge s t i m a t o r so ft h ep a z a m a t e r ,w h i c hr e f l e c tt h ec a u s a le f f e c to fm u l t i n o m i n a le 珥 啊1 l 弛i n t h i sa r e ai nt h e8 a i n ew a y i nc h a p t e rf i v e w ep r e s e n ta u g m e n t e di p t we s t i m a t o ro fm s m 8p a r a m e t e ra n dp r o v ei t sc o n s i s - t e n c y b e s i d e s ,i ns u r v i v a la n a l y s i s ,w ev i e we s n 帅r i n g 船a n o t h e rt i m e - v a r y i n gt r e a t m e n t ,a n dm a k e c a u s a li n f e r e n c e k e y w o r d s :c a u s a li n f e r e n c e ;c o n f o u n d i n g ;c o u n t e r f a c t u a l ;t i m e - v a r y i n ge x p o s u r e ;m a r g i n a l s t r u c t u r a lm o d e l ( m s m ) ;i n v e r s e - p r o b a b i l i t y - o f - t r e a t m e n tw e i g h t e de s t i m a t o r ( 嗍 f - s t i m a t e r ) 一,学位论文独创性声明 东南大学学位论文 独创性声明及使用授权的说明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果尽我所 知,除了文中特别加以标明和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也 不包含为获得东南大学或其它教育机构的学位或证书而使用过的材科与我一同工作的同卷对本研究 所傲的任何贡献均已在论文中作了明确的说明并表示了谢意 = ,关于学位论文使用授权的说明 签名,扭啉拯f a 东南大学中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印件和电 子文档,可以采用影印、鳍印或其他复翻手段保存论文本人电子文档的内容和纸质论文的内容相一 致除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分 内容论文的公布( 包括刊登) 授权东南大学研究生院办理 签名 第一章绪论 美国科学院院士,国际著名统计学家e f f o r t 曾经说过:。在二十世纪。统计思想和方法已成为 许多科学领域( 包括教育学农业、经济生物等) 的理论支柱目前,它在更复杂的科学,诸如 天文学,地质学、物理学等领域中也发挥了日益重要的作用在二十一世纪,人们将广瑟认识到 统计学是科学思想的中心成分之一。 统计学是一门具有强烈应用背景,广泛研究内容和丰富实际成果的科学分支而因果分析方 法作为一种发展较快的统计分析方法,在医学经济,社会等各领域内作用非常突出限杰泰等 2 0 0 4 ;g r e e n l a n d2 0 0 2 ;s o b e l2 0 0 2 】它主要是考察兴趣变量之间所具有的因果关系,因果关系与我 们平时所说的关联性是两个不同的概念,因此因果分析与传统的统计方法也有很大的区别,甚至 更进一步传统的统计方法,如回归模型,是在静态条件下解决问题,主要是根据分布的抽样数据 来推断参数的性质。并在此基础上分析变量间的关联性。一般的回归模型可以包含多个自变量, 但只能包含一个因变量而因果效应模型,不仅可以处理含有多个因变量和有中介变量的问题, 而且能够在变化的条件下,考察变量问是否存在因果关系 因果效应分析在医学领域中作用非常突出,例如对患了某种疾病的患者实施一种新的治疗方 案,那么我们可以研究与传统方法相比,新方案对病情的好转或治愈是否起决定作用此时,一 般都是重复观测的数据,我们可以运用r o b i n s 介绍的纵向数据 d i 9 9 1 e 等2 0 0 2 1 中的因果效应理论 r o b i n s1 9 9 7 】来解决我们所感兴趣的问题r o b i n s 的理论推广了n e y m a n ( 1 9 2 3 ) 以及r u b i n ( 1 9 7 8 ) 的方法,后两者只研究了点态处理值的情形,而当处理值及混杂量都是依时间变化的纵向数据时, r o b i n s ( 1 9 9 7 ) 就为我们提供了一套比较完整的理论在上世纪的最后十几年问,因果效应理论得到 充分发展。尤其是潜在输出值模型的方法,在医学领域应用最为广泛 1 9 9 9 年,r o b i n s ,j m ,g r e e n l a n d 。s ,h u ,f c ( 1 9 9 9 ) 针对m s c m 模塑f z e g e r ,l i a n g1 9 8 0 ,假设 存在与时间相关的混杂量厶,处理值也与时间有关且为是非型( 即0 - 1 星) 的数据,研究了处理值对 输出值的边缘均值所造成的因果效应影响,这里,作者采用了g 一算法来估计同时,文章还与广义估 计方程的方法相比较,发现因果方法对问题的解释更合理,更符合实际除了用半参数的g 一估计的 方法外,也可以采用边缘结构模型的i p t w 估计的方法r o b i n s ,h e r n a n ,b r u m b a c k ( r h b ) ( 2 0 0 0 ( 8 ) ) , r o b 缸( 1 9 8 9 ) 对某实验室中的艾滋病患者进行研究考察其自血球、c d 4 + 细胞等的数量对病情 的影响r h b 及r o b i n s 等假设处理值为是非型的数据,构造了在处理值及混杂量的条件下,输出 数据的l o g i t 模型,并用边缘结构模型的方法估计了模型的参数,以此来分析处理值的因果影响 类似的关于生存分析中的数据,r h b 建立了比例危险回归模型,对其中的因果效应问题进行研究 r o b i n s ,h e r n a n ,b r u m b a c k2 0 0 0 ( b ) j 然而,在现实生活中,数据不尽是0 1 型的,它们可以是连续的,或者是在某一值城内取 值,即泊松( 计数) 型数据以治疗某种疾病来讲,如果仅取0 1 型数据,那么意味着只有选 东南大学硕士学位论文 用某一种药或不用该药两种选择。但是实际上,不可能只有一种药可供选择,可能有两种甚至更 多的药物或治疗方案,此时,就要求处理值的数据是多元分布的本文的主要工作就是要研究处 理值数据为多项分布的情况,当存在依时间而变化的混杂量时,处理值对输出值的因果效应如何 估计。以便通过估计值更深入的研究其统计性质这里主要运用边缘结构模型及i p t w 估计来实 现。即建立输出值的边缘分布,丽混杂量的影响通过权重来表示,类似广义加权估计方程的方法 进行估计 奉论文是这样组织的,第二章首先系统的介绍因果分析方法,包括其起源及发展。因果关系 同关联性的区别,并引入新的记号及表达方式进行因果分析,主要有三种方法t 图模型,结构方 程模型,以及与事实相反的输出值模型,分别在2 2 和2 z 介绍其主要思想第三章,提出我们 所要研究的问题。并介绍以前的统计学家是如何对处理值为是非型数据的情形进行因果分析的 正如前面所述的,在实际情况下,处理值并不仅仅为0 - i 型的,在第四章,我们把是非型数据推广 到多项分布的情形。详细的阐述如何通过边缘结构模型及其i p t w 估计来对参数进行因果估计。 从而估计处理值对输出值的因果效应由于i p t w 估计值在某些时候会产生偏差,5 1 中,将这 些偏差数值化。并将原来的估计方法进行修正,得到a i p t w 估计,并验证其相容性此外,在生 存分析领域,我们将截尾事件也看作一种依时间而变化的处理值,通过类似方法,用因果分析的 观点来进行研究,将在5 2 中介绍 注意:在本论文中,我们始终记x i i y 表示随机变量x 和y 相互独立,记x i i y i z 表示在 z 已知的条件下,髓机变量x 和,相互独立 2 第二章因果分析 2 1 概述 2 1 1 起源及发展 因果效应分析研究起源于2 0 世纪初,在上世纪的最后1 5 年间,它作为一种发展较快的统计 分析方法,逐渐形成一门较为完善的研究领域,对于解决医学,经济、社会等各领域中的问题都有 很大的作用喉杰泰等2 0 0 4 ;g r e e n l a n d2 0 0 2 ;s o b e l2 0 0 2 特别是在医学领域中,大量问题都来源 于分析事物间的因果关系比如,在一组实验人群中。试用一种药物对于控制或治疗某种疾病 的效果如何? 使用一种处理方法( 或治疗方案) 来避免某种疾病的死亡。死亡的发生率是多少? 在特定的环境中,对于一个研究对象来说,其消亡的直接诱因是什么? 很明显,解决这些问题的 关键,就是要阐明兴趣参致( 如处理( 治疗) 方案的取值,输出值,混杂量的值) ,之阔的因果效 应关系,这用以前的方法较难实现 传统的统计方法,如回归模型,是在静态条件下解决问题,主要是根据分布的抽样数据来推 断参数的性质,并在此基础上分析变最问的关联性一般的回归模型可以包含多个自变量。但只 能包含一个因变量而因果效应模型,不仅可以处理含有多个因变量和有中介变量的问题,而且 能够在变化的条件下,考察变量问是否存在因果关系下面一小节将详细阐述 2 1 2 与经典关联模型的区别 标准的统计分析方法,如我们所熟悉的回归及其他估计方法,主要的目的是根据样本的分布来 推断参数的估计值,通过参数我们可以推断变量之间的相关性联系,估计事物发生的似然函数,以 及根据新的事件等来更新似然函数的值运用经典的统计分析方法,上述问题可以很好地解决而 因果效应分析则要比传统的方法更进一步,其目的是要推断数据的产生过程方面的问题,此时。 我们不仅可以在静态条件下推导事件发生的似然函数,同样也可以在变化的情况下得知事件发生 的动力到底是什么比如,不管是由某种干涉力( 如处理方式,行政决策等) 产生,或是自发引起 的( 如流行病或自然疾病) 变化。我们都可以来预报还可以识别事件之所以发生的原因,评估责 任,比如说,事件盖发生是否是事侔y 发生的充分或必要因素等等 可见,因果性和关联性的概念不能相混淆关联性描绘的是静态的条件,而因果分析处理的 是变化的条件下的问题如果给定表示某种症状和疾病的变量,那么通过它们的联合分布,我们 无法知晓,前者的消除对于后者的治愈有什么作用更一般的,也就是说,我们不能通过分布函数 来判断,外部条件发生变化是否导致了分布的变化。因为传统的标准概率分布理论并没有解释。 当分布的一个属性值( 如观察或实验步骤) 被修正时,另一个属性值如何变化因此,关联性无法 来表示因果性 3 壅堑奎堂丝主兰堡丝苎 那么如何区分关联性和因果性呢? 关联性概念可以通过观察变量的联合分布来定义,包括 有,相关性。回归,独立,条件独立。似然,风险比,交比,边缘化,条件化等等而因果性概念仅 仅通过联合分布是无法定义的,如t 随机性,影响,效应,混杂,干扰,解释等等除此之外,当 我们用数学方法来表达因果假设及因果判断时。也需要引入新的方法和符号比如说下列两种 论断x 引起y 的发生与。x 与y 有关联性。就是不一样的含义因此用以前的关系模型,根 本无法表达。某一种症状不引发某种疾病4 的论断,更不用说,要在这些条件的基础上,用教学方 法对问题分析研究,并得到相关的结论了 正是基于以上种种,统计学家一直对于采用因果效应分析方法抱有迟疑态度,归纳起来,原 因有二【p e a i2 0 0 1 】t ( 1 ) 因果推断需要新的假设条件,而这些假设并没有被经验所论证; 2 ) 需要引进一些新的记号和表达方法 因此,只有解决好以上的问题,才可能比较好地运用因果分析的方法来对问题进行深入地研究。 2 1 3 新的记号及表达方法 为了更好地运用因果分析方法,必须引进一些新的记号及描述方法,下面我们就来介绍潜在 输出值可以通过下标来表示,如砼或互。,当然也有的统计学家习惯用括号来表示。如y ( z ,曲 或z ( 毛f ) 这里k ( ) 表示当混杂量c ,= ,处理值x 取值为z 的时候,y 的输出值若是随 机抽取的,则k 是随机变量,我们可以研究砼的概率分布p ( k = f ) 此外,概率值也可以表示 为e r = 计令( x = 。) ) 或p y = v l d o ( x = z ) 【p 1 w l2 0 0 1 】,表明当处理值x = z 时,事件( y = y ) 发生的概率 事实上,以上的表达方式是研究因果分析问题的手段之一。称为与事实相反的输出值( 或潜 在输出值) 模型,这是在医学领域应用最为广泛的一种方法,我们将在2 3 中更为详细地介绍其 基本思想及理论,而本文的主要内容就是源自于该方法的主要思想来实现的,将在第四章详细阐 述 在经济、社会科学领域,比较多的使用图模型及结构方程模型来对现实问题进行研究 s o t , e l 2 0 0 2 下一部分将一一介绍 2 2 图模型及结构方程模型 2 2 1 基本理论 饲1 ,令x 表示一段时间内所抽的烟数,y 表示一定时间后某种疾病如肺癌的发病率,x , y 可观察到,那么。要描述x 对y 有什么影响的话。可以建立下面的线性模型, = 肛+ , ( 2 2 1 ) 4 篁三塞里墨坌堑 i 圣! 里堡翌堡丝垫壅堡丝翌 y v ll l 1 一。 圈2 1 :饲l 的因果关系田 其中,霸p 分别表示变量的取值,而表示所有影响y 的其他因素那么通过上述方程由z , 的值。就可以得到口的取值但是,( 2 2 i ) 式并不能解释变量间的因果关系,例如把( 2 2 1 ) 移项 可以得到 $ = ( 一, o a ,( 2 2 2 ) 这似乎给了我们一十信息,就是,的取值也可以影响,这显然是错误的,因为根据我们的常识。 吸烟和肺癌之问只可能存在单向的因果关系 为了弥补上述的不足,w r i g h t ( 1 9 2 1 ) 提出将结构方程和图相结合,来解释变量间的因果关系 这样的图也可以称为路径图,如果有箭头从一个变量指向另一个变量,则可以认为前者对后者有 直接的因果关系。如果没有箭头,就表示没有直接因果影响下面就先来介绍关于图模型的一些 基本概念 假设有一组顶点的集合g ,两两顶点之间可以有箭头相连,我们称g 为非循环有向图。如 果顶点闻没有直接的回路,也就是说从一个顶点开始没有直接的路径可以回到该点比如说, 顶点a ,b 问的直接路径就是以a 为起点,b 为终点,形如 一噩一一氟- 口或 一噩一一噩一口的顶点的序列对于一个非循环有限图,可以给出两种不同的表达,其 一,它表示概率分布的集合,其= ,它可以表示因果关系,因此,在因果分析模型中,也称之为因 果图 饲1 可以由图2 1 和结构方程( 2 2 3 ) 表示, y x :f f i p v x + u ( 2 2 3 ) 它们描绘了x 对y 存在的直接因果影响,而y 对x 没有任何影响方程( 2 2 ,3 ) 确定了变量问的 数量关系,x ,y 称为。内生变量”声称为路径系数。它将x 对y 的影响数值化了阢y 称为。外 源变量一,表示影响内生变量的所有可观察的或不可观察的因素不可观察的外源变量也称为。干 扰项。或。误差项一在图2 1 中,以矿分别表示对一x 有影响的变量,阢y 之间没有关联。是 互相独立的 为了更好地运用图模型研究因果关系问题,s p f m e s ( 1 9 9 3 ,2 0 0 0 ) 等建立了s p i r t e s - g l y m o u r - s c h e i n e s 模型,可以表示为( g ,u p ) ,其中g 是顶点为v 的非循环有向图,v = ( 蜀,凰) , 5 玛乃是随机变量,p 是y 的联合概率分布箭头表示了因果关系,如果有从五指向而的箭 头,则表示置对玛有直接的因果效应 饲2 ,( 续例1 ) 图模型如图2 2 ( 曲所示,令矿= ( 互x ,y ) ,z = ( 蜀,。磊) 表示引起x ,y 产生的所有潜在因素,也称为潜在混杂变量,由于它表示一切可能的影响,所以的值可能非常 大该模型可由下述结构模型来表示t k x = f 啦磊+ y y = 晟五+ 体+ u z=w a ,羼7 均为参数在该模型中,当且仅当7 0 时,x 是y 产生的直接原因,也就是有从x 到y 的箭头c o v ( x ,y ) = 1 + 啦a 令,= ( 8 1 ,f ) 表示取值为0 或1 的一列效,且令 t = l s = 伽= ( 。l ,- 一,5 ) ;以 o ,1 ) , = 1 , ) , 假设存在一些混杂变量使得毛= 1 。都么甩q 表示由这些量构成的子图,岛中去掉x 到y 的箭 头,生成的图用g 表示比如说g 0 。o 仙) 表示仅含混杂量z 1 的图,如果数据由g ( 1 ,o 佃) 生成, 那么在( z l ,磊) 中,只有z 1 确实是混杂量注意到,g 中有x 到y 的箭头,此时7 0 , 而g :则对应了7 = 0 ,类似的,g ( l o , o ) 对应了口1 角0 ,且展= 0 ,b2 ,因而,z m 是x ,y 的混杂变量,当且仅当届。0 由此。我们要研究某些变量之同的关系的话,只要研 究相对应的参数问的性质就可以了 2 2 2 非参数模型爰因果效应的估计 在处理实际问题时,多数情况下无法得到结构模型的特定的函数形式,啻可如对于图2 ,2 ( b ) 。 可以建立下述非参数模型,每个函数对应了一个观察变量, , iz = 拓( 们 y = ,y 阮句 ( 2 2 4 ) ix = i x ( u ) 其中,w , t z , v 是相互独立的,其分布函数可以是任意的( 2 2 4 ) 中的每一个等式都表示了一个 因果关系,等式左边的变量是由右边的变量决定的,如果一个变量在等式右边不出现,就表示它 对左边的变量没有直接的因果关系例如对于l ,来说只要x ,c ,保持不变。那么不管z 如何变 化,y 都不受影响另外。对于结构模型来说,各个萌数之间并不相互影响,因此,我们可以利 用这个特点,来进行因果效应分析 6 wvu ll l z x y ( b ) ( a ) u wv u l弋 i z 、一y ( c ) 图2 2 :( a ) 饲2 的因果关系圈 ( b ) 非参数形式的因果关系圈, ( c ) 童量x 取特殊位d o ( x = x o ) 为了研究问题的简单,我们始终假设分布p 关于图g 是马尔可夫的 g r e e n l a n d ,p e a x l ,r o b i n s 1 9 9 9 ;哳l2 0 0 1 ,s c h e n i n 2 0 0 1 1 ,首先定义这个概念 设分布p 的密度函数为p ,如果有 n p ( m ,铅) = l - p l p b g ( 钆) ( 2 2 5 ) = l 其中当p a g ( 仉) = 时,p 似i p a g ( ) ) = p 他) ,这里p a g ( 蚴) 表示变量巧的父点的集合,即 k p a g ( 巧) ,指g 中有k 一巧与之相对的,若有k 到巧的直接路径,或k = 巧,则称巧 是m 的子点上面的公式称为p 关于g 的。马尔可夫分解,或。马尔可夫条件。如果根据因果 关系的思想来考虑,等价的。假设宠是y 中变量,且它不是墨的子点,若y 的任一子集。有 墨墨 p a c ( x , ) ,则称p 关于g 有马尔可夫性如果马尔可夫分解中每个条件概率p 扛“p a g 0 。) 都是良好定义的,则称p 关于g 有全马尔可夫支撑。令p ( 回表示所有关于g 马尔可夫螅分布, 马尔可夫假设指的是,着g 中的数据生成p 的概率结构,则p p ( g ) 直观的理解,马尔可夫 性指的就是一个有向图中。误差项都是相互独立的显然与图2 ( b ) 相对应的分布就可以写为 p ( z ,弘功= p ( z ) p ( zj z ) p ( y l 劝 如果要研究变量x 对y 的因果效应,可以假设对x 采取某项措施,记为d o ( ) ,使得可以用 常数x = g 来代替x 的表达式,而其它几个函数均不变例如对于图z 2 ( b ) 的模型,控制x ,记 7 叫 弭i z y 一 x 东南大学硕士学位论文 为d o ( z o ) ,使得x 成为常数。此时x = x o ,那么原来的结构方程模型就变为, lz = 扛 y = ,y ( $ ,砷 ( 2 2 6 ) 【x = x o 图模型相应的也变为图2 , 2 ( c ) , 此时模型的联合分布记为p ( z ,引d o ( 知) ) ,x 表示一个处理值变量,y 表示响应变量,z 表 示影响处理值的协变量,那么如果给定x 的两个不同取值卸和瑶。就可以根据下面这些式子来 评估处理效应, 平均差 e ( y d o ( z o ) ) 一e c y d o ( x o ) ) , 比 e c y i d o ( i o ) ) l e ( r l d o c x o ) ) 其中。p ( y = y l a o ( 。o ) ) = zp ( 蜀f d o ( 功) ) ,当然也可以用方差筹其他函致来度量因果效应,但 是一般我们习惯于采用均值 以上简单介绍了图模型及结构方程模型在因果分析中的应用,它们在经济社会等人文科学领 域应用非常广泛而本文针对的主要是在医学领域的因果关系问题。因此,基本采用另一种模型一 一潜在输出值模型对于图模型及结柯方程有兴趣的读者,可以参考g r e e n l a n d 等( 1 9 9 9 ) ,p e a r l ( 2 0 0 1 ) ,s c h e i n e s ( 2 0 0 1 ) 2 3 潜在输出值模型 2 3 1 基本理论 因果分析中潜在输出值模型( 即与事实相反的输出值模型) 这种方法的思想起源,可以追溯 到十八、十九世纪的哲学思想 l e w i 81 9 7 3 ,但是直到随机化试验的出现,才逐渐形成了一套比较 完整的理论 g r n l a n d2 0 0 2 最简单的情形,要估计某一种处理方式在某一时刻对输出值y 的因果效应。假设可能的处理 方法有j + 1 种,用x = ( 知,$ j ) 表示,第 个观察对象接受了其中的一种处理方式同时, 在接受处理之后可能的输出值用潜在输出值乳= ( 孙,孙,“) 向量表示,那么当对象l 接受 了处理方式即,则实际输出值k 就等于珏此时,我们只可能观察到蛳的值,y t 中的其它值 都是观察不到的,或者说是缺失的,与事实相反的 令r 表示t ,+ 1 维的处理值的指示函数,即当对象i 接受处理值为时。啊= l ,反之为 零,则对象i 接受的处理值和实际输出值可以表示为噩= x ;= 靠例如,令知表示某种疾 病的一种传统治疗手段,而表示一种新的治疗方法,i 表示接受治疗的病患,令k 表示病人i 在接受治疗后到死亡的时间假设i 在接受新治疗方案后存活时间是鼬,而接受老方法治疗后的 8 笙三兰里墨坌堑l 圣! 堂童堡堂堡丝翌 存活时间是撕那么,当病人i 接受新方法时,r l = ( o ,j ) ,得到k = ( 0 ,j ) ( 蛐,如) = 珊,此时 蛳是观察不到的,新方法与传统方法相比较,对病人的生存时间m 的因果影响为鲍一蛳,如果 张舢,则表示新的治疗方法有影响,盼一蛳可以表示影响的大小。数值为正,则影响是积极 的,数值为负。则说明新治疗方法还不如传统的方法 可见,对于每一卜观察对象来说,只有乳中的一个分量的值可以观察到,要推断总的因果效 应,我们可以通过求总体的平均因果效应来实现, n n j = e 【协一晰】= y y d n 一撇= 毋一面 ( 2 3 1 ) 茸ll = l r o b i n s ,g r e e n l a n d ,h u ( 1 9 9 9 ) 借助潜在输出值模型的概念,来研究由纵向数据进行因果推断所 需要的假设,给定到t 时刻为止的处理过程噩= ( 知,。“,魂一1 ) ,其中瓤只取值为0 或1 ,分 别表示没有接受或者接受了一种治疗方法,定义l 铲是对象在t 时刻的观察值例如,璎表 示个体i - 一直未接受治疗,最终的输出值,而瑶1 表示一直接受治疗。最终的输出值对于一个给 定的个体。进行处理过程霹,在t 时刻,我们仅仅能观察到一个输出结果瑶耐) 。而其它所有可 能的结果l 妒,( 五冒) 都不可观察,就是潜在输出值那么,霸”一,:【0 ) 可以表示,个体f 通 过前t 一1 时刻的处理之后,在时刻产生的因果效应对于一个对象,只可能观察到一个结果, 对于研究总体,就可以定义平均因果效应。如下 巩= e 【瑶”一k 【o ) 】= e 【堙】一e 蹬】( 2 3 2 ) 对上式进行估计,当不存在不可测的混杂量时,e 瞰。i 五= l i 是1 的无偏估计 d a w i d2 0 0 0 ; g r e e n l a n d2 0 0 2 】,因而, 最= 去1 m = 1 ) 一去l ( x u = o ) , 是因果效应民的的无偏估计 潜在输出值模型与结构方程模型及图模型之问是相辅相成,互相联系的,从实质上来讲,两 者得到的因果效应的表达式是一致的 2 3 2 作用及发展方向 潜在输出值模型如今被广大统计学家所应用,它的作用非常之广它为因果分析研究提供了 许多新的解决办法 如果戎们把看作是蛳是否被观察刭( 即不缺失,的指示变量,因果分析就可以看作是缺 失数据的问题,因此就把响应变量的问题扩大为可观察数据的因果分析 r u b i n1 9 7 8 1 从这个观点 出发,其中一个因果分析方法就是边缘结构模型,通过得到的处理方式的概率值的逆来对观察值 9 东南大学硕士学位论文 加权,从而控制混杂量i r o b i n 8 ,h e r n a n ,b r u m b a c k2 0 0 0 ( a ) 】另外,可以对不可测的混杂量进行敏 感度分析 r o b i n s ,g r e e n l a n d ,i t u1 9 0 0 】。对不规则问题引入新方法分析因果关系 与此同时对于许多尚未圆满解决的问题,潜在输出值模型也提出了解决方法例如,在贝叶 斯学派的某些文章中,随机性的重要性有时会受到质疑,而用潜在值模型,就可以证明随机化的 价值f r u b i 1 9 7 8 此外,潜在输出值模型方法还对因果分析中比较关键翦概念,和它们在一般 问题中的相似概念作出了区分。如事件的因果结构和关联结构 r o b i n s ,g r e e n l a n d ,h ut 9 9 9 ;直 接和非直接影响 r o b i n s ,g r e e n l a n d1 0 0 2 ;因果混杂量与相关可叠加性 g r e e n l a n d ,r o b i n s p e a r l 1 9 9 9 】;因果和相关性条件推断,等等 本文中,主要处理的是纵向数据之闯的因果关系问题一般来说运用比较多的是结构分层 模型和边缘结构模型,前者主要通过g 一算法公式来估计因果效应,而后者则用类似于广义加权 估计方程的方法。来进行估计下面一章,主要阐述的是本文要解决的问题,我们将介绍以前统 计学者的解决办法,并在此基础之上。扩大应用范围 1 0 第三章问题的提出 3 1 问题的阐述 本文毳们主要是要解决以下问题。对于患有某种疾病的一组患者,编号 , = l ,2 ,每 天对他们进行治疗或处理,将处理值记为也,假设t ,t = 0 ,1 ,2 ,茁天后,也就是第t + 1 天观 察到感兴趣的输出值为y ,令y t ,i 表示第t 天第 个患者的输出结果,例如,y 的值为1 可以表 示患病,而值为0 就表示没有病a 表示对研究对象所作的处理( 或治疗) 方法我们的目的就 是要估计a 对y 的因果效应 图3 1 ( ) 表示t = 1 时的因果关系图,令图中厶表示第t 天影响输出值的所有可测的风险因 子,而巩表示所有不可测的因素图3 1 ( b ) 与3 ,l ( a ) 的不同之处,仅在于去掉了从不可测风险因 子玩到处理变量a 的箭头,也就是说,没有不可测的因素影响处理值,此时称,给定可测混杂量 的数据,没有不可测的混杂量 g r n l a d ,p e a r l ,r o b i n s1 9 9 9 】图3 1 ( c ) 与图3 1 ( 8 ) 3 1 ( b ) 相比 较,去掉了从y 的可测风险因子及不可测风险因子到处理变量a 的箭头,也就是说,既没有不可 测因察也没有可测因素的混杂影响,此时称,处理值是不受混杂影响的【g r e e n l a n d ,p e a r l ,r o b i n s 1 9 9 9 图3 2 ( a ) 一( c ) 描绘的是t = 0 ,也就是单点处理时的情况,是3 f 1 ( 8 ) 一( c ) 的特啻j 。 然而在实际处理问题的过程中,仅仅从厶,a 及y 的观察数据中,我们无法得知是否有不可 测的因素的混杂影响。只能希望这种影响尽可能的小。给定厶,不存在不可测的混杂量影响”, 这一假设可以通过处理值的数据来检验,特别的,处理变量不受混杂影响的一个充分条件是,对 于每一时刻f ,如果给定t 之前的处理变量山, 1 , 一i ,那么t 时刻的处理值a 与可测的 协变量l o ,h ,l 无关例如在单点模型中,如果山与不相关,则称处理值不含混杂效应 g r e e n l a n d ,p e a r l ,r o b i n s1 9 9 9 ;r o b i n s1 9 s 7 3 2m s c m 问题 对于处理值取值为是非型数据的因果效应研究问题。目前解决的比较好比如说m s c m 问 题,即研究母体影响对子女疾病传播率的因果效应【z e g 口,l i a n g1 9 8 6 ,p p l 2 5 - 1 2 8 】假设观察时刻 t = 0 ,i ,2 ,r 为离散值,例如以天为计效单位得到输出值k m = i ,2 ,是m s c m 研究 中儿童的编号a i 为每一天的处理值,其中, = r 如= r 在第t 天患病 在第t 天不患病 t 的母亲在第t 天患病 i 的母亲在第t 天不患病 壅宣查堂垒主主堡垒茎 l 。 u ( b ) y ( a ) y 圉3 1 :处理位依时间而变化时的匠集圈 u ( b ) y ( a ) y ( c ) 图3 2 :点处理a o 的因果田 ( c ) y 星三兰旦壑墼堡当 l ! ;量g = 差鎏竺垄 令置表示与时间独立的基础协变量的向量,如家庭大小,儿童人种,父母职业等等;k 表示其 它一切与时间相关的协变量 当因果分析观点尚未广泛使用的时候,z e g e r ,l i a n g ( 1 9 8 6 ) 用广义估计方程模型对问题做出了 一些研究,他们假设,在给定全体处理值五,及基础协变量的情况下。k 的期望值只依帻于f 天 以前的处理值五一1 及漭变量,即。 e 陬i 幻,x 】= e 瞰i 五一1 ,x 】, 此时建立估计方程。 鲫朋= 砉( 嚣) t 州刊= o , 慨, 其中脚,i = f ( k l 也 ) = e ( k ,1 i 弱,1 ,局j 1 ) 是以卢为参数的联系函数由( 3 1 1 ) 可以得到卢的 估计值 然而,r o b i n s ( 1 9 9 9 ) 等指出,只有当t 天前的疾病的历史值不是混杂量时,广义估计方程对问 题进行估计和推断才能比较有效 r o b i n s ,g r e e n l a n d ,h u1 9 9 9 ,性质4 6 1 直观的看,前几天如果 生病。则之后几天生病的可能性显然比较大,即,k i 对k 是有影响的而r o b i n s 等证明 了患病的历史值确实是m s c m 问题中的混杂量口b b 瑚,g r e e n l a n d ,h u1 9 9 9 ,分析2 1 。因而仅从数 据出发,广义估计方程的方法无法作出有效的因果推断甚至,用传统的广义估计方程的方法, 有时还会得到完全错误的结果 基于以上原因,就必须用专门的因果分析方法来解决这一类的问题。r o b | 脚( 1 9 9 9 ) 等提出运 用潜在输出值模型来解决m s c m 问题通过g 一算法公式来估计因果效应 3 3g 一算法公式 首先,假设混杂置不根据时间而变化随机变量w = ( a ,l ,y ) ,a 4 表示处理值,l c 表 示可测的混杂量,yey 为响应变量, a = d
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中国西式厨师刀行业市场前景预测及投资价值评估分析报告
- 中国轮胎回收行业市场前景预测及投资价值评估分析报告
- 中国轻饮料和冰行业市场前景预测及投资价值评估分析报告
- 小学人教版2 观察物体(二)教案设计
- 中国逆变应急电源行业市场占有率及投资前景预测分析报告
- 中国造船业真空系统行业市场前景预测及投资价值评估分析报告
- 中国重油井口系统行业市场占有率及投资前景预测分析报告
- 中国金属氧化物CMP抛光液行业市场占有率及投资前景预测分析报告
- 中国钢管外壁抛丸机行业市场前景预测及投资价值评估分析报告
- 2025校招:中学教师真题及答案
- GJB573B-2020 引信及引信零部件环境与性能试验方法
- 2025年上海市新合同范本:劳动合同书模板
- 2025团校培训结业考试题库(含答案)
- 华为质量管理体系课件
- 企业标准操作流程SOP模板合集
- 薪酬绩效主管述职汇报
- 危化品拆除工程施工方案
- 2025年《中国公民健康素养66条》知识考试题库(附答案)
- (高清版)DB42∕T 1955-2023 《电动自行车停放充(换)电场所消防安全管理规范》
- 国家能源集团新疆能源有限责任公司招聘笔试题库2025
- AP-1信号分子功能-洞察及研究
评论
0/150
提交评论