




已阅读5页,还剩46页未读, 继续免费阅读
(概率论与数理统计专业论文)二阶段整群抽样病例对照数据的分析.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 本文主要讨论在复杂抽样方案下病例对照数据的统计分析,利用l o g i s t i c 回归模型得到人群息肺癌的重要危险因素及其相对危险度的估计 首先,我们设计了一个有效的抽样方案;采取简单随机抽样从病例组抽取 样本;采取二阶段整群抽样从对照组抽取样本对照组的抽样比较复杂:在第 一阶段将对照总体划分为m 个整群,随后从中抽取m 个整群;在第二阶段按 混杂因素将选中的整群分层,而后按照与病例组成组匹配的方式进行分层抽 样 其次,我们给出反映抽样步骤的似然函数,并基于此似然函数对获取的病 例对照数据进行统计推断,得到回归系数的极大似然估计并对模型的显著性 给出检验并在最后利用数值模拟比较了本文统计推断方法与将复杂抽样样 本直接按照独立样本计算极大似然估计的优劣 关键调:病例对照研究;l o g i s t i c 回归模型;二阶段整群抽样;肺癌;相对危 险度。 北京工业大学理学硕士学位论文 a b s t r a c t t h i sp a p e rd i s c u s s e st h ea n a l y s i so fc a s e - c o n t r 0 1d a t aw h i c hc o m e sf r o mac o m - p i e xs a 尬p l i n g w ee m p l o yl o g i s t i cr e g r e s s i o nm o d e li nt h ea n a l y s i sa n dg e tt h e e s “m a t o ro ft h er e l a t i v er i s k s f i r s t l y ,w eg i v ea ne 珏色c t i v es a m p l i n gd e s i g n :as i m p kr a n d o mc a s e8 蛐p l ew i t h r 印1 a c e m e n ti sd r a w no u t0 f 出lc a s e s ;t h ec o n t r 0 1s 锄p l ei sd r a w no u to fa nc o n t r 0 1 s w i t ht w o s t a g ec l u s t e rs a m p l i n g t h e8 a n l p l i n gd e s i g no fc d n t r o l 8i sc o m p l i c a t e d :i n t h e 蛀r s ts t a g e ,a 1 1c o n t r o l sa r ed i v i d e di n t omc l u s t e r sa n das a m p l eo fs i z emi s d r a w n ;i nt h es e c o n ds t a g e ,e a c hs e l e c t e dc l u s t e ri ss t r a t 逾e db yt h ec o n f o u n d i n g f a c t o r s ,t h e nw eg i v et h e8 a m p l eo f8 i z ei e a c hs t r a t u mt om a k es u r eaf r e q u e n c e m a t c h i n go fc a s et oc o n t r 0 1 s e c o n d l y 】、eg i v et h el i k e l i h o o df i m c t i o nb a s e do nt h ep r o p o s e ds a m p l i n gd e * s i g na n das t a t i s t i c a li n f e r e n c em e t h o do ft h eo b t a i n e dc a s e - c o n t r 0 1d a t a t h em l e o fr e g r e s s i o hp a r a m e t e ra n dat e 8 to ft h em o d e l ss i g n m c a n c ea r eg i v e n k e y w o r d s : c a s e _ c o n t r 0 1s t u d y ;l o g i s t i cr e g r e 8 s i o nm o d e l ;t w o s t 8 9 ec l u s t e rs a m - p l i n 最l u gc a n c er ;r e l a t i v er i s k 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作 及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表和撰写过的研究成果,也不包 含为获得北京工业大学或其他教育机构的学位或证书而使用过的材 料,与我一同工作的同志对本研究所做的任何贡献均已在论文中作 了明确的说明并表示了谢意。 签名:! 蔓鹋日期:丝旦垫璺 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即: 学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可 以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手 段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名:釜鹚导师签名:丝鏖! ! 日期:地刍瑚k 日 第1 章绪论 第1 章绪论 病例对照研究( c a s e - c o n c r o ls t u d y ) 是分析流行病学中最基本、最重要的研 究类型之一,使用病例对照研究是现代流行病学方法学的一个重要进展。本文 主要研究在病例对照设计准则下,利用二阶段整群抽样方法获得对照组数据, 随后对样本建立l o g i s t i c 模型进行统计学分析,从而得到影响患病的重要危险 因素及其相对危险度的估计在阐述本文的数据获取及分析过程之前,首先介 绍一下病例对照研究、抽样调查的理论及方法、以及l o g c 回归模型等预备 知识, 1 1 病例对照研究 一基本原理 病例对照研究的基本原理是以现在确诊的患有某特定疾病的病人作为病 例,以不患有该病但具有可比性的个体作为对照,搜集既往各种可能的危险因 素的暴露史,测量并比较病例组与对照组中各因素的暴露比例,进行统计学检 验,若两组差别显著,则可认为因素与疾病之间存在着统计学上的关联。在评 估了各种偏倚对研究结果的影响之后,再借助病因推断技术,根据比数比来推 测暴露与疾病之间的联系,而达到探索和检验疾病病因假说的目的这是一种 回顾性的、由结果探索病因的研究方法,是在疾病发生之后去追溯假定的病因 因素的方法。 暴露( “p o s m e ) 是流行病学的一个术语,指研究对象曾经接触过某些因 索。或具备某些特征,或处于某种状态。这些因素、特征或状态即为暴露因素, 暴露因素也叫研究变量 一般研究病例对照数据可化为列联表的形式,而2 2 表是其最简单的形 式,如表1 1 所示: 式,如表1 1 所示: 北京工业大学理学硕士学位论文 表1 1 病例对照数据 暴露病例对照 合计 有 血6 n 1 无 cd n 0 合计m l汀a 0 暴露与疾病的关联强度用相对危险度( r e f n t 抽er i 巩r r ) 表示,记p 1 为暴 露组患病概率,p o 为非暴露组患病概率,则r r 即为p 1 p o 。在上表中,o 、6 、c 、d 仅表示相应选取的人数,所以o n l 和c n o 不能准确表示p 和p o ,故不能直 接用来计算r r 在病例对照研究中,用比数( o d d s ) 表示患病率与未患病率之 比,如暴露组比数即为t :鼍优势比( o d d 5r o 勘,o r ) 即为暴露组与非暴露 组的比数之比,即o r :塑等 掣:笺:譬如果所研究疾病的患病率较 p o 八l p ojo d d o 低( 1 ,说明暴露因素是疾病的危险因素; r r 0 lo ,2 椭= o r 跳,f l 。: 1 2 昝 ? 如 io ,2 如= o 2 2 抽样设计 根据病例对照研究的特点,需要分别从病例组和对照组抽取样本,由于两 组的总体容量不同,并且考虑到病例对照设计的原则,所以对照组的抽样方法 还需进一步设计,以满足数据分析的需要。 一病例组抽样方法 、1 一l 。 第2 章病例对照数据的获取 抽样总体为b 市某时间段内医院患肺癌的所有本地病人,通过对医院调 查可得到所有个体。对个体编号,用简单随机抽样的方法从1 个病人抽取n , 个病人,之后对抽得得病人数据按2 1 所述的研究信息进行调查,得到病例组 数据 二对照组抽样方法 由于人群中肺癌的发病率很低,而本文的病例对照研究又是以b 市整体 人群为基础的,故对照组容量很大,个体分布在b 市的各个区域故无论从实 际编制抽样框可行性还是调查费用方面,简单随机抽样都是不能接受的。而针 对大规模的抽样调查,二阶段整群抽样是一个很好的方法。 1 第一阶段抽样 一般以地域作为划分整群的依据,在本文中,以居委会镇作为划分整群 的标准则如上文定义,对照组总体可由m 个整群覆盖。故在第一阶段,对 划分的m 个整群编号,即得 a ,a m ) ,而后利用不等概抽样从中抽取m 个整群,a 的入样概率m = 尬2 ,直至抽取m 个整群结束,记抽得的整群 为:且日( 1 ) ,a 日( 2 ) ,一,a 日( m ) 2 第二阶段抽样 通常意义下,对于二阶段整群抽样,在第二阶段即可在抽得的整群内采取 随机抽样的方法。但由于考虑本文抽取的是病例对照数据,所以抽取过程还要 受到病例对照设计原则的限制一般认为年龄、性别在病例对照研究中属于混 杂因素,为消除混杂效应对分析结果的影响,采取将对照组数据按年龄、性别 分层,并在各层内将病例与对照成组匹配,即各层的病例组和对照组的人数和 样本总人数的比例相等。 ( 1 ) 分层 在每个整群内,首先需要向相关部门获取入样整群中所有居民年龄、性别 的信息;第二步,将每个整群内人群按照年龄和性别分层,如前文所述,按年 北京工业大学理学硕士学位论文 龄分为三层,按性别分为两层,即将每个整群分为六部分。 ( 2 ) 匹配 根据成组匹配的要求和分层抽样的一般原则:首先需得出病例组样本在 各层的人数与总人数的比例;第二,使得对照组在相应层抽取的人数与抽取的 总人数的比例与病例组一致;第三,各个整群抽取人数与该整群总人数成比 例;第四,各层抽取的人数与该层总人数成比例 综上所述,对照组抽样流程如图3 1 所示: 口 口团目禽 婺融麟 ! 分层 ; 备层隰蝴蜷 匕= = = : = = 仁= = = : : 曰目 图3 1 抽样流程 1 “ 1 88 i 旦q ; 口田 第2 章病例对照数据的获取 对照组抽样方法的数学描述为 在( 3 1 ) 中,n l ,n 2 呦吼t 。n 。= 警 警:挚盟堕 ( 3 1 ) n 2 ,o ( ) ,i 1 ,i 22 0 ) ,2 l ,幻 n z ,啉“t 。= n := 3 n m 为已知,当m 函如,目( i ) 给定,则: n 2 一。= ;笋丝帆血i 2 ( 3 2 ) “2 删血儿2 葑慕:。1 血“ 2 ) 即各层抽样人数可确定。 三样本数据结构 1 病例组 观测值结构为:( 1 ,l ,妒1 , ,z 1 , ,l ,。1 ,i ,4 ) ,其中: 第一个下标“l ”表示观测值为病例组; 第二个下标“i ”表示样本中第t 个个体,i _ 1 ,2 ,n 1 ; 第三个下标“1 4 ”表示变量x l 弱 2 对照组 由于对照组采取二阶段的整群抽样,而且在第二阶段采取分层随机抽样, 故形式比较复杂,其观测值形为:( 2 ,如,妒2 ,日( i ) ,z 2 ,奶,1 ,z 2 ,4 ) ,其中: 第一个下标“2 ”表示观测值为对照组; 第二个下标“口( i ) ”表示该观测值所处整群编号,p ( i ) t 1 ,m ) ,t = 1 ,m ;“奶”表示观测值编号,妒竺( 日( i ) ,i l , 2 ) ,其中i 1 = 1 ,2 ,3 ,赴= l ,2 ,j = 1 ,。,n 2 ,日( ) ,2 1 d 2 ; 第三个下标“1 4 ”表示变量x 1 一甄。 北京工业大学理学硕士学位论文 2 3 分布假定 定义:p ( 西:i ) 垒只为已知, p ( x 1 = 1 ,恐= i 2 ,弱= i 3 ,蜀= z 4l = i ) 垒只。;i i 为已知。 则: p ( 母= i ,x 1 = i 1 ,弛= i 4 ) = p ( x 1 = i l ,- - ,甄= 乱l 曲= i ) p ( 西= i ) = 只h ,“旷只 垒p ( i m ,t 4 ) 其中:江1 ,m ; 1 = l ,2 ,3 ;i 2 = 1 ,2 ;i 3 = o ,1 ,2 函= o ,l ,2 显然: p ( ,i , i 1 2i 31 4 只= l i 记:,:( i ,i 1 ,一, 4 ) ,p ( j ) 垒p ( i ,i l ,一, 4 ) i 4 ) = 只 记:生= ,角,风) 7 ,由l o g i s t i c 回归模型 所以 p ( y _ 1 l 勤= 再砑栖 i p ( y = 0 l 星) = 1 一p ( y = 1i 量) = ,一再i 再 1 5 i 百面再万豸 第2 章病例对照数据的获取 记:瞧= p ( 毋, 知:l = p ( y = 1 ) , ,y :o = p ( y = o ) , ,y :1 i z = p ( y = 1 l 量) , ,y :1 点= p ( y = l ,墨) , ,y :o ,呈= i p ( y = o ,量) ,则 a :l ,量 ,y = o ,墨 由此 = ,y :1 恒瞧 = 再面锄p ( 舭h 一圳垒再品挈砸 = ,y :o 怪握 = 丽嘉面吣如,圳垒雨等面 ,y := ,y :昼 z 莩荨荨丢荨碉tnt 2t 31 4 一。 莓雨黥 陋+ 岛 + 卢1 n + 虎 2 + 风i 3 + 风n ) 协:t = 譬 = 而障而景厕1 + e x p ( 一陋+ 星量) 】l 午1 + e x p 一妇+ 垡删i 枷:。= 等 2 蒜阵鼎j 1 + e x p ( o + 卢7 国lz ,l + e x p ( a + 卢) l 北京工业大学理学硕士学位论文 段3 ,x 4 l y = o ,庐= i ,x l = i 1 ,x 2 = t 2 ,y = o ,庐= ;,x 1 :1 1 ,x 2 = i ? ,_ ) f 3 ,x 4 a :o ,:i ,x l :i 1 ,x 2 :t ? p ( i ,1 ,i 2 ,弱,置) :! ! 翌【f 竺鱼! 鱼! ! 些垒鱼垄鱼垄2 3 ,y :o ,:。,x l :x 2 :i 2 ,x 3 :放:如 垒焉辫b 障荨鼎 l + e x p ( + 卢= 如4 ) l 寺_ 一1 + e x p ( o + d i 垒,盥 其中坌b 4 兰( ,i l ,i 2 ,弱,x 4 ) 2 4 本章小节 本章引入研究的问题,即应用病例对照研究方法分析患肺癌与吸烟的关 系,并对研究问题的背景作出说明为了获取研究的病例对照数据,首先做了 一系列准备工作:对数据来源、研究信息、调查准则等方面作出了说明;其次, 为对照组设计了合理的抽样方法;最后,对样本的数据结构及协变量的分布形 式给出定义。为第3 章建立样本的似然函数并进行统计推断做了必要的铺垫。 第3 章统计推断 3 1 引言 第3 章统计推断 本文通过二阶段整群抽样方法获得了病例对照数据,希望利用l o g i s t i c 模 型研究各危险因素对个体患病的影响分析思路即为根据样本得到似然函数 的形式,随后便可根据似然方程解得l o g i s t i c 回归模型中回归系数的极大似然 估计,计算其协方差阵并对回归系数的显著性进行假设检验。 1 在l 。g i s t i c 回归模型p ( y = 1i 墨) 2r 忑而f 茜干。面中,求解n 坦的 估计一般利用极大似然方法若样本相互独立,则似然函数; 其中:轨。1 ( 患病) 或o ( 未患病) ,b 2 r 晶昴f 茜硼 在本文中,病例组样本是由病例总体通过简单随机抽样得到,对照组样本 是由对照总体经二阶段整群抽样得到因此,不能简单地直接认为获取的病例 对照样本问是相互独立的。似然函数即为样本的联合分布,故其形式会非常复 杂。 根据初等概率论及抽样调查的相关知识:若抽样比小于百分之五,则随机 无放回抽样可视为有放回的抽样,样本可视为相互独立。根据研究问题的实际 情况,为了简化似然函数的形式,可做如下假定: 假定1 :在病例组抽取样本及在对照组第二阶段分层抽样时,由于抽样总 量很大而抽样比较小,因此简单随机抽样可视为有放回随机抽样,样本可视为 相互独立。 3 2 似然函数 由似然函数的定义,似然函数即为样本的联合密度。在本文中,由于病例 辨 一 r l 擎 。n 黼 | l l 北京工业大学理学硕士学位论文 组样本和对照组样本是分别抽样的,故 l = p p = 1 ( 鱼1 ,1 = 兰1 ,1 ,一,星1 ,。l = 星1 m ) 垒埕l y :1 ( 兰l ,1 ,1 ,。,) 瞧i y ;o ( 互2 ,1 , 兰喧i r :1 喧j y = o 垒工1 工2 p y = o ( 量2 ,1 = 兰2 ,1 ,邑m = 龟m ) ,兰2 ,。2 ) 其中:屹 y :- 表示取y = 1 样本的协变量星的联合分布形式 如确定五1 ,l 2 形式,则二可得 下面给出l - ,工2 的具体形式及证明 定理1 :在第2 章所述病例组抽样方法下: ”垂 而煞莩焘嚣厕) , 证明:根据3 1 中假定1 ,有: 上l = k i y :l 2 ,星 y = 1 恒1 ,1 ,一,墨l ,n 1 j = 岛m 严- 2 娶蒜嵩 = 垂 而黥莩丽嚣硐) 定理得证。口 由于对照组抽样方法复杂,首先给出如下引理; 引理:若总体为 a h ,a ) ,以简单随机抽样的方式抽取n 个个体( n ) 第3 章统计推断 _ v 若每个个体被抽中概率为只( 只= 1 ) ,记 仁= 1 巩= o 慧 显然民= n 记随机变量甄= o 或1 ,i = 1 ,则 i = 1 p ( 虬= 6 1 ,踟= 如) 证明:该分布即为多项分布定义,参见文献【1 6 口 定理2 :在第二章所述对照组抽样方法下 l 2 = 珊 。) h ( 蚰一吼h ( 蚰庙产汛m : 注1 n = li 2 = l 喜中:,鱼= x 3 ,拍) y = o ,咖= 目( 。) ,x 1 = t l ,x 2 = i 2 证明:因为 三2= l z l y = 0 = l ( ,笸) 【y = 0 2 y = o k 怍吣给定 根据第1 阶段整群抽样的定义,妒服从多项分布,由引理可知 m ( 死) 盈 k 阼。加t 严 z = l 7 r 日( :) 嵫l 瑚,:日( t = 1 ( 3 2 ) 露 澍 f ) 3 耳 薯 儿0 茁 啮 2 z 尴 触 北京工业大学理学硕士学位论文 = 丌口( ) l ( x i ,x 2 ,x 3 ,x d ) i 瑚,删t ) 2 缈( ) i 性咐训雌:剐。) | y = 0 扣叩脯定 根据分层抽样的定义,显然x l 取各离散值的概率服从多项分布,故 【一( x 2 ,x 3 ,x 4 ) l y = o:帆x l :i l 产吼1 1 h ( 岫产吐t , k :l y :。,:x 。:。p 帕 l 。虬,x 圳y :。,。:。氓x 。:;,x :给定 如。 l 由于的分布形式与x l 类似,故: r 2 、如( ,) ,t 1 “。m m 也 l ( 舶洲怍叫州m = u m :屯 咄吼u l i 2 = lj m32 = 珊( ;) h ( 蚰产咄4 - ”口( 帆却p 咄讥 t = 1 z l = li 2 = 1 l ( x 3 ,x 4 ) l y = o ,= 日( i ) ,x l = i l ,x 2 = f 2 却饥m 2 由3 1 中假定1 可知:当y = o ,= 8 ( i ) ,x 1 = i 1 ,恐= i 2 时,样本可视为 相互独立,则: l ( x 。,地,彳4 ) i y = o 母= 日( 1 ) ,x l = l l ,x 2 = 址) 如( “m 2 n 2 ,p ( i ) ,1 , 2 = ,( 抽,x 4 ) y = o ,砂= 目( t ) ,x 1 = 局= 1 2 ( 茁2 ,嘶,3 ,9 2 ,略,4 ) j = 1 2 。l 。 珊 m 嘲 = 2 l 。嘲 珊 m 曲 | | 如 丌 。喊 订 m 汹 j | l 此 现 币 抛 血一 州芦 n i i 第3 章统计推断 则工2 如命题形式,定理得证。口 由定理1 、定理2 ,三= 工1 工2 ,可知 l n l = l n 三1 + 1 n 五2 其中 则 一l n l n 1 + 一p 一( a + g 星z ,) 】 + l np ( 兰- ,t ) 莩而篇厕 ) + l n 嘲+ 。1 n t = 1 、“= 1 h 叫岫血+ 钆警t n 她彬。别) ) h 血+ 1 垃( ,州) ) i ,= l 莩h 瑙虹3 砌州 2 莩 岫 1 + e x p ( 蚪g 烈) + 1 n 姚蜊) 地 妻塞毒 ) 堑,如,3 4 垒( 日( i ) ,i l , 2 ,。2 痨,3 ,。2 ,奶,4 ) 一l n i t = li 尸( j ) 1 + e x p 一( d + 西( t ) m ,z2 - 1 n 丌。( 1 ) ,i 1 ,2 一 r,、l m 曲 = 。试 + z pn m 澍 + 、, z 一 + 一 p xe + 1 r i 工m 汹 h 一 。锄。小。 西。 如 。 m 嘲 + 北京工业大学理学硕士学位论文 m32 z = 1i 1 = 1t 2 = l m32 i = 1t 1 = l1 2 = 1 3 3 分类变量的处理 l n 1 + e x p ( a 十g 互2 如。t ) , 22 n ji 3 = o 0 4 = 0 尸( )1 再i 高;而 ( 3 4 ) 在l o g i s t i c 回归模型中,如果自变量为多分类( 离散) 变量,此时多分类自 变量与因变量之间通常不存在线性关系,需用哑变量的形式来分析。如果该自 变量具有k 个水平( 取值) ,则在l o g i s t i c 模型的实际计算中,用一1 个哑变 量代替例如: x l 具有3 个水平( x 1 = 1 ,2 ,3 ) ,我们定义两个哑变量d 1 1 1d 1 2 表示x 1 的取值,定义曼1 = ( d 】1 ,d 1 2 ) 7 : ( d 1 ,1 = o ,d l ,2 = o ) ( d 1 ,l = 1 ,d l ,2 = o ) ( d i ,1 = o ,d 1 ,2 = 1 ) x 1 类似,x 3 ,凰,西 1 = o ,d 3 1 = 1 ,d 3 1 = o ,d 3 表示x l = 1 表示x 1 = 2 表示x 1 = 3 均可化为哑变量的形式,如下所示 义b = ( d 3 1 ,功2 ) 。 表示x 3 = 0 表示x 3 = 1 表示弱= 2 弘 蚍 鲍 坤 ,。嘲 m 曲 + o 0 1 d d d ,【1_r,。【定 第3 章统计推断 则 忙 = o ,d 4 2 = o ) ,表示蜀= o = 1 ,d 4 2 = o ) ,表示x 4 = l = o ,d 4 2 = 1 ) ,表示置= 2 定义旦4 = ( d 4 。l ,d 4 ,2 ) 。 i( d o l = o ,i = 1 ,m 一1 ) ,表示= o i ( d o p = 1 ,d o ,j = o ,j “1 ,m ) 一( e ) ) ) ,表示西= ,i = l ,m 一1 定义旦o = ( d 。,l ,一,d o ,m ) 由于恐为二值变量,故其不必化为哑变量的形式。 记旦= ( d o ,1 ,一,d 。,m 一1 ,d l ,1 ,d l ,2 ,j 幻,d 3 ,1 ,d 3 ,2 ,d 4 ,l ,d 4 ,2 ) 7 兰( d 1 ,- - ,d m + 6 ) 1 = ( 卢0 ,l ,风,m l ,岛,1 ,卢l ,2 ,屈,岛,l ,风,2 ,良,1 ,良,2 ) 7 兰( 1 ,q m + 6 ) , a + 卢量 = q + 8 q 毒十p l x l + 8 2 x 2 $ 3 x 3 + 8 4 x 4 m l 222 = o + 胁d 0 ,j + 风,j d l j + 危恐+ 风,j d 3 j + 屈,d 4 j j = 1j = 1j = l j = 1 = a + q 旦 l o 舀s t i c 模型化为 p ( y = l l 墨) l 2 再面f 耳昭蓟 = p ( y = l l 旦) 1 = - - - _ - - - - - - - _ _ 。_ - - - - _ - - _ _ 。- - - - - - - - - - - - 一 1 十e x p 卜一( 。+ q 勃 显然每个给定的咖,x l ,弱:凰均存在唯一的旦o ,旦l ,凸,旦4 相对应,所以 可做如下规定: 北京工业大学理学硕士学位论文 墨l ,th 直1 ,l ,互2 ,奶,3 4 当,奶,3 4 ,jh 而,所以( 3 4 ) 形式可化为 = 一1 n 1 + e x p 一( a + 彳查1 p ) ) + 1 n p ( 照1 ,。) 一娄k 莩再五辜 + 萎t n 嘲。 + 哳) ,i l l n ”慨e 。+ “( 帆,1 2 l n 珊( 蚰如 + l n p ( 当吡弭) 一1 n i l + e x p 陋+ 旦,当如。t ) l 一子f bf ! 暨1 1 一善蚤莩h 丕善再粉f _ l4 l = 1 n = 1j如= 0 “= 0 一。”。1 “7 ( 3 5 ) 注:在( 3 5 ) 中的下标仍为f ,i 1 ,f 2 ,j ,在实际的计算中,每个给定的 i ,i t ,i 。,均存在相应的旦,场的形式,也存在相应的计算法则,此处只是为了 表示方便,特此说明 3 4 参数估计 定理3 :在第二章所述抽样方法下,样本的极大似然方程组如( 3 6 ) 、( 3 7 ) 所示: 丝 : ! 型二! 竺型亟塑 a o 一 刍1 + e x p 卜。( a + 型堡1 1 i ) 一姜 莩导笔翥端莩再i 辜等砸两) 一薹妾妻莩若怒 = 0 第3 章统计推断 ( 3 6 ) 篱= 耋( 舞器噶,i ) 一姜 ( 莩导笔翥笔墨器如) 莩再i 辜) 一薹妾妾莩 若警未辛赫亟批m = o + 仁l i l = 1 赴= 1 ! 塑:! 翌坚垄垄! i 岛t 各 1 + e x p ( a + 型王d ) 2 00p ( ) i 暑再孟昔两 证明:关于对数似然函数( 3 5 ) 分别对a ,翌求偏导,即得结果。口 ( 3 7 ) 求解似然方程组( 3 6 ) 、( 3 7 ) ,可求得:a ,”的极大似然估计a ,日,但由于方 程组为o ,q 的非线性方程组,故在实际计算中,要利用n e w t o n r a p h s o n 迭代 法求解。 定理4 :记( 口,1 ,) ,= ( 加,7 l ,7 m + 6 ) ,垒7 , 中0si 兰m + 6 ,则: 令一( 鬻) 。州其 、元_ 而( 皇一! ) 毛( o 一1 ( ! ) ) ,i,i_,、-_ e , 。殛。墨 m 显 北京工业大学理学硕士学位论文 其中: j ( ! ) = e ( 一a ) c o v ( ! ) = r 1 ( ! ) 证明;根据l o g i s t i c 回归模型的性质易证,参见文献 1 4 】口 ( 3 8 ) ( 3 9 ) 3 5 模型的检验 和线性回归模型一样,在l o g i s t i c 回归模型中,也需要检验所有自变量及 模型中截距对患病的综合影响是否显著这时需要说明的问题是,由于在实际 计算中将分类变量转化为哑变量的形式,因此需要检验所有哑变量对患病的 影响是否显著,且只有当某个自变量的所有哑变量对患病影响均不显著时,才 可认为该自变量对患病的影响不显著这等价于检验假设 日0 :o = 岛,1 = - = 岛,m l = 卢l ,1 = 卢1 ,2 = 疡= 角,l = 风,2 = 风,1 = 厥,2 = 0 是否为真。若拒绝原假设,需进一步检验各自变量的影响是否显著,即对 o i s m + 6 ,分别检验假设凰t :m = o 是否为真 在更一般的情况下讨论上述第一个假设检验问题本文研究问题共m + 6 个自变量d 1 ,一,d 十6 以及截距,不妨记为d o 将上述变量分为两组,不妨 设为d o ,d 1 ,d r 和d r + 1 ,d m + 6 ( o r m + 6 ) 。要检验d o ,d 1 ,d r 对患病的影响是否显著,即检验假设: 日o :仙= = 竹= o ,日1 :加,竹不全为o 可采用似然比检验,具体 步骤如下: ( 1 ) 先对所有自变量拟和l o g i s t i c 模型,利用n e w t o _ r a p l l s o n 迭代法求出 7 的极大似然估计,代入对数似然函数,记为如,即: l p = f 礼l ( i ,旦1 1 ,- _ ,d 1 、。,焦2 1 ,。:d 2 。:) 。 第3 章统计推断 ( 2 ) 假设凰为真,拟和仅含自变量d 件1 ,d m + 6 的l o g i s t i c 模型,利用 利用n e w t o n r a p h s o n 迭代法求出7 日。= ( 计+ l ,7 m + 6 ) 的极大似然估计矾, 并求相应的对数似然函数值: ,、 l 凰= f n 三( :! 生,查l ,l ,一,宣1 ,。,d 2 ,1 ,。一,亘2 ,n :) 。 ( 3 ) 构造统计量;k 2 = 2 ( 如一二矾) ,由最大似然估计理论可以证明,当 ( n 1 + n 2 ) | o 。时,k 2 渐近服从自由度为r 的) ( 2 分布,即k 2 皂x 2 ( r ) ,且大的 k 2 意味着拒绝日0 。因此,给定显著水平a ,若k 2 ) ( :( r ) ,则拒绝凰;否则 接受凰,即认为d o ,d ,对患病的影响不显著 特别当r = m + 6 时,即可检验模型中截距和所有自变量对患病的综合影 响是否显著 3 6 本章小节 本章对研究问题进行统计推断,得到放映第2 章抽样步骤的病例对照样 本的似然函数首先,根据相关资料及对研究问题的分析,给出假定l ,将模 型进行了合理的简化;其次,由定理l 、定理2 ,得到对数似然方程组的具体 形式;此外,由定理3 、定理4 得到l o g i s t i c 模型回归系数的极大似然估计和 协方差估计;最后给出模型假设检验的步骤及方法。 北京工业大学理学硕士学位论文 第4 章数值模拟 本文第3 章给出在二阶段整群抽样下病例对照数据统计推断的理论形式, 但抽样设计的效果、本文参数估计的方法与直接按照样本独立情形计算极大 似然估计的优劣不能得以体现因此,在本章进行数值模拟,产生总体指标, 按照抽样方案得到样本对样本利用( 3 6 ) ( 3 7 ) 得到参数的极大似然估计,而 后对样本按独立情形直接拟合l o g i s t i c 回归模型得到参数的极大似然估计,比 较两种方法得到参数估计的效果 4 1 模拟步骤 1 给定初始值,产生人群分布,得到总体 = 1 0 6 ,给定b 的总人口; u m = 5 0 3 2 3 3 = 2 7 0 0 ,表示个体协变量共有2 7 0 0 种观测; p = o o l ,给定人群患肺癌的概率; ,1 = o 0 5 ,给出病例组的抽样比; 岛:= n ,n 为( 一o 1 ,0 1 ) 随机数,i = 1 ,4 9 ; ( 胁,1 ,卢1 ,2 ) = ( o 1 ,0 1 5 ) ; 伤= 0 1 ; ( 风,1 角,2 ) = ( 0 2 ,0 4 ) ; ( 凰,1 ,风,2 ) = ( 0 2 5 ,0 4 5 ) ; 产生r h - ,只2 7 0 0 ,其中见为( o ,1 ) 随机数; 2 7 0 0 s = r ; e = l 兄 n 2 了5 p ( i ,i 1 ,i 2 ,i 3 ,i 4 ) = r ( “十3 , 3 + 6 + 2 + 1 8 + 2 1 + 5 4 + t 一8 4 ) ,其中i = 1 ,一,5 0 ; 1 = 1 ,2 ,3 ;i 2 12 :z 3 = l 、23 :i 4 = 1 、2 ,35 第4 章数值模拟 由,y :1 = p 确定a ; 岛= n ,其中j = 1 ,2 7 0 0 ; 用d 疵。f _ v 6 ) 存储城市b 中所有个体的观察值: 对j = 1 ,_ 产生( o ,1 ) 上随机数r 1 ,r 2 ; 如果r 1 茎o o l ,d 口缸( j ,1 ) = l ,表示该个体为病例; 否则,d o 抛0 ,1 ) = o ,表示该个体为对照; 女日果r 2e & “+ 3 屯+ 6 十f 2 + 1 8 i 1 + 5 4 2 8 4 ) 一1 ,瓯n + 3 + 如+ 6 t 2 + 1 8 “l + 5 4 “一8 4 ) 则:d o 把o ,2 ) = i ,d n t o ( 丘3 ) = i 1 ,d o t n ( 4 ) = i 2 , d o 缸( j ,5 ) = i 3 ,d o t 口( j ,6 ) = i 4 用c k s 8 ( l 。6 ) 存储病例组所有个体观察值; 用c o n 打d f ( 地。6 ) 存储对照组所有个体观察值 2 得到病例对照样本观察值 用简单随机抽样从g n 5 8 ( l 。6 ) 抽取n 1 个行,用c 口s e 8 ( 。6 ) 存储; 用不等概抽样从a h 一,a 5 0 中抽取2 0 个整群,第i 整群的入样概率与尬 成正比; 对i = l ,5 0 如果a 被抽中: 将a 中所有个体观察值按照年龄和性别分为3 2 = 6 层, 在每层中用简单随机抽样抽取n 2 。:个个体, 将抽取的个体观察值用c o n 打o f 。, 。,( 札。6 ) 存储。 3 将得到的样本观察值代人本文似然方程组,计算极大似然估计 4 2 模拟结果 在病例对照总体不变的前提下,分别进行1 0 次、3 0 及5 0 次抽样,比较两 北京工业大学理学硕士学位论文 种方法计算参数估计的均值,如表4 1 、4 2 、4 3 所示 参数真值均值 本文方法按独立样本计算 。一5 2 2 1一1 3 2 663 7 2 角1 0 1 卢1 1 1 3 7 93 3 1 8 芦1 2 o 1 5 角。2 0 2 4 3o1 9 3 - 觑 o 1 岛一0 0 8 9 02 8 9 尻1 o 2 岛1 0 1 1 90 2 1 l 岛工 o 4 岛2 o 2 2 61 3 1 2 风1 o 2 5 尻1 o 1 4 l0 3 5 6 角2 0 4 5 反2 0 2 6 3 0 7 2 8 参数真值 均值 本文方法按独立样本计算 n一5 2 2 13 9 5 4 1 1 3 6 卢1 1 o 1 卢1 1 一o 1 1 5 0 5 3 7 岛2 o 1 5 岛2 o 1 8 7一o 2 9 1 岛 0 1 岛 0 ,1 1 l0 3 6 3 岛,1 0 2 胁1 0 1 0 6 0 盘3 8 岛2 0 4 岛2 o 4 1 306 8 2 风1 0 2 5 风1 0 2 1 7 o2 9 2 卢4 、2 04 5 风2 o3 1 811 0 4 第4 章数值模拟 参数 真值均值本文方法按独立样本计算 一 q一5 2 2 1q一4 3 9 4 0 1 9 3 岛1 0 1 风1 o 0 8 3 0 4 7 9 p 1 2 0 。1 5 风、2 0 ,1 9 40 2 3 l - 如 o 1 岛 o 1 3 8o 1 9 8 风,1 o 2 风1 0 2 3 6o 3 3 7 风,2 0 4 岛2 o ,3 8 5 o 5 1 3 屈1 0 2 5 风1 0 2 7 50 1 7 4 风2 0 4 5 角2 0 4 6 80 6 2 7 北京工业大学理学硕士学位论文 结论与讨论 本文主要讨论丁在复杂抽样方案下病例对照数据的统计分析,利用l 0 9 1 s - t i c 回归模型得到人群患肺癌的重要危险因素及其相对危险度的估计。首先,我 们设计了一个有效的抽样方案,可以得到合理的病例对照样本;其次,我们给 出反映抽样步骤的似然函数,并基于此似然函数对病例对照数据进行统计推 断,得到回归系数的极大似然估计并对模型的显著性给出检验;最后,利用数 值模拟比较了本文统计推断方法与将复杂抽样样本按相互独立计算m e 的 结果 一本文结果 1 ,定理3 : 在第二章所述抽样方法下,样本的极大似然方程组如( 3 6 ) 、( 3 7 ) 所示; a l 吕e x p 【一( 口+ 型i l ,。) 】 臼。毛鼻1 + 鼢p 【一( d + 型星1 ) 一姜悻器糟莩 导re x p 陋+ 型出m # 4 ) 善薹蚤莩番邕蠢寻赫;= l # lt = 1 一h a l a 一 扫二 a p ( j ) 丢! 堕! 翌坚堑垄! 。岛岛【l + e x p ( d + ! 。而) 2 三三p ( j ) ;至。暑耳孟静虿面 砉( 捌端 耋( 裂糍 虬:) 虬。) ( 3 6 ) 、l_1),_il,(1i ,。 m h _ | 0 l l 结论与讨论 = 0 一薹( ( 莩暑笔翥端如) 莩再i 辜) 一耋砉娄莩 若芝篙恤帅n ( 3 7 ) 2 假设检验 在得到l 0 9 i s t i c 回归模型中参数的极大似然估计后,由定理4 给出回归参 数7 的渐近分布,并在3 5 对模型的显著性给出假设检验。 3 数值模拟 通过数值模拟的结果,可得到以下结论: ( 1 ) 本文的抽样方案可以得到较符合实际的估计 ( 2 ) 本文提出的统计推断方法正确 ( 3 ) 本文统计推断方法优于直接将样本视为独立情况进行计算 ( 4 ) 随抽样次数的增多,本文参数估计的均值与参数真值的差距减小 二有待进一步研究的问题 1 本文参数估计与真值偏差关于抽样次数收敛的理论推导 2 ,在数值模拟中进一步增加抽样次数验证( 4 ) 髫 , :嘲。 m 曲 北京工业大学理学硕士学位论文 参考文献 1 】b e a t y ,th ,l i a n g ,k y ,a n dc o h e n ,bh ( 1 9 8 7 ) r d b u s ti n 南r e n c ef o r 、砒i a n c e c o m p e n e n t sm o d e l si nf a m i l i e sa s c e r t a i n e dt h r o u g hp r o b a n d s :a n a l y s e so fs p i r o m e t r i c r n e a s u r e s g e n e t i c 功i d e 竹i o z 凹掣4 ,2 1 1 2 2 1 2 b e n i c h o u ,j a n dw a c h o l d e r ,s ( 1 9 9 4 ) ac o m p a r i s o no ft h r e ea p p r o a c l l e st oe 8 t i m a t e e x p o s u r e - s p e c i 丑ci n c i d e n c er a t e s 壬r o mp o p u l a t i o n 七a s e dc a s e - c o n t r 0 1d a t a o t i s t i c 5 衲 且拈d l c n e1 3 6 5 1 6 6 1 3 】b r e s l o w ,ne ( 1 9 7 6 ) r e g r e s s i o na n a l y
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 石家庄市二手房买卖价格评估及调整合同
- 物业股权抵押债权投资与物业维修基金管理协议
- 智能家居产业股权转移与产业链合作框架协议
- 堤防结构设计与优化方案
- 潮汐能发电技术商业化瓶颈解析与2025年产业竞争力提升路径研究报告
- 财富管理行业深度调研报告:2025年客户需求与服务升级趋势解读
- 装饰造型试题题库及答案
- 2025年初级电焊工理论考试题及答案
- 2024年七年级历史上册 第18课《东晋南朝时期江南地区的开发》说课稿 新人教版
- 《三位数乘两位数-数量关系》(教学设计)-2023-2024学年四年级下册数学冀教版
- 《如何设计调查问卷》课件
- 2024-2030年中国特征尺寸测量用扫描电子显微镜(CDSEM)行业发展策略与前景规划分析报告
- 投标货物包装、运输方案
- 2024年广西公需科目参考答案
- 港航实务 皮丹丹 教材精讲班课件 60-第2章-2.8.1-航道整治的方法
- 少儿美术课件国家宝藏系列《玉壶》
- 2024-2030年全球及中国交通工程软件行业市场现状供需分析及市场深度研究发展前景及规划可行性分析研究报告
- 肾性贫血的诊治进展课件
- 八年级上册《生命 生态 安全》计划
- 《济南的冬天》课后习题参考答案
- 2024年全国企业员工全面质量管理知识竞赛考试原题库资料(含答案)
评论
0/150
提交评论