




已阅读5页,还剩41页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
硕士学位论文 m a s t e r st h e s i s t h em u l t i - c a t e g o r yp a r a l l e lm o d e l d e s i g n ,a n a l y s i sa n d a p p l i c a t i o n s at h e s i s s u b m i t t e di np a r t i a lf u l f i l l m e n to ft h er e q u i r e m e n t s 0 rt h em s d e g r e ei nm a t h e m a t i c s b y l i uy i n p o s t g r a d u t epr o g r a m s c h o o lo fm a t h e m a t i c sa n ds t a t i s t i c s c e n t r a lc h i n an o r m a lu n i v e r s i t y s u p e r v i s o r :q i nh o n g a c a d e m i ct i t l e :pr o l e s s o r m a y , 2 0 1 1 究工作 个人或 均已在 作者签名: 办l 序、 日期:矽年f 月乡日 学位论文版权使用授权书 学位论文作者完全了解华中师范大学有关保留、使用学位论文的规定,即:研 究生在校攻读学位期间论文工作的知识产权单位属华中师范大学学校有权保留 并向国家有关部门或机构送交论文的复印件和电子版,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复 制手段保存、汇编学位论文( 保密的学位论文在解密后遵守此规定) 保密论文注 释:本学位论文属于保密,在年解密后适用本授权书非保密论文注释:本学 位论文不属于保密范围,适用本授权书 作者签名:玉1 噶、 日期:劲- 年,月,弓日 日 本人已经认真阅读“c a l i s 高校学位论文全文数据库发布章程”,同意将本人 的学位论文提交“c a l l 中的规定享受相关权益 作者签名:办i 睁、 日期:伽1 年, 程” 日 、 硕士擘住论文 m a s t e r st h e s i s 摘要 在过去的几年中,一些非随机化的技术被引入带有敏感问题的抽样调查以协 助调查者获得尽可能真实的信息然而,诸如十字交叉模型、三角模型、隐藏敏感 性( h s ) 模型和多分类三角模型等已经存在的非随机化模型在实际应用中具有一些 局限性,特别是所有的这些模型都要求敏感变量y 的一个分类是非敏感的在本论 文中,我们将新提出的平行模型推广到多分类的情形在这个推广的模型中,敏感 变量的所有分类可以都为敏感的或者其中一个分量是完全非敏感的我们将对所感 兴趣的参数计算其极大似然估计( m l e ) 和相应的协方差矩阵同时,我们将进一 步考虑这些参数的置信区间( c i ) 以及它们基于贝叶斯理论的一些统计推断的结果 此外,我们将给出多分类平行模型的一种特殊情形,并推导出相应的一些数值结 果除此之外,我们还讨论在什么样的情况下多分类的平行模型要比多分类的三角 模型更有效最后,我们用宫颈癌的具体例子来说明多分类平行模型在实际问题中 的具体应用本文共分为八个部分: 第一节介绍了敏感性抽样问题产生的背景和研究意义,同时介绍了随机化抽 样方法和近几年来提出的非随机化方法的研究进展情况; 第二节主要介绍多分类平行模型的基本概念和模型: 第三节给出了多分类平行模型基于似然函数的统计推断的一些相关结论; 第四节给出了多分类平行模型基于贝叶斯理论的一些统计推断的结果; 第五节讨论了多分类平行模型的一个特殊情形,即四分类平行模型; 第六节将多分类平行模型与多分类三角模型进行比较,并讨论多分类平行模 型优于多分类三角模型的条件; 第七节用宫颈癌的例子来说明提出的多分类平行模型在实际中的应用; 第八节对多分类平行模型进行一个总结 关键词:非随机响应技术;多分类平行模型;多分类三角模型;似然比检验; 卡方检验 s e n s i t i v eo ro n eo ft h e mi st o t a l l yn o n s e n s i t i v e t h em a x i m u ml i k e l i h o o de s t i m a t o r s ( m l e s ) o fp a r a m e t e r sw h i c hw ea r ei n t e r e s t e di na n dt h ec o r r e s p o n d i n gc o v a r i a n c e m a t r i xa r ec a l c u l a t e d w ef u r t h e rc o n s i d e rt h ep a r a m e t e r s c o n f i d e n c ei n t e r v a l s ( c i ) a 8w e l la 8t h e i rb a y e s i a ni n f e r e n c e s i na d d i t i o n ,as p e c i a lc a s eo ft h em u l t i c a t e g o r y p a r a l l e lm o d e li sg i v e n ,a n dw ed e v e l o ps o m en u m e r i c a lr e s u l t s f u r t h e r m o r e ,w e a l s od e r i v et h ev e r yc o n d i t i o n sw h e nt h em u l t i - c a t e g o r yp a r a l l e lm o d e li sm o r ee f f i c i e n tt h a nt h em u l t i c a t e g o r yt r i a n g u l a rm o d e l f i n a l l y , w ee m p l o ya ne x a m p l eo f c e r v i c a lc a n c e rt oi l l u s t r a t eo u rp r o p o s e d p a r t s : m e t h o d t h i sp a p e ri sm a d eu po fe i g h t i nc h a p t e ro n e ,w ei n t r o d u c es o m eb a c k g r o u n do fs a m p l es u r v e yw i t hs e n s i t i v e q u e s t i o n s f u r t h e r m o r e ,w es h o wt h er e l e v a n tr e s e a r c hp r o g r e s so ft h er a n d o m i z e d r e s p o n s et e c h n i q u e sa n dt h en o n - r a n d o m i z e dr e s p o n s ea p p r o a c h e sw h i c hw e r ei n t r o - d u c e di nr e c e n ty e a r s ; i nc h a p t e rt w o ,w eg i v es o m eb a s i cc o n c e p t sa n dt h eb a s i cm o d e la b o u tt h e m u l t i - c a t e g o r i e sp a r a l l e lm o d e l ; i nc h a p t e rt h r e e ,w ed i s c u s st h el i k e l i h o o d - b a s e ds t a t i s t i c a li n f e r e n c e so ft h e m u l t i - c a t e g o r yp a r a l l e lm o d e l ; i nc h a p t e rf o u r ,w eg i v et h eb a y e s - b a s e ds t a t i s t i c a li n f e r e n c e so ft h em u l t i c a t e g o r yp a r a l l e lm o d e l ; i nc h a p t e rf i v e ,w ed i s c u s st h ef o u r c a t e g o r yp a r a l l e lm o d e l ,w h i c hi sa s p e c i a l i i 硕士擘位论文 m a s t e r st h e s i s c a s eo ft h em u l t i c a t e g o r yp a r a l l e lm o d e l ; i nc h a p t e rs i x ,w ec o m p a r et h em u l t i c a t e g o r yp a r a l l e lm o d e lw i t ht h em u l t i c a t e g o r yt r i a n g u l a rm o d e l ,a n dg i v et h ec o n d i t i o nw h e nt h ef o r m e rm o d e li sm o r e e f f i c i e n tt h a nt h el a t e rm o d e l ; i nc h a p t e rs e v e n ,w ee m p l o yt h ee x a m p l eo fc e r v i c a lc a n c e rt oi l l u s t r a t et h e m u l t i c a t e g o r yp a r a l l e lm o d e l ; i nc h a p t e re i g h t 。w em a k eac o n c l u s i o nf o rt h em u l t i c a t e g o r yp a r a l l e lm o d e l k e yw o r d s :n o n - r a n d o m i z e dr e s p o n s et e c h n i q u e ;m u l t i - c a t e g o r yp a r a l l e lm o d e l ; m u l t i c a t e g o r yt r i a n g u l a rm o d e l ;l i k e l i h o o dr a t i ot e s t ;c h i - s q u a r e dt e s t i i i 摘要i a b s t r a c t i i 第一节引言 1 第二节多分类平行模型及其相关的调查设计 4 第三节多分类平行模型基于似然函数的统计推断 6 3 1 参数的极大似然估计。6 3 2 修正的极大似然估计 7 3 3 参数的置信区间9 3 3 1 大样本下的渐近置信区间9 3 3 2 b o o t s t r a p 置信区间1 1 第四节多分类平行模型的贝叶斯推断1 3 4 1 精确形式的后验矩:1 3 4 2 基于e m 算法的后验模式1 5 4 3 基于d a 算法产生后验样本1 6 第五节多分类平行模型的一种特殊情形1 7 5 1 四分类平行模型1 7 5 2 相关性检验1 8 5 2 1 似然比检验1 8 5 2 2 卡方检验1 9 5 3 似然比检验与卡方检验的比较2 0 第六节多分类平行模型与多分类三角模型的比较2 4 6 1 多分类三角模型2 4 6 2 参数的方差之间的比较2 5 6 3 隐私保护度2 8 第七节实证分析2 9 第八节结束语3 4 参考文献3 5 学术经历3 8 致谢3 9 硕士学位论文 m a s t e r st h e s i s 第一节引言 在过去的几十年中,抽样调查在流行病学、心理学、医学以及社会学的调查中 发挥着举足轻重的作用同时,在协助研究人员进行统计推断和制定方案等方面, 抽样调查也发挥了不可替代的作用然而,当这些调查涉及到敏感问题或是个人隐 私( 例如婚前性行为、吸毒、醉酒驾驶、考试作弊、赌博等) 时,受访者往往拒绝与采 访者合作甚至给出虚假的信息,这些都将会误导研究人员因此,让研究人员基于 这些不真实的数据作出统计推断并不是一件容易的事情 w 打n e r 1 1 最早提出了一种随机响应( r r ) 的方法,我们将其称之为w a r n e r 模 型该模型可以帮助采访人员克服受访者拒绝合作的问题在w a r n e r 模型中,受访 者只需根据直接敏感性问题或是该问题的对立问题回答“是”或“否”即可,受访者 被问到哪一个问题完全取决于一个随机化i d i 置( r d ) ( 例如掷硬币,如果是正而则回 答直接敏感性问题,如果是反面则回答其对立问题) 的结果,而采访者无权决定受 访者回答哪一个问题w a r n e r 提出的这个方法不仅可以鼓励受访者给出真实的回 答并避免受访者拒绝回答或给出虚假信息的情况发生,同时,它还可以帮助受访者 保护他们的隐私随后,a b u l e l a ,g r e e n b e r g ,和h o r v i t z 2 1 将w a r n e r 模型推广到 三分类的情形,这个模型可以用来估计三个相关但完全不重合的三个群体的比例 在这个模型中,其中一个或两个群体具有敏感特征同时,a b u l - e l a ,g r e e n b e r g , 和h o r v i t z 还将这个模型推广e l j m ( 3 ) 个分类的情形,并且至多m 一1 个分类是敏感 的b o u r k e 和d a l e n i u s 3 1 给出了w a r n e r 模型的另一种推广,在他们的模型中引入 了一种拉丁方评价方法此外,b o u r k ef 4 1 考虑用不相关问题的模型去估计”z 个不 重合的群体的比例,其0 0 i ( 1 i m 一1 ) 个分类包含敏感特征,如果已知不相关变 量的分布,只需一个样本就可以对我们感兴趣的参数进行估计e r i k s s o nf 5 1 提出了 另一种不相关问题的随机响应模型,这个模型只需一个样本就可以估计m ( 2 ) 个 相互不重叠的群体的比重,其中这m 个群体中至多有m 1 个是敏感类 但是上述方法都要使用一到两种随机化装置来保护受访者的隐私此外,所有 的随机响应模型都具有以下缺点:( i ) 受访者在被问到相同的问题时可能给出另一 个答案,因此这个调查缺乏再生性;( i i ) 受访者可能因为随机装置由采访者控制而 对该装置失去信任,从而拒绝配合采访者的工作;( i i i ) 由于引进随机化装置而导致 硕士学位论文 m a s t e r st h e s i s 成本的增加 在过去的五年中,研究人员提出了几种非随机响应( n r r ) 的方法来克服随 机响应模型中存在的一些弊病,这些非随机响应模型不需要使用任何随机化装 置y u ,t i a n 和t a n g 【6 】提出了十字交叉模型和三角模型来解决带有一个二分类 结果的敏感变量的问题t i a n ,y u ,t a n g 和g e n g 7 】提出了带有两个二分类敏感 变量( x 和y ) 和隐藏敏感性模型,并用该模型来估计四个完全不重叠的群体的比 例以及这两个敏感变量之间的相关性t a n g ,t i a n ,t a n g 和l i u 【8 】在这个三角 模型的基础上,将其推广到m 个相互不重叠的分类的一般情形,该模型只包含 一个敏感变量然而,这些模型都要求敏感变量有一个分类( 例如, y = o ) 是 非敏感的,因此t i a n 【9 】最近提出的平行模型可以用来解决敏感变量的两个分 类( 记为【y = o 】和 y = 1 ) ) 都包含敏感特征的问题,并且在大多数情况下,平 行模型已被证明要优于十字交叉模型和三角模型但是,在一些调查中,我 们更关心诸如性伴侣的个数( 3 ,4 - 6 , 7 ) 、在过去一个月中非法吸毒的天 数( s1 ,2 或3 ) 等具有多个答案的敏感问题,并且这些i ;- j 题的每一种答案都具有 一定的敏感性例如,我们想要通过调查了解艾滋病与性伴侣个数之间的关系, 所有的四个分类【x = o ) u 【y = o ) , x = o u y = 1 , x = 1 ) u y = o 和f x = 1 u y = 1 都是敏感性的,其中x = o ( x = 1 ) 表示艾滋病状况为阴性( 阳 性) ,y = 0 ( y = 1 ) 表示性伴侣的个数不超过3 个( 至少有4 个) 在这种情况下,任 何一种已有的非随机响应模型都无法解决这一类问题 本文主要为带有敏感问题的抽样调查提供一种非随机的多分类响应模型,并 给出了我们所感兴趣的参数的极大似然估计、协方差矩阵、四种置信区间以及基于 贝叶斯理论的一些统计推断的结果同时,本文还将讨论多分类平行模型的一种特 殊的情形以及多分类平行模型优于多分类三角模型的条件最后用一个具体的例 子来说明多分类平行模型在实际问题中的应用 本文共分为八个部分: 第一节介绍了敏感性抽样问题产生的背景和研究意义,同时介绍了随机化抽 样方法和近几年来提出的非随机化方法的研究进展情况; 第二节主要介绍多分类平行模型的基本概念和模型; 第三节给出了多分类平行模型基于似然函数的统计推断的一些相关结论; 2 硕士擘位论文 m a s t e r st h e s i s 第四节给出了多分类平行模型基于贝叶斯理论的一些统计推断的结果; 第五节讨论了多分类平行模型的一个特殊情形,即四分类平行模型; 第六节将多分类平行模型与多分类三角模型进行比较,并讨论多分类平行模 型优于多分类三角模型的条件; 第七节用宫颈癌的例子来说明提出的多分类平行模型在实际中的应用; 第八节对多分类平行模型进行一个总结 3 硕士擘位论文 m a s t e r st 1 4 e s i s 第二节多分类平行模型及其相关的调查设计 设敏感问题q y ( 例如你有多少个性伴侣) 有m 个结果,并且这m 个结果都具有一 定程度的敏感性假定一个群体中的每一个人都属于这m 个类别中的某一类( 例如, 属于类别f y = 1 ) ) 我们所感兴趣的是想要知道每一个敏感群体在总人群中所占 的比例在这个抽样调查中,受访者首先要回答一个非敏感问题o w ( 例如,你母亲 的生日是在一个月中的后半个月吗? ) 如果他的同答是否定的,那么这个受访者需 要回答另一个非敏感问题o v ( 例如,你的生日是在一年中的第i 个季度吗? ) 否则, 受访者将会面对一个敏感性问题在这个模型中,问题o u 与问题q y 都包含m 个分 类记,和y 分别为q c ,q w 和q y 所对应的变量,且u ,w 和y 相互独立其中, 变量u 的取值为1 ,m ,变量w 的取值为o ( 做出否定回答) 和1 ( 做出肯定回答) ,变 量y 的取值为1 , 令 7 1 i = p r y = l , 表示在一个总体中属于集合 y = i ) ( i = 1 ,m ) 的人群所占的真实比重, q = p r w = 1 ) ,p i = p r u = 班i = 1 , t , 分别代表受访者对问题q w 做出肯定回答的概率和他属于集合 u = i ) ( 1 = 1 , e ) 的概率我们的目的是要估计7 1 i = p r y = i ,i = 1 , 1 在实际问题中,我们需要选择两个非敏感变量u 和彤,通过调查数据我们可以 7 获得关于 纯 和q 的可靠的估计例如,如果受访者出生于一年中的第i 个季度,我 们可以定义u = i ,i = 1 ,4 。同样的,如果受访者的母亲的生日在一个月中的前 十五天,我们可以定义w = 1 ,否则,我们定义w = 0 在这种情况系,我们有理由 假定p i 0 2 5 和q 0 5 采访者根据表l 左边的形式来设计问卷,并要求受访者根据他的实际情况做出 真实的答案:如果他属于两个条件1 中的任何一个则用直线将两个圆连接起来;如 1 第一个条件表示第一个圆( 即 u = 1 ,w = o ) ) 而第二个条件表示第二个圆( 即 y = 1 ,w = 1 ) ) 4 m a s t e r s t h e 哪 果他属于两个条件2 中的任何一个则用直线将两个三角形连接起来;如果他属 于两个条件3 中的任何一个则用直线将两个点连接起来 t a b l e1 多分类平行模型及相应的元概率( c e up r o b a b i l i t y ) 类别w = 0w = 1类别w = 0w = 1边际分布 u = 1 o u = 1 p 1 ( 1 一q )p l u = 2u = 2 p 2 ( 1 一q )p 2 : u = m u = m p m ( 1 一q )p m y = 1 o y = 1 7 r l g 7 1 1 y = 2y = 2 7 r 2 q i f 2 : y = i n y = m 7 r m g7 r m 边际分布 1 一q口 1 注意:请根据真实情况作答如果你属于集合 u = 1 ,w :o ,u l ,= 1 ,w = 1 ,请用直线 将两个圆连接起来;如果你属于集合 u = 2 ,w = 0 u y = 2 ,w = 1 ,请用直线将两个三 角形连接起来;如果你属于集合1 u = m ,w = 0 u y = m ,w = 1 ) ,请用直线将两个点 连接起来 所以 注意到所有的 = o ) , = 1 ) , u = 1 ) , u = 好都是非敏感子集, 【,= i ,w = o ) u y = i ,w = 1 ) ,i = 1 ,m 也是非敏感子集因此采访者对于受访者是否属于敏感集一无所知,从而受访者的 隐私得到很好的保护我们称这样的模型为多分类平行模型 表1 给出了基于多分类平行模型的调查设计分类,其中表1 的右半部分给出了 相应的概率由于多分类平行模型的三个变量c ,w 和y 是相互独立的,因此其联 合密度可由相应的两个变量的边际密度的乘积来得到 2 第一个条件表示第一个三角形( 即 c 厂= 2 ,w = o ) 而第二个条件表示第二个三角形( 即 y = 2 ,w = 1 ) 3 第一个条件表示第一个点( 即f u = m ,w = o ) 而第二个条件表示第二个点( 即 y = m ,w = 1 ) ) 。 5 , 硕士学位论文 m a s t e r st he s i s 第三节多分类平行模型基于似然函数的统计推断 3 1参数的极大似然估计 设总共有n 份问卷,其中有n 1 个受访者连接两个圆,n 2 个受访者连接两个三 角形,扎m 个受访者连接两个点i g r o b s = ( n ;佗l ,) 表示观察数据,其 中n = 竺1 令 7 r = ( 丌1 ) ,丌m ) t ( 丌1 ,) t :o 乃 1 , f 0 , 如果l n t 一功( 1 一q ) g 根据上面的结论,我们不难得到下面的定理: 定理1 如果o ) ,( 3 1 0 ) 我们分以下三种情形来证明结论成立 第一种情形:当p j ( 1 一q ) p j ( 1 一q ) + q 时,根据( 3 8 ) ,有饥i p 脚= # m p j 。 则( 3 1 0 ) 显然成立 第二种。n n - 当功( 1 一口) 时,有# m p m j = 0 如果 l x r n ( # m p m j 一弁m 巧) i 0 兮m 。一立掣) | 0 娟刊炒。 号0 一乃( 1 一口) ( 3 1 1 ) 注意到 0 ( 3 1 2 ) 结合( 3 1 1 ) 和( 3 1 2 ) ,我们有 i 一l 一= i 一i 一 一聊( 1 一口) + 一现( 1 一g ) 一 0 则( 3 1 0 ) 成立 第三种情形:当胁( 1 一g ) + g 时,有亓m p 蚴= 1 如果 l 、伍( 亓m p m j 一亓m p j ) i 0 8 、 寺m 1 一独掣) | 0 岫”卅一抄。 兮0 p j ( 1 一g ) + q 一( 3 1 3 ) 注意到g 0 ( 3 1 4 ) 结合( 3 1 3 ) 和( 3 1 4 ) ,我们有 i 一i 一= i 一i 一 p j ( 1 一g ) + q 一) + n ( 1 一q ) + q 一) 一 0 则f 3 。1 0 ) 成立。 综上所述, p r i v n ( 云 m p m 一云m p ) i o ) p r j 何( 亓m p 聊一亓m 巧) l o ) j = l m p r x j 一i 吐 j = l 故,结论成立 3 3 参数的置信区间 3 3 1大样本下的渐近置信区间 定理2 令面( 弁m 巧) i j ( 1 一) 【( n 一1 ) q 2 】,则有 丽( 嘶) = 警+ 堕掣, ( 3 1 5 ) 其6 p f ( z r j ,n ,g ) = g ( 1 2 p j ) 乃+ 乃( 1 一胁+ q p j ) 厮( 亓m 巧) 为v 打( 弁m p j ) = a j ( 1 一 a j ) ( n q 2 ) ,歹= 1 ,m 的一个无偏估计 证明:首先证明( 3 1 5 ) 成立,即等价于证明下式成立: a i ( 1 一) 一9 2 弁m 巧( 1 一开m p j ) 即( 3 1 6 ) 成立 下证可石( 亓m 巧) 为、r a r ( 亓m p j ) 的一个无偏估计 由于( 佗1 ,n m ) 一m u l t i n o m i a l ( n ,a 1 ,入m ) ,则有e ( n i ) = n a j 署l v a r ( n j ) = n a j ( 1 一a j ) 故e ( a i ) = e ( n j ) n = ,v a r ( a j ) = v a r ( n 1 ) n 2 = a j ( 1 一) n 所 以, e 一v a r ( 嘶) ) - 背= 麴等铲、 :垄二笠二苎! ! 二垄! 生 ( n 一1 ) q 2 即,可石( 骨m 巧) 为、r a r ( 骨m p j ) 的一个无偏估计 综上所述,定理2 的结论成立 娑:v a r ( 弁m a r t 7 1 m p j ) ,i 一2 ij , n 口 一 由于7 r m p 为极大似然估计并且任何有效的孔都可能很大,因此膏m p 可以假定关 于7 r 呈正态分布,其方差m ( 3 1 5 ) 给出所以,我们有下面的表达式成立: ( # m p j - - 瓜a | 。 o n ( o ,1 ) ,当n o 。,j = 1 ,m 时 乃的一个( 1 一口) 1 0 0 置信区间为 卜巧吲z 属面,# m p j - + - 铆乒丽 ,( 3 1 7 ) 其中,为标准正态分布的q 上分位点,满足垂( ) = 1 一q 。 当( 3 1 6 ) 所给出的置信区间的下界小于0 或上界大于1 时,根据中心极限定理, 1 0 = e r ( 1 + z ) 砖一( 2 弁m p j + 么p 1 ) 乃+ 亓玉p j 一4 p 2 o , ( 3 1 s ) 其中,磊垒2 n , 萨兰攀型,和以会坐型譬址型 ( 3 1 9 ) 口口 求解( 3 1 8 ) 中的二次不等式,如果 ( 2 亓m p j + z , p 1 ) 2 4 ( 1 + 缸) ( 确巧一气舰) 0 , 成立,则渐近置信区间【亓m 巧,l ,# m p ,u 】的上下界由下式决定: 竺堂竺丝芝差# 坠坐坠型,(320)2 1 ( + z 。) r 7 并且这样得到的渐近置信区间为【o ,l 】的子区间 3 3 2 b o o t s t r a p 置信区间 然而上述置信区间只适用于大样本的情形当r 。较小时,我们可以采 用b o o t s t r a p 方法来得到7 r 的置信区间利用( 3 3 ) 得到7 r 的极大似然估计,我们 可以用b o o t s t r a p 方法来得到7 r 的置信区间。b o o t s t r a p 方法的最大的优点就是保证 求得的7 r 的置信区间落在区f - j o ,1 】中基于得到的云m p ,我们可以通过下式产生随 机样本 ( 味碥) 一m u l t i n o m i a l ( 哪( 1 - q ) + 7 r m p l q , , p m ( 1 - g ) + 希r m p m q ) 硕士擘位论文 m a s t e r st he s i s 对每一个= 他,n 1 ,住麓) ,我们可以根据( 3 3 ) 得到一组b o o t s t r 印估计 弁玉巧 将此过程独立重复g 次,则有 弁玉巧9 ) 嘉1 因此,弁m 巧的标准误差s e ( 亓m 巧) 可用g 次 重复的样本标准误差来估计,即 菇( 岫) = 剐确叻嘶锄+ 嘶如) g 】2 ( g - 1 ) r ( 3 2 1 ) 如果 确巧9 ) 凳1 渐近服从正态分布,即p r 个( 1 一a ) 1 0 0 b o o t s t r a p 区间为 = 1 一o l ,则乃的一 卜一劬宛( 岫) ,嘶+ 劬菇( 巧) ,( 3 2 2 ) 其中2 为n ( o ,1 ) 的q 2 上分位点 如果 亓玉聊g ) 岳l 不是渐近服从正态分布的,则乃的一个( 1 一q ) 1 0 0 b o o t s t r a p 区 间为 【前 m p j l ,7 f m p j u ,( 3 2 3 ) 其中,弁m 巧l 和亓m 巧u 分别为将序列 亓荔巧9 瘩1 按升序排列后的q 2 和( 1 一q 2 ) 分位 点 1 2 硕士学位论文 m a s t e r s1 h e s i s 第四节多分类平行模型的贝叶斯推断 在这一节中,我们将用贝叶斯方法得到7 r 精确的后验分布以及它的精确的后验 矩在许多情况下,在搜集数据之前,研究人员已经获得关于7 r 的先验信息例如, 美国男性中普遍流行的同性恋,据报道,这一概率在1 9 9 6 年介于1 一1 0 之间1 1 1 这个例子表明人们可以获得关于丌的先验信息,因此在估计7 r 的时候应该将这一点 考虑进去当7 r 的后验分布高度偏斜时,我们利用e m 算法 1 2 来计算后验模式最 后我们根据d a 算法f 1 3 1 来产生后验样本 4 1精确形式的后验矩 令 e = 0 冀m ) 和kc 毗h ,= 酗c 1 刊侧m , l , 则( 3 1 ) 可以改写为l m p ( 7 r l k b 6 ) = e 宰气p ( 7 r i k b 8 ) 此处,我们选择狄利克雷分 布d i r i c h l e t ( a l ,口m ) 作为7 r 的先验分布 由于 伽) = 几瓮, 以及 m p 【7 r l r o b s ) j 1 7 r j 竹lm = h p j ( 1 一g ) + 7 r i q n ,b ( 。l ,。m ) i i 砟一1 2 1l t - - - 2 i = 耍 耋( 宅) p j ( 1 - q ) l k ( t r j q ) j - k b c 口- ,n m ,垂丌一1 叫值薹删b ( 字) b p 甘1 = 础n 孚r t l ( n 1 ) k l n t o k i n - - - - 0 ) = b ( 口1 ,n m ) g n ) 詹1 = o 1 3 = b ( a l ,o m ) 矿 量( 字) b 其中,a o = 銎1a i 和k o = 圣lk i 令 c m p ( a ;n ;知) 1 1 1几m = 矿 k l = o k r n = 0 ( 宇) b n :t ( f ( a i + n i - - ) f ( a o + n 一) i - i , 竺- ( 乏) p i 七 f ( a i + n i - 缸) f ( a o + 孔一) ( 4 2 ) 其中,n = ( a 1 ,口m ) t ,竹= ( n l ,佗m ) t ,庇= ( k l ,) t 。则7 r 的后验分布 具有如下精确表达: 伽l y o h ,= 譬鼎舞等 因此,乃的t 阶后验矩为 e ( 疵l k b s ) = 其中,i = 1 ,m 型坠c 坐m v ( 羔a ;掣,扎;知) 。二- 1 4 ( 4 3 ) ( 4 4 ) 4 2基于e m 算法的后验模式 事实上,对于采访者来说,想要直接得到属于敏感子集 y = 歹,w = 1 ) 的 人数并不是一件容易的事情令乃表示受访者中属于敏感子集( y = 歹,w = 1 ) 的 人数,而( 勿 无法直接观察得到记i s = z 1 ,) 表示删失数据,k 嘲= k b 6 ,圪i 8 ) 表示完全数据由于 鼽) 和g 已知,故7 r 基于完全数据的似然函数为 l m p ( 7 r i ) o (b ( 1 一g ) 1 唧一勺( 乃q ) 勺 歹= 1 哆 取7 r 的先验分布为狄利克雷分布d i r i c h l e t ( a 1 ,a m ) ,则7 r 基于完全数据的后 验分布和名= ( z l ,) t 的条件预测分布分别为 ,( 7 r i y o b 6 ,名) f ( z l k b 8 ,7 r ) = d i r i c h l e t ( a l + z 1 ,a m + z m ) , = n ,( 磊l 虼h ,乃) = 耍h b i n o m i a l m 赤) ( 4 5 ) ( 4 6 ) 令7 r ( ) 表示7 r 在当前阶段得到的极大似然估计中最好的一个首先,我们根据下 式计算q 函数: q ( - i 丌 ) = e 粤( 丌i y o h ,名) l k h ,r 。,) t ,( z l k b 8 ,7 r ( 。) ) 如 其中,c ( 石) = 一l o gb ( a 1 + z l ,0 仇+ ) 由于7 r 1 = 1 一凳2 乃,则有 1 5 如、力一、 蛔 石 d 随 一 k 勺 p + , , 力仇芦 h + 阢 力 丌 “ “r l 巧 g b 们叫 一 i = 瞻 圪 勺 e+ 叼 m 同 + 丌 h圪 z l 卜 e = ”蚪 j m 弹 一 l = = 口。+ e ( z + i k b 8 ,7 r ( t ) 一m ,歹= 1 ,m , 其中,z + = 凳1 乃。 因此,利用e m 算法,通过m 步得到参数基于完全数据的后验模式 ( 口o + 珥一m ) 亓m p j = 叼+ 勿一1 ,i = 1 ,m ( 4 7 ) e 步,即用z 的条件期望 e ( z j l v o h 2 丽小1 ) m ( 4 8 ) 来替代名 4 3基于d a 算法产生后验样本 除了可以通过e m 算法来计算参数的后验估计外,我们还可以通过d a 算法来 获得参数基于完全数据的后验估计在大样本情况下,当预估参数近似服从正态 分布时,通过d a 算法得到的参数估计与通过e m 算法得到的参数估计具有一致 性但是,当样本较小时,极大似然估计就没有那么好的表现相反,d a 算法能 够根据完全数据的后验分布给出较好的参数估计基于完全数据的后验分布函 数f ( 7 r l y o b 6 ,名) ,我们可以利用d a 算法来对参数仃进行贝叶斯统计推断d a 算法的 主要思想就是在i 步对给定的k b 6 ,利用( 4 6 ) 来产生z 然后在p 步对给定的k b s 和 新产生的名,利用( 4 5 ) 来产生7 r 将此过程重复l 次,得到 7 r ;) 冬1 。则该样本的均 值亓+ = e 怎,7 r ;为参数7 r 的后验估计 1 6 硕士学位论文 m a s t e r st h e s i s 第五节多分类平行模型的一种特殊情形 对于多分类平行模型,我们不仅要研究敏感参数的估计,还要利用这个模型来 研究两个敏感变量之间的相关性在这一节中,我们首先给出多分类平行模型的一 种特殊情形,该模型含有4 个不相重合的子类我们用这个四分类平行模型来考察 两个敏感变量之间的相关性同时,我们还将基于显著性水平和检验功效将似然比 检验和卡方检验进行比较,并讨论那一种检验方法更有效 5 1四分类平行模型 t a b l e2 四分类平行模型及相应的元概率 类别w = 0w = 1类别w = 0w = 1边际分布 u = 1 o u = 1 p 1 ( 1 一q )p z u = 2 u = 2 p 2 ( 1 一q ) p 2 j
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025昆明市晋宁区残疾人联合会招聘编外人员(1人)考前自测高频考点模拟试题及一套答案详解
- 班组安全职业卫生培训课件
- 2025昆明市呈贡区卫生健康系统编外合同制专业技术人员招聘(7人)考前自测高频考点模拟试题及答案详解一套
- 2025江西吉安永新县薪火人力资源服务有限公司招聘4人模拟试卷及参考答案详解一套
- 2025江苏盐城工学院招聘专职辅导员13人考前自测高频考点模拟试题及答案详解一套
- 2025广东佛山南海农商银行金融科技总监社会招聘考前自测高频考点模拟试题及答案详解(名师系列)
- 2025年河南省社会科学院招聘高层次人才考前自测高频考点模拟试题附答案详解(突破训练)
- 班组安全帽培训课件
- 2025福建福州市罗源县城市管理和综合执法局内勤人员招聘5人考前自测高频考点模拟试题带答案详解
- 2025年上半年宜宾五粮液股份有限公司社会招聘11人模拟试卷及完整答案详解1套
- 气管插管病人的护理及注意事项讲课件
- CJ/T 316-2009城镇供水服务
- 代持股合同范本8篇
- 机场安检员笔试题及答案
- 法院赔偿申请书
- 【MOOC】《思想道德与法治》(东南大学)章节中国大学慕课答案
- 中医养生按摩养生
- 专业技术职务任职资格评审表(样表)
- 《工程经济与项目管理》课程教学大纲
- 2011-2016年第16-22届华罗庚杯少年数学邀请赛几何试题(小学高年级组)全解析
- 数字孪生赋能低空经济研究报告(2024年)
评论
0/150
提交评论