(运筹学与控制论专业论文)敏感性问题的调查方法.pdf_第1页
(运筹学与控制论专业论文)敏感性问题的调查方法.pdf_第2页
(运筹学与控制论专业论文)敏感性问题的调查方法.pdf_第3页
(运筹学与控制论专业论文)敏感性问题的调查方法.pdf_第4页
(运筹学与控制论专业论文)敏感性问题的调查方法.pdf_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 抽样调查被广泛用于调查各种社会经济问题,其中有一类是敏感性问题,所 谓敏感性问题,是指与个人或单位的隐私有关而不便于向外界透露的问题,比如, 是否偷税漏税;是否吸毒、赌博等。对于这类敏感性问题,调查中若采用直接问 答的方式,被调查者为了保护自己的隐私或出于其他目的,往往会拒绝回答或故 意做出错误的回答。为了得到敏感性问题的可靠的样本数据,有必要采用随机化 回答技术( r a n d o m i z e dr e s p o n s et e c h n i q u e 即r r t ) ,r r t 是指在调查中使用特定的 随机化装置,使被调查者以预定的概率p 回答敏感性问题,从而估计具有敏感性 特征的人在总体中所占的比例石,与直接回答相比,r r t 能够有效地保护被调查 者的隐私,使他们做出真实的回答。随机化回答技术是1 9 6 5 年沃纳提出沃纳模型 ( w a r n e rm o d e l ) 后发展起来的,沃纳的随机化回答技术能有效地消除误差,后来出 现了s i m m o n s 模型、m a n g a t 模型、k u k 模型等。敏感性问题按总体的特征分为两 类:属性特征的敏感性问题和数量特征的敏感性问题。属性特征的敏感性问题是指 被调查者是否具有敏感性问题的特征,一般是估计具有敏感性特征的人在总体中 所占的比例。数量特征的敏感性问题是指被调查者具有敏感性问题数额的多少的 特征,一般是估计敏感性数额的均值或总和。 本文第一章介绍了基本的随机化回答模型。第二章讨论了属性敏感性问题的 调查方法,将贝叶斯方法用于改进模型的参数估计,求出了两种不同的贝叶斯估 计方法,然后利用m a p l e 求出近似解。无关问题模型是调查属性敏感性问题的一 种方法,本文提出了改进的方法,使估计量的方差更小。在实际的调查中,有时 会遇到调查两个敏感性问题或多项选择的敏感性问题,本文对此进行了讨论。第 三章论述了数量敏感性问题的调查方法,随机截尾模型是一种在实际应用中十分 简便的方法,它是把对数量特征的调查转化为对属性特征的调查,避免直接回答, 是一种易于被调查者接受的方法,本文提出了一种改进的随机截尾模型,既能得 到较高的精度,又能提高被调查者的合作程度。乘法模型是一种调查数量敏感性 问题的方法,本文提出了一种改进的随机化调查方法,使估计量具有更高的精度。 加法模型是一种较好的调查方法,本文将它的改进方法推广到分层抽样,能获得 较为准确的结果,而且这种处理方法对大规模的抽样调查有很好的借鉴作用。第 四章讨论了不完全真实回答情况下m a n g a t 模型( 1 9 9 4 ) 的分析,并对随机截尾模型 和它的改进方法进行了精度比较。 关键词:敏感性问题,随机化回答,模型 a b s t r a c t s a m p l i n gs u r v e yi sw i d e l yu s e dt oi n v e s t i g a t ea l lk i n d so fq u e s t i o n s ,i n c l u d i n g s o c i e t y , e c o n o m y s e n s i t i v eq u e s t i o n sa r ei nt e r m so fc o n f i d e n t i a l i t y , w h i c hp e o p l e u s u a l l yd on o tw i s ht og i v ec o r r e c ti n f o r m a t i o n ,f o re x a m p l e , p r o n e n e s st ot a xe v a s i o n , a d d i c t i o nt od r u g s ,a m b l i n gh a b i t sa n ds oo n w h e no p e no rd i r e c ts u r v e y sa r ea b o u t s e n s i t i v em a t t e r s ,t h er e s p o n d e n t su s u a l l yr e f u s et oa n s w e ro rg i v ew r o n ga n s w e r , i n o r d e rt op r o t e c to w np r i v a c y0 1 o t h e ri n t e n t i o n i ti sn e c e s s a r yt ou s er a n d o m i z e d r e s p o n s et e e l m i q u e “e r r t ) f o rg e t t i n gr e l i a b l es a m p l ed a t ao ns e n s i t i v em a t t e r s r r t , n a m e l yr e s p o n d e n t s a n s w e rt h es e n s i t i v e q u e s t i o n s w i t h p r e a s s i g n e d p r o b a b i l i t y pu s i n gr a n d o m i z e dd e v i c ei ns u r v e y , a n de s t i m a t i n ga nu n k n o w np r o p o r t i o n o fp e o p l 0 时,进行两次连续的抽样,即 旦岛- p 五。p 时 m,地 j 型互 其它 n + 靠罨 觊- p p :,从而经过整理可知: ! 堕鱼! s o a p , 同理有:螋苫o 印2 由此可知为了最小化玩,g 。) ,应取p :- 0 ,p 。尽可能地大,也就是说,第二 个样本所用的随机化装置中,敏感性问题出现的概率为0 ,而在第一个样本中,敏 感性问题出现的概率尽可能地大,这就变成了m o o r s 模型,就是令西蒙斯模型 中第二个样本中p :一0 ,用第二样本直接估计石,再由第一个样本估计,得死 的无偏估计量为: 一 i 。一i :( 1 一p ,) p l 死的方差为: 玩r 向) i 【盟二尘+ 坠碰必】,p l : 飞hl 实际上,p ,不宜大于0 8 5 ,p :的取值应根据实际问题,或者取办一0 ,或者 取p :尽可能也小。若取p :- 0 ,也就是m o o r s 模型,实际上是用第二个样本估计 石,再用第一个样本估计乃。 潘慧峰等人结合w a r n e r 模型和s i m m o n s 模型的优点,在无关性问题的卡片中 增加了敏感性问题的信息,改进方法包括随机方法和确定方法瞵1 。 1 2 3m a n g a t 模_ 型2 ( 1 9 9 0 、1 9 9 4 1 第一章绪论 m a n g a t 于1 9 9 0 年提出了一个二阶随机化回答模型,它是直接回答与w a r n e r 模型的折衷,使得该模型的估计量是直接回答模型与w a r n e r 模型的加权平均。该 模型包括两个随机化装置,第一个装置包含两种情形:一是直接回答“我具有敏感 属性”,出现的概率为t ,二是“到第二个装置”。第二个装置也包含两种情形:“我 具有敏感属性”,出现的概率为p ,二是“我不具有敏感性属性”,出现的概率为 1 一p ,同w a m e r 模型一样,被调查者依次经过两个装置,根据抽得的卡片以及自 己的真实情况进行回答“是”或“否” 5 1 1 。假设回答“是”的比例为口,则有 下列等式: 日- 乃+ ( 1 一r ) p 乃+ ( 1 一p ) ( 1 一乃) 】 假定调查结果中回答“是”的比例为0 ,t 和p 由调查者设定。 则以的一个无偏估计量为:乞一夏b i - o i - 忑t 瓦) o i - 面p ) 其方差为: 嘶小掣+ 堂n 警l 舞高尸, 厅 z 口一上+ “t 上一口j i 方差的一个无偏估计量为: 徭出卜而高等赫丽 m a n g a t ( 1 9 9 0 ) 模型的实质,就是直接回答和w a r n e r 模型的折衷,使得该模型 的估计量是直接回答模型与w a r n e r 模型的加权平均,直接回答模型的精度比 w a r n e r 模型、m a n g a t ( 1 9 9 0 ) 模型高,是因为直接回答敏感性问题的人多,提供的信 息多。若在w a r n e r 模型中取p = 1 ,w a r n e r 模型就变成直接回答模型。若r 越大, 在m a n g a t ( 1 9 9 0 ) 模型中直接回答的比例越大,精度越高,当r = 1 时,m a n g a t ( 1 9 9 0 ) 模型就变成直接回答模型;当r 一0 时,m a n g a t ( 1 9 9 0 ) 模型就变成了w a r n e r 模型 1 9 9 4 年,m a n g a t 提出了另一个模型,提出该模型的依据是西蒙斯模型需要两 套随机化装置太麻烦,他提出的模型在操作上相对简单。模型操作如下:首先每个 被调查者直接回答是否具有敏感性特征,如果被调查者具有属性a 则直接回答 “是”;如果被调查者回答“否”,再运用与w a r n e r 模型相同的装置随机化回答嗍“。 令a 是回答“是”的比例,则回答“是”的概率为: a 一刀- + ( 1 一刀。) ( 1 一p ) 1 1 电子科技大学硕士学位论文 蚍的一个无偏估计戥缸半, 乞的方差为:玩r g 。) 。堡4 幽+ ( 1 - , r a 0 - p ) n n p 1 2 4 无关问题模型 假设数量敏感性问题特征量是x ,无关问题特征量是y ,调查的目的是估计z 的数学期望的大小。g e e r n b e r g 在1 9 7 1 年提出了无关问题模型,该模型类似于 西蒙斯模型,在实际调查中需要设计两套卡片,分别写上敏感性问题和无关问题, 两套卡片按一定的比例p 和1 一p 混合均匀,放入同一个盒子中。调查时,由被调 查者从中任意抽取一张卡片,根据上面的问题做出回答,然后将卡片放回盒子, 混合均匀,再供下一个被调查者使用,在这一过程中,调查者无法知道被调查者 回答的是哪个问题,这样便起到了保护被调查者隐私的目的【1 7 l 。从总体中有放回 地抽取两个相互独立互不相交的容量分别为啊和厅:的简单随机样本,令p i ( f = l 2 ) 表示第i 个样本中敏感性问题所占的比例,z j ,( f 一1 , 2 ;j l 2 , ,1 ) 是第i 个样本中第 j 个人的回答值,口,和“,分别表示敏感性问题和无关问题的数学期望,( z ) 是敏 感性问题特征量z 的概率密度函数,占0 ) 是无关问题特征量y 的概率密度函数, 有e ,( 疋) = ,t 0 0 m u ,则两组样本的概率密度函数如下: 样本1 :妒。亿) 一n ,瓴) + ( 1 - p 1 ) g 瓴) , 样本2 :! f ,:c 乞) 一p :f ( z :) + ( 1 一p :) g ( z 9 则它们的期望值分别为:“z 。- p z + ( 1 一a ) l l r ,厶= p 2 u j + o - p 2 x 0 用样本均值z 1 ,z 2 分别代替,屹,可得和的无偏估计量: :。坠幽塾坐丛丝,品p 2 z t - p 1 2 2 估计量的方差分别为: 砌,g 誓) 一( 1 - p 2 ) 2 v a 飞r ( z , ) + p l ( 1 ) - :p 1 ) 2 9 a r ( z 2 ) - , 砌稿) - 逝铲 第一章绪论 其中砌,( z ) 。砉【刃4 ,。2 一面) + p ,( 1 一p ) z 一蜥) 2 】,1 1 , 2 j 无关问题选择的基本准则就是回答的度量单位应与敏感性问题回答的度量单 位一致,如次数,小时等。如果单位不一致,将很难有效地保护被调查者的隐私。 如果模型中的参数p l ,p :,n ,甩:选定,可以看到,估计量的方差肠,g x ) 随和 l u ,一bl 的减少而减少,因此,在选择无关问题时的一个重要的准则是使得其回 答值与敏感性问题的回答值一致或接近,而不仅仅是在问题的意义上与敏感性问 题不同或相似。一个明智的选择就是选无关问题使得接近h ,并且具有最小的 方差,然而当刃小于非常多时,可推断出调查得到的极端值很有可能来自 敏感性问题的回答,会使被调查者产生怀疑,降低被调查者的合作程度,从而他 们会做出不真实的回答以掩盖隐私,故彳应该与露差不多大町1 。 如果唧已知,只需一组样本,上面的的估计量可以简化为: 一 z 一( 1 一p ) “r h z 一 一, p 估计量:,的方差为: v a r g 譬) v a 丁r ( z ) 。r a _ r ( z ) 电子科技大学硕士学位论文 第二章调查属性敏感性问题的随机化回答模型 2 1 改进模型的贝叶斯方法 2 1 1 模型介绍 西蒙斯模型中当西未知时,需要两组样本,但是这种方法牺牲了部分样本中 关于石。的信息,用来估计具有无关问题y 的人的比例嘶,因此最好选择一个已知 比例的无关问题l ,。但在实际调查中,很难找到合适的无关问题,于是就出现了 不需要直接估计巩的装置,该装置可以看着是西蒙斯模型的变形。装置如下:假设 调查一个敏感性问题,如考生作弊的比例石,制作一套卡片,由三部分组成,第 一部分卡片称为1 号卡片,上面写着“如果你作过弊,请回答1 ,如果未作弊,请 回答0 ”。第二部分卡片称为2 号卡片,上面写着“请你回答1 ”。第三部分卡片称 为3 号卡片,上面写着“请你回答0 ”。这三部分卡片出现的概率分别为p l ,p , 见,有p ,+ 见+ p ,一1 。然后由调查者采用有放回的方法随机地从中抽出一张卡 片,让被调查者做出回答,回答的结果只有“1 ”和“0 ”两种。根据样本中回答 “1 ”的个数,即可估计出:r a 的值】。设样本容量为n ,则样本中作弊人数的均 值为,1 ,他们抽中1 号卡片,并回答“1 ”的人数的均值n 万a p t ,抽中2 号卡 片的人数均值为印:,因此容量为阼的样本中回答“1 ”的人数均值为n :r a p 。+ 印:。 若进行一次试验,得到回答“1 ”的次数为m ,则:小- n 石a p i + 印2 得到乃的极大似然估计量:乞一( 竺一p :) p l , 方差为:v a r g 。) 互艘型+ 旦堡毕+ 旦二区二挚 n n p in p i 可以证明乞是无偏估计,由于e g 。) = e 【( 竺一p :) p d ,陋凸一p 。】p l , e ( 兰) 吾e ( 妻五) 艘。三量1 ( a + p :) + o 【( 1 一乃) p i + p ,】死a + p : nn f - 1 i - i n j d 将其代入e g ) ,即得e g 。) 互坐t 竺丝死,所以乞是无偏估计量。 1 4 第二章调查属性敏感性问题的随机化回答模型 可以看出该模型具有以下优点,第一:尽量消除了被调查者回答敏感性问题的 顾虑,当敏感性问题卡片的比例为0 5 时,它是一种较理想的选择。第二:模型中 要估计的参数较少。第三:模型设计简单,易于被调查者理解和掌握啪i 。 2 1 2 乃的最大后验估计 采用贝叶斯方法,将未知参数石看成随机变量,若对石。的估计没有先验信息, 根据贝叶斯假设,可设参数乃的先验分布,o ) 服从均匀分布,即,阮) * 1 , :r a 【o ,1 】,置,x 2 ,为样本值,则死的后验分布的核是: j i l o oi 毛,x 2 ,) z 饥l 而,艺,) 一七o l a + p 2 ) ”( 1 - z r a p l 一p 2 ) 4 ” = k ( a a p i + p 2 ) “【( 1 一万 ) p 14 - 见r 。肝, 其中k - 1 一f ( ,r a p l + p :) ”【( 1 一哆。) n + p 3 r 柙d 以 乃的最大后验估计的思想是:选取以使p “,x 2 ,毛i 乃) , 。) 达最大值,这 里,帆) * i ,而p ( 五,x :,l 乃) 正是经典方法中样本而,也,矗的联合分布密 度p 瓴,而,矗,乃) 。所以对于,( 死) a c1 的先验分布,乃的最大后验估计就是经 典方法中的极大似然估计陋1 ,即选取乞使 m a x ( 见4 - p 2 ) 4 【( 1 一靠j ) a + p 3 r “, 等价于 m a xm l n ( :r x p l + p 2 ) + 仍一小) l n 【( 1 一,乙) 见+ p 3 】 上式对以求导,并令它等于0 ,得卫l + i 里粤o a p 1 p 2 、 一a ) p 1 p 解出乞- 仁一p :) p l ,它也是呢的极大似然估计量。 2 1 3 乃的贝叶斯估计 若假定乃的先验分布, 。) 服从贝塔分布,即f ( x a ) = 4 ( 1 一广4 b ( a ,6 ) , 乃【o 朋,这里口0 ,b ) 一知“0 一f ) 6 - 1 出,其中4 0 ,b 0 ,a 和b 的取值根据先 0 验信息估计,相当于调查4 + 6 个人,其中有4 个人回答“1 ”,则乃的后验分布的 核是: j l ( 乃l 而,x 2 ,) * 杉_ 1 ( 1 一j o ) “z ( 乃i 而,屯,) - 五孺二1 ( 1 - a f t - 1 ( 石 p l + p 2 ) 卅( 1 一万卯l - p 2 ) 4 - m , 辜e 中七- 1 一j 衫- 1 ( 1 一石。广- 1 ( p 1 + p :) ”【( 1 一刀j ) a + p ,r 4 d 乃 电子科技大学硕士学位论文 所以乃的贝叶斯估计为: 二脚。= e 伽l _ ,而,矗) 一时衫( 1 一j ) ( 死p l + p 2 ) 4 【( 1 一,) a + p 3 r “d 乃 t r nn 三- m n 。,i 。l 。,l i + j p ;。p ;用砘“( 1 一哆i ) “- 1 切 i - o f 00 - 曼蔓_ j c :c i 。p i + 7 p ;。p ;1 丑( + f + 1 ,6 + ,) j , u i 叫 从上面的讨论可以看出死的后验分布不再是贝塔分布,当n ,所都很大时,对 死的贝叶斯估计的计算相当麻烦,可以利用计算机来求得近似解。 m a p l e 程序如下: k := i n t ( x “( a - 1 ) 。( 1 一x ) “( b - 1 ) ( x 。p l + p 2 ) “m + “1 x ) + p l + p 3 ) “( n - m ) ,x = o 。1 ) : m e a n := i n t ( x “a 。( 1 一x ) “0 , - 1 ) 。( x p l + p 2 ) “m ( ( 1 x ) + p l + p 3 ) “( n - m ) ,x - - o 1 ) : m e a n _ a p p r o x := m e a n k : e v a l f ( ) ; 其中a , b ,l ,m ,p l , p 2 ,p 3 均为常数,带入相应的值,即可得出的近似解。 2 2 改进的无关问题模型 2 2 1 模型介绍 假设总体分为互不相容的两类:具有敏感性特征的一类4 与不具有敏感性特 征的一类a 。 调查的目的是估计具有敏感性特征( 属于4 ) 的人在总体中所占的比例以。设 y 是与a 无关的非敏感性问题( 比如“你喜欢绿色吗? ”) 。模型的基本设计为: 制作一个能产生三种结果的随机化装置,如三套外形样的卡片,1 号卡片上写有 敏感性问题“你属于a 吗? ”( 比如“你在考试中作弊了吗? ”) ,2 号卡片上写有 敏感性问题的对立面“你不属于彳吗? ”,3 号卡片上写有无关的问题。你属于y 吗? ”, 1 号、2 号与3 号卡片出现的概率为a 、p :、p 3 ( p i + p 2 + p ,- 1 ) 。 假设所有被调查者的回答都是真实的,样本容量为n 。 令五f 1 莩篓望囊耋呈笺:量 t 。1 ,2 ,栉 胃五f 。1 0 若被调查者回答“否_ 。l 4 肌 贝0 p ( 五- 1 ) - p l :唇a + p 2 ( 1 一万_ ) + p 3 i r r , p ( 互0 ) - p , o - z r 4 ) + p ,+ p 3 ( 1 一以) 1 6 第二章调查属性敏感性问题的随机化回答模型 设岛是被调查者中回答“是”的比例。 按照矩估计方法,令b p ,+ p :( 1 一乃) + p 薅, 于是得到乃的一个无偏估计量: 乞生堡翌边 ( p 。p :) p l p 2 其中a 。是调查结果中回答“是”的比例,。是岛的无偏估计量。 当而未知时,需要用第二组样本直接估计墨,在一定条件下,方差达到最小。 最小的方差为啪1 g 。) - 厶叵垦! 哿云皇铲 行i 口一口,i _ 2 2 2 改进的模型 设敏感性问题为a ,非敏感性问题为x ( f l 2 ) ,民未知,假定a 与誓、k 均 不相关。样本容量为,l ,分为伪和1 :两个子样本。在样本i 中,回答的规则如下: 在第一阶段,以比例p 。、p :、p ,( p 。+ 见+ 见- 1 ) 混合红、白、蓝三种小球。若 被调查者抽到红色小球,回答“你属于彳吗? ”;若抽到白色小球,回答“你不属 于4 吗? ”;若抽到蓝色小球,回答“你属于吗? ”。在第二阶段,被调查者直 接回答无关的非敏感性问题y f ( ,i ;j l 2 ) ,以上的操作都是在调查者不在场的 情况下进行的,有效地保护了被调查者的隐私。 令以表示第f 个样本中被调查者在第一阶段回答“是”的比例。气表示第i 个 样本中被调查者在第二阶段回答“是”的比例。b 。表示第f 个样本中被调查者两 次都回答“是”的比例。则有 e 童= p 一 + p 2 q 一丑0 七p g r z , ,8 * 一a y | ,8 h i p 一群? + p 一- 。+ p 研 其中z 明表示被调查者同时属于a 与的比例,。、h 的意义类似定义。乃表 j 示具有敏感性特征4 的人在总体中所占的比例,巩表示具有属性x 的人在总体中 所占的比例。 可得第f 个样本的乃的无偏估计量免( f ) : 二。( f ) 旦生二蔓三星丑( 其中p ,p :,f 。1 ,2 ) p 1 一p 2 式中二e a f ( i j ;i ,- l 2 ) 。 如和缸分别是以和民的估计量,以和缸的值由调查结果确定。 1 7 电子科技大学硕士学位论文 设0 0 ,按实际情况, 取p 2 尽可能地小。 ( 2 ) 效率比较 根据上述所考虑的特殊情况7 k ;刀砬一唧,则钆屯- q ,改进的模型可以与 原有的模型进行效率比较,两个估计量的相对效率为r e - k g 。) g 。) - 2 。 通过比较可以得到改进模型的方差比原有模型的小,改进模型更有效。同时, 改进模型能有效地保护被调查者的隐私,所以它是一种较好的调查敏感性问题的 晡机化回答方法。 2 3 调查两个敏感性问题的随机化回答模型 童 l i 嵋 电子科技大学硕士学位论文 2 3 1 模型介绍 设a 和b 是两个不相关的敏感性问题,调查的目的是估计分别具有敏感属性a 和口的人在总体中所占的比例乃和,抽取一组容量为,l 的样本,每个被调查者 依次对装置1 和装置2 产生的结果进行回答,装置1 由三种卡片组成,1 号卡片上 写有“你具有属性a 吗? ”,2 号卡片上写有“你不具有属性曰吗? ”,3 号卡片上 写有“直接回答是”,这三种卡片出现的概率是p ,、1 一n b 、岛。装置2 也由上 述三种卡片组成,只是三种卡片出现的概率分别为p :、1 - p :一如、岛。被调查者 依次从装置1 和装置2 中抽取卡片,根据卡片上的问题并结合自身的情况进行回 答。 用x 表示回答“你具有属性彳吗? ”,y 表示回答“你不具有属性b 吗? ”,z 。 表示装置1 的回答,z 表示装置2 的回答,两次的回答值用向量z 表示,则 z 一( z l ,z :) 一( ,+ 石+ ( 1 一毛一b ) + y + 岛,2 + x + ( 1 一2 一吼) y + 吼) 有e 瓴) 一a ,e ( e :) 一p :,e 伍) - 乃,e f t ) 一,e ( z 1 ) 一 ,e ( z :) 一九, 和九分别表示装置1 和装置2 中回答“是”的人所占的比例,则有等式: p ;死+ ( 1 一p 1 一q 玩+ 岛, 九- p + ( 1 - i , 2 一如弘珞+ 巴 得到吼和的估计量为: 置:( 1 - p l b ) 一置t ( 1 一p :一吼) + ( 0 2 p l 一岛p :+ 岛一如) 砌i ;了丽j 西一 p 2 一p t + p 1 9 2 一p l i t p :一置2 a + ( 吃n 只p 2 ) 舶了i 再面f 面 其中i 。和置:分别是 和屯的估计量,调查结果中装置1 和装置2 回答“是” 的人数分别为啊和蚪:,则有i 。生,量:。 2 。 死和的方差分别为: 嘶小再而1 阻掣+ 鲣学】, 刚小再丽1 【半+ 掣】- 2 0 第二章调查属性敏感性问题的随机化回答模型 雠小万而1 而瓣【业掣+ 业岽警型】, 西阳- 而万确1 【帮+ 帮】 为了 v a r ( ;。) 与砌r g 。) 较小,需要对参数p l ,p :,岛,吃进行适当的选择,令 q ;0 2 = 0 ,贝0 砌r 向卜而丽1 可【幽掣+ 业掣】, 肠响卜再丽1 珂【必掣+ 丛掣】 玩,g 。) 与砌,g 。) 分别对p 1 ,p :,口求偏导,得 掣- 茄壳等【( 1 - p 1 - 0 小枷+ ( 1 - p 2 - 0 脚蝴 a v 丁a r ( 二a ) - 二石兰瓣【( 1 - p 1 - 0 ) ( 1 一 ) + ( 1 - p 2 - 0 ) 九( 1 一九) 】, 1 0 v a r 矿( 二a ) 一石耦匦( 1 - p 1 - 0 ) ( 1 枷协( 1 - - p 2 - 0 ) 九( 1 一捌, 型掣一五r 刁酽2 而p 2 p : ( 1 一 ) + p t 九( 1 一九) 】, 型掣- i r 历f 而2 【p : ( 1 一 ) + p l 九( 1 一九) 】, 旦丝笋- i r 乏炉瓦2 而【p : ( 1 一五) + p l 九( 1 一九) 】 从上面这些式子可以看出玩r g 。) 、玩r g 。) 与参数p 。,p 2 ,0 的关系: 若p l ,p :,则砌,g 。) 与p 撕g 。) 都是关于a 的减函数,关于p :的增函数; 若p 1c p :,p , j v a r g 。) 与玩r g ,) 都是关于p 。的增函数,关于p :的减函数。 砌r g 。) 是关于口的减函数,砌r g 。) 是关于口的增函数,但是目的取值不 宜过大,一般取o 1 - 0 2 之间的值即可。 玩,g 。) 与砌r g 。) 都是栉的减函数,样本容量,l 越大,方差越小。 当1 一矶一0 p ,时,即满足阢+ p ,+ 0 1 ,有砌r cj 1 。v o r 仁b 1 。 电子科技大学硕士学位论文 2 3 2 乃和的贝叶斯估计 在上述石。和石。的极大似然估计中,由于抽出的样本中各种卡片的比例不一定 正好是预先设定的值,所以有时极大似然估计会得出不合逻辑的值,即 p 。圣( 0 ,1 ) ) ,o 或p o b 隹( o ,1 ) ) ,0 ,特别是在样本容量玎不大时更容易出现这种 情况,所以提出死和的贝叶斯估计,仿照文献 3 1 1 的做法, 记嘎l - p ( x - 1 ,y 一1 ) ,石。- p ( x 一1 , y 一0 ) ,石。- p ( x 0 ,y 一1 ) , 石- p ( x - 0 ,y - 0 ) 那么喜轨一1 ,若啊。,啊。,l ,刀南的先验分布为( ,码。,。,耳矗) - d ( o , 。,b 。,o o ,) , 所以而。,啊。,刀h ,的联合密度函数为: ,瓴。巧。焉。,o - 硝铡谢 翔c 嘞坤,z 哟,杰扔一耐, 0 其它 记 1 t p ( z 。一1 z 2 - 1 ) , o - p ( z j l , z :一0 ) ,九。一p ( z 1 - 0 ,z 2 1 ) , a 。一p ( z j o ,z z - 0 ) 则 ,九,k 都是啊。,的线性函数。 若样本为互一( 瓦,z 。) ,样本值为气一( ,z 站) ,k 一1 ,n 。记岛。为样本值 中取值为的个体数,七1 0 ,k o 。,k 。的含义类似,且黑骗;厅,故 i u ,u 啊,石。,刀缸,的后验分布的核为g 瓴。,焉。卜r ! 考丑扩, 记g 。f ,风( 砖砖4 ) d g n d g l d 石o - , 其中t - 瓴l ,玛o ,j ) :吸l + 吗o + ls 1 ) ,刀南- 1 - 啊l 一嘎。一1 则e 魄) 。n ( 4 , 4 4 h 妃力i - , c w 魄,吩,) - e 吩,) 一e ( z r o 皿眈- ,t ) i 专1 强心砖“i d a o a 搿冗n e 缸o e 妊f 一 从而e 帆) 一e 魄。+ 吗。) - e 瓴,) + e 魄。) , e ) - e 瓴。+ 。) 一e 瓴。) + e 瓴。) , v a r ( 石x ) 一v a r o h l + 玛o ) - ( 1 d v o 毛l ,u 1 1 ) + c o v ( u l o ,乃o ) + 2 c o v ( 啊l ,啊o ) , 第二章调查属性敏感性问题的随机化回答模型 v a r ( r b ) tv a r o 毛1 + 刀i 1 ) 一c o v q q l ,码1 ) + c o v ( j r o l ,r l r 0 1 ) + 2 c o v ( :r 1 i ,万0 1 ) 2 4 调查多项选择的敏感性问题的随机化回答模型 在抽样调查中,二值回答( 只需回答“是”或“否”) 的属性特征的敏感性问题 已有多种随机化回答方法,但对多项选择敏感性问题的研究有待进一步完善。多 项选择敏感性问题有一样本和多样本的调查方法,首先介绍一样本调查方法呷1 。 2 4 1 一样本调查方法 多项选择敏感性问题随机化调查采用一样本时,需要一个产生多项结果的随 机化装置。设某一敏感性问题分为t 种互相排斥的类别4 ,4 ,4 ,为了估计 4 ,4 ,4 在总体中所占的比例啊,巩,有放回地抽取一个样本容g r y g n 的简 单随机样本,进行如下的操作:制作m 张大小质地相同的卡片,上面分别标上号码 o , 1 , 2 ,七,写有数字i 的卡片的张数为m ,且这些卡片的总数为m 。把这些卡片 放入一盒子里,混合均匀,让被调查者从盒子中随机抽取一张卡片,读取卡片上 的号码,若他抽到的卡片上的号码为0 ,他须按真实情况回答自己属于4 ,4 ,4 中的哪一类;若他抽到的卡片上的号码为f ( f = 1 , 2 7 0 0 7 七) ,不论他属于哪一类都简 单地回答f 。整个过程都在调查者不在场的情况下进行,调查者只知道回答的数字, 并不知道被调查者属于哪一类,因而对隐私起到了屏蔽作用“。被调查者抽到号 码为0 的卡片的概率为p o m 。m ,抽到号码,的卡片的概率为p ,= m ,m , ( ,- 1 , 2 ,七) ,则被调查者回答数字j 的概率为: 九i p 毋i + p i ,| - 0 , 1 , 2 , ,k 则 乃一( 一p ,) p o 调查结果中有弗,个人回答数字,可以得到石,的一个无偏估计量: 瓮l e 一p 1 ip 、 二的方差为:肠,g ,) 生幽, m n 2 n p o 玩r g ,) 的无偏估计量为:踮r g ,) 一生o 蛐- 1 ) p g 这一操作方法虽然简单,但当样本容量n 不够大时,二,可能为负,解决的办 电子科技大学硕士学位论文 法有: ( 1 ) 用文献【1 0 】中的方法对阼进行估计,若以9 0 的置信度使厅,n 接近p ,得 到,l 的估计值为: 九一( 1 6 5 ) 2 m a x p f 0 一p j ) ( p o 石,) 2 】 ( 2 ) 当二,u 一1 ,2 ,k ) 中的某些值为负时,对二,的负值进行修正,常用的修正 方法是:将二,中的最小值和最大值分别对应于0 和1 做线性映射,再根据约束条件 量二一1 ,得到;的修正值。 可以把该方法转化为对数量敏感性问题的调查,比如,某一个数量敏感性问 题( 比如考试中的作弊次数) 的取值范围为【0 , k 】。设计一个随机化装置:装有若干小 球的盒子,小球上分别写有数字0 ,1 ,2 ,k ,p 。表示写有数字f ( f o a 2 ,七) 的小 球所占的比例,让被调查者从盒子中随机取出一小球,若他抽到的小球上的号码 为0 ,他须按真实情况回答自己的敏感性问题的数值;若他抽到的小球上的号码为 i ( f - 1 , 2 ,七) ,他只须简单地回答i 。n 表示样本容量,以嘎表示样本中具有敏感 性问题的值为i 的人所占的比例,以九表示回答f 的人所占的比例,则有: 一嘎p o + a , i = o a 2 ,k 则 刍,江一p i ) p o 刍的方差为:砌r g ;) - ( 1 一 ) ,瑶 样本中具有敏感性问题的数目为i 的人数矗的估计值为:n l - n 幺 的方差为:v a r ( n 1 ) 一以 ( 1 一 ) p ; 样本中具有敏感性问题特征的均值为:- kf o z a 。 且翰,g ) 。圭f 2 v a ,跏掣k 2 “,霉。 该方法简单且实施方便,但要求部分被调查者真实回答敏感性问题的数字, 有一定的难度,得到的数据准确性不高,于是有下面的改进的随机化调查方法。 2 4 2 改进的随机化方法 假设数量敏感性问题的取值范围为【o ,七】,a ( f o 工2 ,七) 为具有敏感性问题 的值为i 的人在总体中所占的比例,调查时使用一个随机化装置:装有若干小球的 第二章调查属性敏感性问题的随机化回答模型 盒子,小球上分别标有数字o ,1 ,2 ,k ,且p ( 小球的号码为,) = 4 ,( ,一o ,1 , 2 ,七) , 在调查者不在场的情况下,被调查者从盒子里随机取出一个小球,若某人具有敏 感性问题的数目为f ,抽到小球的号码为,则他回答的数字为: 如。0 一( i ,- 一j ;一1 ) ;:;,d 。是由,逆时针方向到z 所需的步数。 假设回答数字f 的概率为红( f 一0 , 1 , 2 ,k ) ,由回答的规则可知口一a p ,其中 b - b o ,岛,6 2 ,玩) 7 ,p 。,p l ,p 2 ,仇) 7 , 隹班恤由 则p 的极大似然估计为:;a 一品。,;,;:,;。) r 。a 。( 鱼,生,生,! 蔓广 n n nn 其中以为样本容量,n i 是回答数字i 的人数。 v a r ( ;o ) 则尸的方差为i 玩7 ,o v a r ( p i ) - 彳- 1 o刍垡二刍2 o 雄 00 oo0 垒垒二生2 o 。1 ) n 若五( f t 0 , 1 , 2 ,七) 中的部分值是负数,则需要进行修正:将区间端点0 和1 分 别逆对应于产生估计值的矩附1 中的最小值历和最大值膨,即盛z :解 出待定常数口和卢,依次计算出口刍+ 卢的值,再根据约束条件圭参- 1 ,即得到置 在区间【o 娜上的修正值 矧。 样本中具有敏感性问题的数目为i 的人数届的估计为:蠢- n ; 囊的方差为:v a r “) - ,l 锄r 6 ;) 则样本中具有敏感性问题特征的均值为:- 圭f ;。 均值:的方差为:v a ,g ) 一v a r ( 圭f ;) - 圭f ,g 。) 改进的方法不要求被调查者准确回答敏感性问题的值,所以它比一样本模型 能更好地保护被调查者的隐私,得到他们的合作,且该方法操作简单,便于实施。 巩彬

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论