(基础数学专业论文)敏感性问题基本模型的探讨.pdf_第1页
(基础数学专业论文)敏感性问题基本模型的探讨.pdf_第2页
(基础数学专业论文)敏感性问题基本模型的探讨.pdf_第3页
(基础数学专业论文)敏感性问题基本模型的探讨.pdf_第4页
(基础数学专业论文)敏感性问题基本模型的探讨.pdf_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 本文在s i m m o n s 模型和随机截尾的s i m m o r l s 模型基础上提出了可自定无关问题比例的 随机装置并模拟可自定的s i m m o n 8 模型、单无关双样本模型和双无关双样本模型,以及可 自定的随机截尾s i m m o n s 模型和随机截尾s i m m o n s 模型,提供进一步研究和探讨的工具, 且进行了均方误差和偏差的比较计算。另外,本文主张在网络中进行敏感性问题的调查,指 出了网络调查敏感性问题的可行性及有效性。 关键词:敏感性问题,随机化回答,随机化装置,w a r n e r 模型,s i m m o n s 模型,随机截 尾模型 a b s t r a c t i nt h i sp a p e r ,w ep r o p o s es o m er a n d o md e v i c e sb a s e do nt h es i m m o n sm o d e la n dt h er a n d o mt r u n c a t e ds i m m o n sm o d e l ,t h a tc a nc o n t r o lt h ep r o p o r t i o n ”o ft h eu n r e l a t e dq u e s t i o n w ea l s os i m u l a t e dac l a s so fs i m m o n sm o d e la n dr a n d o mt r u n c a t e ds i m m o n sm o d e lt h a tw i l l p r o v i d eak i n do ft o o lf o rs o m ep r o g r e s s i v er e s e a r c h ,a n dc o m p a r e dt h em s ea n db i a so ft h e e s t i m a t o r so fm o d e l sw i t ht h a to fp r o p o s e dm o d e l o t h e r w i s e ,w ep r o p o s ea no p i n i o no fn e t i n v e s t i g a t i o nf o rt h es e n s i t i v eq u e s t i o nw i t hi n d i c a t i n gt h ef e a s i b l i t ya n de f f i c i e n c y k e yw o r d s :s e n s i t i v eq u e s t i o n ,r a n d o mr e s p o n d e n t ,r a n d o md e v i c e ,w a r n e rm o d e l s i m m o n sm o d e l ,r a n d o mt r u n c a t e dm o d e l 符号 a a y 亿 7 u 7 r y t a w 7 r a s p p 讲 p s 丌 w 7 r a s 7 r p 。 弘z ( 风) 。 ( 风) c v ( i r a s ) v ( # a w ) m s e ( 眩) d m s e ( 如) t m s e ( 如) 。 b i a s ( 如) d b i a s ( f i = ) 。 b i a s ( i 。、s 符号表 含义 敏感性问题 非敏感性问题 无关问题 样本量 具有敏感性特征a 的人在总体中的比例 无关问题所占的比例 w a r n e t 模型下的7 r a s i m m o n s 模型下的”a 写有敏感性问题的卡片在所有卡片中所占的比例 w a r n e r 模型下的p s i m m o n s 模型下的p ”a w 的无偏估计 ” s 的无偏估计 双无关模型中” 的估训 推荐模型中敏感性特征量数学期望的估计量 随机截尾s i m m o n s 模型中敏感性特征量数学期望的估计量 推荐模型模型中敏感性特征量数学期望的估计量 以s 的方差 以w 的方差 单无关模型的均方误差 推荐模型的均方误差 双无关模型的均方误差 单无关模型的偏差 推荐模型的偏差 双无关模型的偏差 第一章引言 敏感性问题是指具有高度私人或单位机密性问题和大多数人认为不便于向外界公开表态 或陈述的问题。比如,个人或单位是否偷税、漏税,其金额是多少;考生在考试中是否有过作 弊行为;是否曾有过吸毒、赌博、网恋、婚外情;个人的储蓄是多少;是否有过犯罪行为等等。 在通常的情况下,敏感性问题又分为属性特征的敏感性问题和数量特征的敏感性问题。属性 特征的敏感性问题是指被调查者是否具有敏感性问题的特征,一般是估计具有敏感性特征的 人在总体中所占的比例,又称作敏感性比例问题。数量特征的敏感性问题是指被调查者具有 敏感性问题数量多少的特征,也称作敏感性问题均值问题。诸如“考试作弊次数”、“个体户 或企业偷税金额多少”等。 很显然,在现代社会经济现象中或社会生活中,敏感性问题具有客观性和普遍性。不容 质疑,诸如此类的敏感性问题对我国宏观调控和微观决策都是必不可少的信息,是我国现行 统计体系必不可少的组成部分。搞好敏感性问题的调查十分有益,大则可以把握整个社会政 治、经济、生活的脉搏,d , n 可以为搞好企业、机关和学校的各项工作提供信息。因此,若不 进行科学有效的调查和估计,将无法准确、系统、全面地反映总体特征。然而,对于敏感性问 题,在调查中若采用直接提问的方式,被调查者为了保护自己的隐私或出于其他的目的,往 往会拒绝回答或作出不真实的回答。这样,就破坏了调查数据的真实性,而且破坏程度的大 小亦无法衡量。那么,这种直接提问的调查方法在敏感性问题调查面前显然无能为力。 为了得到敏感性问题的可靠的样本数据,有必要采用种科学的、可行的技术。随机化 回答技术( r a n d o m i z e dr e s p o n s et e c h n i q u e 简称为r r t ) 是在1 9 6 5 年美国统计学家w a r n e r 首次提出w a r n e r 模型f 1 1 后才发展起来的。利用这种模型可以在有效地保护被调查者隐私 的前提下得到二项属性敏感性问题的统计数据。 随后,s i m m o n s 2 、g r e e n b e r g 3 4 、r a l p he f 5 1 、n s m a n g a t 6 、a n t h o n yy c k u k 7 等人利用w a r n e r 模型的随机化思想,对w a r n e r 模型进行了改进,s 8 m o o r s 8 1 、j a m e ss w i l l i a m s 9 1 、p t l i u 1 0 ) 、k h p o l l o c k 1 1 】、c h a u d u r i ,a 1 2 】等人进一步研究模型参数的选择 及有效性问题,使之不断得到完善。在国外,这一方法已广泛地应用于社会调查中。近年来, 在国内也受到了重视。为了普及随机化调查方法,孙山泽、孙明举等发表了随机化调查方法 系列文章,综合了属性特征敏感性问题随机化调查方法 1 3 1 4 1 1 1 5 1 6 1 ,提出了数量特征的敏 感性问题的随机截尾模型 1 6 】。顾震寰等人为提高被调查者的合作,在文 1 7 中提出随机截 尾w a i n e r 模型与s i n l m o n s 模型。 由于对同一个目标量,往往可以有若干种不同的r r t 方法,而选择一种好的方法或改 进已有方法的基本准则是既能壤大限度地保护被调查者的隐私,能最大限度地缩小抽样误差, 第一章引言 同时能最大限度地简便易行。本文将在w a r n e r 模型基础上进一步探讨属性特征的s i m i n o n s 模 型类和数量特征的随机截尾s i m m o n s 模型类,推荐一类随机装置,并模拟模型进行比较计算, 为提高随机化回答技术的可行性和有效性提供依据。 2 第二章敏感性问题的基本模型 敏感性问题按总体的特征可分为两类:属性特征的敏感性问题和数量特征的敏感性问题。 本章拟对属性特征的敏感性问题的基本模型进行探讨,讨论w a r n e r 模型、s i m m o n s 模型及改 进的s i m m o n s 模型,推荐可自定无关问题概率的随机装置,并模拟模型进行比较运算。 2 1w a r n e r 模型 、 1 9 6 5 年,美国统计学家w a r n e r 首次设计出一种随机化回答模型一w a r n e r 模型 1 。w a r n e r 模型所涉及的总体是一个简单的二项总体,其设计原则是根据敏感性特征,设计两个相互对 立的问题,让被调查者按预定的概率从中选一个问题回答。调查者无权过问被调查者究竟回 答的是哪一个问题,从而起到为被调查者保密的效果。 1 模型的设计 设总体可分为互不相容的两类:具有敏感性特征的一类a 与不具有敏感性特征的一类万。 也就是总体中的每一个体或者具有敏感性特征( 属于a ) ,或者不具有敏感性特征( 属于万) 。 我们的调查目的就是估计具有敏感性特征( 属于a ) 的人在总体中所占的比例7 r 。比如,调查 者设计一套卡片,卡片外形是相同的。每张卡片上写有问题:“你属于a 吗? ”或“你属于a ? ”。 在所有的卡片中,写有问题a 的概率为p 。,写有问题五的概率为1 一p 。将所有卡片都放入到 一个盒子坐,调查时,被调查者从盒子中任抽取一张卡片,根据卡片上的问题进行回答。回答 完后仍把卡片放回盒子,供其它被调查者使用。在简单有放回抽样下从总体中抽得容量为n 的 一个样本,然后对这n 个样本进行随机化回答调查。 2 参数的估计 设a 是被调查者回答“是”的概率。若所有被调查者的回答都是真实的,则有 a = 7 r a 。+ ( 1 7 r a ) ( 1 一p 。) 如调查中有”a 个人回答“是”,则 = 7 n 是a 的一个无偏估计,而7 r a 的一个无偏估计为: = 击 又一( i - p w ) 以w 的方差为: 7 r a ( 1 7 r n ) 礼 3 p 。( 1 一p 。) n ( 2 p 。一1 ) 2 第二章敏感性问题的基本模型 v ( 亓a w ) 的一个无偏估计为 矿( 开a ) :巡 n 4 型+ 鸳兰(21)1 12 ( n 一) ( p 。一1 ) 2 我们可以看到,在w a r n e r 模型中,m ,不能取1 2 。由( 21 ) 式,右边第一项是直接回答时 估计量的方差,第二项是随机化回答引起的误差增量。因此,采用随机化回答技术推断总体比 例的置信区间一般要比正常比例推断置信区间要大一些 1 8 1 9 1 。p 。= o 或p 。= 1 时,第二项 为零。p 。越接近1 2 ,y ( 扎w ) 的值越大,即方差较大:当p 。比较靠近0 或1 时,v ( c r a w ) 的值就 越小,即方差较小。但另一方面,当比较靠近0 或1 时,对被调查者保护隐私的程度就会越低, 从而使随机化回答的作用降低,增加了收集到真实、正确的数据的困难程度,会降低被调查 者的合作程度,这是我们所不希望的。在很多的文献 2 0 2 1 2 2 2 3 1 ,都提到了的取值问 题,但基本上都倾向于认为p 。一般介于0 7 _ o 8 之间较适宜,当然也应该根据实际问题的敏感 程度适当选取。若所需调查问题的敏感程度较高,则应靠近0 5 ,反之则可向1 靠近 6 【1 4 1 9 。 2 2s i m m o n s 模型 s i m m o n s 模型f 2 1 是w a l t r s i m m o n s 对w a r n e r 模型作了改进提出的。s i m m o n s 认为w a r n e r 的方法虽然比直接提问敏感性问题好,但由于他的两个问题都与敏感性问题有关,这就容易 使得被调查者仍存有戒备心理,不予配合。他在设计中,用无关问题y 代替w a r n e r 模型中 的万。他认为让被调查者从这两个问题中抽出一个问题回答,其中一个问题完全不具有敏感 性,也许被调查者回答的真实性会得到提高。比如调查敏感性问题4 为:“你在考试中作弊了 吗”,w a r n e r 模型中的对立问题j 为:“你在考试中没有作弊吗”。而在s i m m o n s 模型中,对立 问题就被替换为无关问题y ,如:“你是五月份出生的吗”。这样,被调查者就可认为他们的隐 私能得到保护。 下面,我们讨论s i m m o n s 模型及一些改进的s i m m o n s 模型。 1 单样本下i j s i m m o n s 模型 s i m m o n s 针对w a r n e r 模型中鼽。,1 2 的缺陷提出的改进模型,只是用与敏感性无关的问 题代替w a r n e r 模型中对立问题而得。因此,随机化装置设计的还是一套卡片,两类问题。设。 “你属于a 吗”问题卡片所占的比例为p 。,“你属于】7 吗”卡片所占比例为1 一仇。以7 r 表示具 有敏感性特征的人在总体中所占的比例,丌。表示具有无关特征的人在总体中所占的比例且已 知其值。从总体中用放回方法取一个容量为n 的简单随机样本,通过随机化装置回答“是”的 人数为n 。,设a 是被调查者回答“是”的概率。若被调查者的回答都是真实的,d j a 的一个无 第二章敏感性问题的基本模型 偏估计值为五= n 。肪。另一方面,有 a = 7 r a p s + 7 ( y ( 1 一p s ) i = 1 ,2 ,- 一,n 所以,7 r a 的一个无偏估计为: 亓。:生旦二旦扭 p 5 方差为: v ( 扎。) :血型玉坠堡坐业兰删 r i p ; 在s i m m o n s 模型中用与敏感性问题无关的问题代替w a r n e r 模型中的对立问题,且要求无 关问题的比例要事先知道。然而,在实际的应用中,这个无关问题首先在选择上就有一定 的难度,其次,无关问题的比例”。的具体数值一般不是容易获得的,也就是说,在实际调查 中,很难找到合适的无关特征 1 5 1 。 2 双样本下的s i m m o n s 模型 单样本下s i m m o n s 模型中无关问题比例是已知的。g r e e n b e r g 等人为了解决未知情况 提出了以下模型 3 f 1 5 : 制作两套随机化装置,比如两套卡片: 第一套第种:敏感性问题4 ,所占比例p 刚第二种:无关问题y ,所占比例1 一p 小 第二套第种:敏感性问题a ,所占比例p 蹦第二种:无关问题y ,所占比例1 一p 。2 。 通过两套装置回答“是”的概率分别为: a l = p s l 7 v a + ( i p s l ) t o ,a 2 = p s 2 ”a + ( 1 一p s 2 ) 7 r 从总体中独立地取两个有放回的容量为礼。和n 2 的简单随机样本,分别经过两套装置,两个样 本中回答“是”的人数为n a l 和t t a 2 ,则可取a ,和a 2 的无偏估计为: 珏等i ,珏等 nt 坦 于是可得到” 的个无偏估计量 估计量的方差为 y ( 以) 1 ( p s l 一p 。2 ) 2 五1 ( 1 一p 。2 ) 一a 2 ( 1 一p 。1 ) p s l 一p s 2 a l ( 1 一a 1 ) ( 1a 2 ( i a 2 ) ( 1 5 ( 2 2 ) 第二章敏感性问题的基本模型 由” 的估计量表达式可知,这一模型的p 。l p 咖尤其是p 。,和p 。2 不能同时取1 2 。此时 的仇- - 黼 t o 7 0 8 之间即可。若码未知,此双样本模型中还有四个参数p l 、p 2 、n l 、7 2 2 , 可由调查者确定。g r e e m b e r g 在文 4 】中提到,满足 n l _ n 2 时,方差矿( 亓 ) 可取最小值。 g r e e n b e r g 等人曾对p l 、p 2 、n l 、n 2 的选择提出建议【4 卜为了有助于保护被调查者的隐私, 使7 r 。近似等于”a ,而选择p 。l 和p 。2 时,首先在不引起被调查者的疑心的前提下选择p m 比如 决定挑l 大约在0 2 - t - 0 1 或者是在0 8 0 土0 1 附近,然后在p 。2 不f i l b p 。更接近0 或1 的限制下选 # - p 跏使p 。l + p 。2 = 1 。m o o r s 文章 8 中提出p 。2 = 0 ,选择m l 尽可能的大。p 。2 = 0 ,意味着第 二套装置不是随机化装置,是一个直接回答y 的装置,作用只是用来估计的大小。在( 2 2 ) 式中令p 。2 = 0 ,就得至l j m o o r s 模型8 1 方差公式: 。,、【 a l ( 1 一a - ) + ( 1 一p s i ) ”v ( 1 7 r y ) 2 。( t r a ) 一而 一一 即p 2 = o h 寸的方差比限制p l + p 2 = 1 的要小。m o o r 8 还这样解释了这个现象:“尽管p 2 o 时,有助于增) u l 功r 的信息量,从而减小”a 的方差,但是这种精度上的得失不能平衡由于随机 的回答带来的损失”8 。鉴于这种情况本文将在下一节推荐一种新的随机化装置,以弥补以 上两方面存在的问题。在实践中,风l 一般不大于o ,8 5 ,挑2 的取值应根据实际问题的需要,或 者取p 。2 = 0 ,或者取p 。2 尽可能的小。这也就是说明了,在通常情况下,单样本的无关问题方 法要优于双样本无关问题的方法。因此,若不是一定要计算无关问题的概率,计算”a 采用一 个样本的无关问题更好些1 5 1 。 3 双无关问题模型 双无关问题模型 3 】 1 5 是在双样本 s i m m o n s 模型基础上,增加了一个无关问题。与一个 敏感性特征a 相联系,他们考虑了两个无关的非敏感性问题m ,硷。设7 f y ,、7 1 y 2 分别表示m ,蚝在 总体中所占的真实比例。从总体中简单随机有放回地抽取两个相互独立而又互不相交的样本 量为n ,、n 2 的简单随机样本,在每个样本中的被调查者都需要回答两个问题。具体操作如下 表所示: 回答的问题 样本1 样本2 随机化的回答问题a 或问题h 问题a 或问题m 直接回答问题k 问题m 6 第二章敏感性问题的基本模型 在这两个样本中,设被调查者随机选到敏感性问题a 的概率均为p ,用x ( a ? ) 表示第i 个样 本通过随机化回答及直接回答所得到的回答“是”的概率,则有 m = p t f a + ( 1 一p ) 丌y l ,a ;= p t r a + ( 1 一p ) 7 r b ,a j = 7 r 硷,a ! = 7 r y 又设n ;( n ? ) 第i 个样本通过随机化回答及直接回答所得到的回答“是”的人数,令 耻警,耻筹,i = 1 , 2 则,砖,又? 分别是w ,碍的无偏估计。 从而” 的两个无偏估计: 砖一( 1 一p ) 翘 p亓a ( 2 ) - - 牮 在实际应用中,经常使用优化后使得方差最小的”盈1 ) 和”盈。) 的线性组合,作为”一的无偏 估计 1 5 】。 即最优线性无偏估计为: 骨a f = u 嘶) + ( 1 一u ) ) 其中u = i 再0 - 2 2 而- - o - 1 2 口】1 和。2 2 分别表示以( 1 ) ,e r a ( 2 ) 的方差, 。1 2 是它们的协方差。此估计的方差为: v ( 亓a f ) ( 7 1 1 0 - 2 2 一o i 2 ( 7 1 1 + 0 - 2 2 2 。1 2 在实践中要首先得到a ,o :,o - 1 2 的估计。实际上,用相应的调查结果的样本比例分别 代替碍,碍和”k ,从而可以得到7 r 的一个估计量 其中 u= ( 5 1 1 = 0 2 2 = ( 7 1 2 = 盯 p p 0 2 2 一盯1 1 + a 2 2 2 5 - ,n ( 1 一m ) 。n 1 1 ,码( 1 一a ;) 。礼。一1 ( 1 一p 2 ) 砖( 1 一起) n 2 1 。 ( 1 一p z ) 裾( 1 一 ) 、 二二二:2 二l n 1 1 1 ( 1 - p 驴。c 毪? + 毪竽, 7 第二章敏感性问题的基本模型 实际应用中,可用扎尸- 作为”a 估计量。虽然以f + 不是无偏的,但它却具有较好的大样本 性质。 经过改进的s i m m o n s 模型,较好地解决了n 未知的情况。尤其双无关模型,去除了单无 关模型中p 。,和p 。:不能相等,更不能等于l 2 的限制。但是它需要选择两个无关问题,抽取两 个样本。 下面我们将推荐种可自定”。的、简便易行的s i m m o n s 模型。 2 3 可自定码| ! t l j s i m m o n s 模型 由前一节我们知道,s i m m o n s 模型从保护被调查者隐私的角度上改进了w a r n e r 模型。但 是s i m m o n s 模型中已知其比例凡的现实问题并不是容易找得到的。因此,g r e e n b e r g 等许多学 者l a i n 相继提出了解决未知7 r 。的问题的s i m m o n s 模型:单无关双样本模型、双无关双样本模 型等。 下面,我们推荐可自定”。的随机化装置模型。设计如下: 采用两套装置,装置1 和装置2 。例如有两个箱子,里面各装有形状完全相同而两种颜色 不同的小球,设有红色球和白色球。所有的被调查者首先经过装置1 ,抽到红色球,其比例为p , 回答敏感性问题:“你属于a 吗? ”;抽到白色球,其比例为1 一p ,再经过装置2 ,其中白色球的 比例为,回答“是白色球吗? ”。 通过这套装置,我们可以根据问题的需要,调节装置2 中红、白两种颜色小球的比例,这 也就是直截调节了砜的大小,省去了估计,这无论是对于调查者还是被调查者都是有益的。 以上随机化装置解决了s i m m o n s 模型中无关问题,且比例”。是已知的。因此本章第一节 中”a 估计量及其方差的表达式都适用。 s i m m o n s 模型中” 的估计量钆的方差y ( 扎) 。可写成 1111 v ( 扎) s = 1 ,l 。( 以) s + 嘉( 1 一p ) ( i 一”,) 刚”a i ) 一( 1 一p ) ( i 一码) 其中,v 1 2 ( c r , a ) 。是= ;时亓a 的方差。由第二项,当7 r a 小$ 1 2 f 1 也小于1 2 时,此项小于 零;当” 大于l 2 且也大于1 2 时,此项也小于零。因此经调节码值在一定程度上可提高估 计的有效性。 8 第二章敏感性问题的基本模型 2 4 模型的模拟及比较运算 为进一步揭示模型之间的差异,本节我们模拟 2 4 s i m m o n s 模型( 7 r 。己知) 、单无关双样 本s i m m o n s 模型( 简称单无关模型) 及双无关双样本s i m m o n s 模型( 简称双无关模型) ,并计算7 r a 的估计量及均方误差进行比较运算。因为前两种模型可以从双无关模型模拟过程得到,所以 我们主要讨论双无关模型的模拟,然后进行一些比较运算。 1 双无关问题模型的模拟 为进行双无关模型的模拟,假设特征a 、k 、硷真正“无关”。记a ,0 = 1 ,2 ) 为两个问题 都回答“是”的概率,7 r a m 表示总体中既属于a 又属于k 0 = 1 ,2 ) 的人的真实比例,7 r h y 。表示 总体中既属于k 又属于硷的人的真实比例。令 i 1 , 具有a f1 , 具有y l j l ,具有y 2 磊2 10 ,不具有a x 2 2 10 ,不具有y l 。 0 ,不具有y 2 则可把总体分为2 3 = 8 类: “具有a ,具有h ,具有蚝”:“具有a 具有m ,不具有k ;“具有a ,不具有m ,具有m ”; “具有a ,不具有h ,不具有m ”;“不具有a ,具有k ,具有蚝”;“不具有a ,具有h ,不具 有k ”;“具有a ,不具有k ,具有k ”:“具有a ,不具有k ,不具有”。 用z = 向1 ,0 2 ,姐) 表示为: ( 1 ,1 ,1 ) ,( 1 ,1 ,o ) ,( 1 ,0 ,1 ) ,( 1 ,0 ,0 ) ,( 0 ,1 ,1 ) ,( o ,1 ,o ) ,( 0 ,0 ,1 ) ,( o ,0 ,0 ) 。 因为a 、】,、蚝无关,所以有 a r d = p t r n + ( 1 一p ) 7 r y ly 2 a = p r r ay l + ( 1 一p ) 7 r y l n ( p 丌a + ( 1 ( 卵a + ( 1 p ) h ) 7 r k = a :- a ! , 一p ) 7 r m ) ”n = a ;a ; 于是口1 2 = 0 。若有丌m = ”y 2 ,则更好( 礼1 = n 2 ) 。但这个要求不符合实际,或者说很难选 择m 、k 。根据以上讨论,对双无关问题模型进行模拟的算法如下: ( 1 ) 给定p 、 ( 较小) 、”y 1 、丌y 2 ( 接近o ,5 ) 、n l 和n 2 : ( 2 ) 计算 p l p 3 r p 7 1 ,1 , 1 ,0 , 0 ,1 , o o 7 f a7 i q7 1 y 2 ,p 2 u a ( 1 一”y 1 ) 7 r b ,t 4 ( 1 7 r a ) t r y lt r y 2 , p 6 ( 1 7 r j 4 ) ( 1 7 1 - y ,) 丌蚝,p 8 1 , 1 , 0 , 0 , = 7 y a t ( y l ( 1 一”硷) , = ,t a ( 1 7 i y 1 ) ( 1 一”k ) = ( 1 一w a ) ”h ( 1 7 r k ) = ( 1 7 c a ) ( 1 7 r , q ) r c n 9 第二章敏感性问题的基本模型 1 0 ( 3 ) 用不等概抽样的代码法产生礼,个z ( 1 ) ,记为z ! ”,i = 1 ,2 ,n 1 ,且对每个z “,独立 产生。一1 分布随机变量皤“,使只( 叫1 = 1 ) = p 。产生n 2 个z ( 2 ) ,记为z 5 扪, i = 1 ,2 ,n 2 , 且对每个z ! ”,独立产生。一1 分布随机变量叫”,使p r ( 讲2 = 1 ) = p ; ( 4 ) 记 耐”) 】 珥2 ) z 掣 佗! ,= z 窭 贝0 有,a ;= n r l 礼l ,a ? = n 蠹佗1 i = 1 ,2 ; ( 5 ) 计算以及其方差的估计值。 2 模型的比较运算的模拟过程 下面将进行推荐模型与单无关模型和双无关模型的模拟比较运算【2 4 卜 记九li = 1 ,2 ,为单无关模型第i 个样本回答“是”的概率,a 2i = 1 ,2 ,为双无关模型 第i 个样本随机化回答“是”的概率,a i di = 1 ,2 ,为双无关模型中第i 个样本直接回答“是” 的概率,a 磐为双无关问题模型中第i 个样本随机化回答和直接回答都是“是”的概率。 比较运算算法如下: ( 1 ) 给定p ,p l ,p 2 ( p l p 2 ) ,7 r a ( 较小) ,丌h ,”址( 接近o 5 ) ,n ,t t l ,n 2 ; ( 2 ) 如同前面双无关模型模拟算法( 2 ) 步: ( 3 ) 用不等概抽样的代码法产生n 。个z ( 1 ) ,记为z :”,i = l ,2 ,n 1 ,且对每个z :u 独立地 产生。一1 分布随机变量“矧、u u :o ) 及五,使p r ( “矧= 1 ) = p ,p r ( 越1 ) = 1 ) = p l ,p r ( z 。= 1 ) = ; 用代码法产生与z ( 1 ) 独立的礼2 个z ( 2 ) ,记为z :”,i = 1 ,2 ,n 2 ,对每个z 独立产生。一1 分 布随机变量札,使p r ( u = 1 ) = p 2 : l 汜 z+ 叭。 j m 口 q 2 3 z + 呱 z m 伽 第二章敏感性问题的基本模型 ( 4 ) 记 则 n = n o 。 蝌u + 。级1 鲫札挲+ z 趴1 一“纳 i = 1 。鼽5 q + z 趴1 一“| 1 ) ) z 5 j t = 1 n 2 簖“5 2 + z 级1 一u 1 2 ) ) 】z 婴 扛= 1 n 1 e r ( 1 ) + ( 1 一u ;) 盈】, z 掣 。尝 z = 1 耻篆,耻薏d ,廿= 等,天= 石n o ,i = 1 , 2 1 1 ( 5 ) 计算亓a ,亓a z ,钆f 及其均方误差。 3 比较计算及讨论 我们模拟计算了属性特征敏感性问题比例”a = 0 0 1 、0 1 、0 4 时,单无关双样本模型、 推荐模型及双无关模型的均方误差m s 玩、m s e 、m s 毋和偏差b i a s d 、b i a s t 、b i a s 。以下 表1 一表3 是n l = n 2 = n = 5 0 ,p l = 07 、p 2 = 0 3 ,7 r v l = 0 4 5 、7 r y 2 = o 5 5 5 j 情况。 第二章敏感性问题的基本模型 表l ”a = o 0 1 0 20 3040 50 20 30 4 0 5 m s 玩 0 0 0 4 2 0 0 0 6 8 o 0 1 0 5 0 0 1 2 2 b i a s a 0 0 2 9 800 2 6 00 ,0 3 2 7 0 0 3 0 8 p m s e t 0 0 2 3 00 0 2 2 60 0 3 8 500 4 5 3 b i a s 0 0 2 11 0 0 1 4 40 0 0 5 60 0 2 3 3 0 3 m s e s0 1 1 6 70 1 1 6 7 0 1 1 6 7 0 1 1 6 7b i a s s 0 2 8 5 40 2 8 5 4 0 2 8 5 4 0 2 8 5 4 m s e t 0 0 1 0 00 0 0 8 9 0 0 1 4 3 0 0 1 2 6 b i a s 0 0 1 9 30 0 1 4 00 0 1 0 00 0 0 3 3 0 5 m s e 。 00 2 5 60 0 2 5 6 0 0 2 5 6 0 0 2 5 6 b i a s s 0 1 2 5 9 0 1 2 5 9 0 1 2 5 9 0 1 2 5 9 m s 日 0 0 0 3 50 0 0 2 70 0 0 4 4 0 ,0 0 3 5 b i a s t 0 0 1 1 90 0 0 8 10 0 0 1 40 0 0 4 3 o 7 m s e s0 0 0 5 10 0 0 5 1 0 0 0 5 10 0 0 5 1 b i a s s 0 0 4 8 80 0 4 8 8 0 0 4 8 80 0 4 8 8 m s e t0 0 0 0 80 0 0 0 70 0 0 0 8 0 0 0 0 9b i a s f0 0 0 7 8 0 0 0 1 9 0 0 0 2 6 0 0 0 2 6 0 9 m s e s0 0 0 0 70 0 0 0 70 0 0 0 7 0 0 0 0 7b i a s 。 0 0 1 8 20 0 1 8 20 0 1 8 2 0 0 1 8 2 表27 1 - a = 0 1 0 20 304o 50 2o 30 40 5 m s e d 0 0 0 8 5 0 ,0 1 0 50 0 11 60 0 1 2 1 b i a s a 0 0 1 3 0 0 0 1 8 7 0 0 2 7 3 0 0 2 2 7 p m s e t0 0 2 4 8 0 0 2 6 5 0 0 3 9 60 0 4 3 3b i a s t0 0 4 4 4 0 0 3 7 8 0 0 2 8 90 0 0 0 0 0 3 m s e 。0 0 7 9 1 0 0 7 9 10 0 7 9 1 0 0 7 9 1 b i a s s 0 2 4 1 20 2 4 1 2 0 2 4 1 2 0 2 4 1 2 m s e t 0 0 1 3 50 0 1 2 70 0 1 6 60 0 1 4 1b i a s t0 0 2 6 7 0 0 2 1 3 0 0 1 7 30 0 1 0 7 0 5 m s e s o 0 1 7 4 0 0 1 7 400 1 7 40 0 1 7 4 b i a s s 0 1 0 6 00 1 0 6 001 0 6 00 1 0 6 0 m s e +0 0 0 6 700 0 6 00 0 0 8 00 0 0 5 9 b i a s t 0 0 1 9 00 0 1 5 20 0 0 8 6 0 0 0 2 9 o7 m s e :0 0 0 5 50 0 0 5 500 0 5 50 0 0 5 5 b i a s s 0 ,0 4 1 4o 0 4 1 40 0 4 1 4 0 0 4 1 4 m s e t0 0 0 3 2 0 0 0 3 1 00 0 3 30 0 0 3 0 b i a s t0 0 1 6 30 0 1 0 4 0 0 1 1 1 0 0 1 1 1 o 9 m s e 。 0 0 0 1 8 0 0 0 1 80 0 0 1 800 0 1 8 b i a s s 0 0 1 5 60 0 1 5 60 0 1 5 6 0 0 1 5 6 1 2 第二章敏感性问题的基本模型 表3 ” = o 4 1 1 1 1 0 20 30 4 0 5 0 20 30 40 5 m s e d0 0 1 3 1 0 0 1 4 30 0 1 5 1 0 0 1 5 8 b i a s d0 0 2 6 80 0 2 3 0 0 0 2 2 7 0 0 4 0 8 p m s e to 0 3 4 80 0 3 3 7 0 0 2 9 9 0 0 2 8 4b i a s 0 0 6 4 4 o 0 5 7 8 0 0 4 8 9 0 0 2 0 0 o 3 m s e s0 0 9 0 40 0 9 0 4 0 0 9 0 4 0 0 9 0 4b i a s s0 2 3 6 00 2 3 6 0 0 2 3 6 0 0 2 3 6 0 m s b0 0 2 1 80 0 1 8 6 0 0 1 7 1 0 0 1 3 8b i a s f00 2 6 70 0 2 1 30 0 1 7 300 1 0 7 0 5 m s e0 0 2 0 40 0 2 0 4 0 0 2 0 4 0 0 2 0 4b i a s s0 0 9 2 1 0 0 9 2 1 0 0 9 2 1 0 0 9 2 1 m s e t0 0 1 3 20 0 1 1 7 0 0 1 1 9 0 0 1 0 3b i a s t0 0 1 7 10 0 1 3 3 0 0 0 6 7 0 0 0 1 0 0 7 m s e s0 0 0 7 10 0 0 7 10 0 0 7 1 0 0 0 7 1b i a s 50 0 3 2 1 0 0 3 2 1 0 0 3 2 1 0 0 3 2 1 m s 岛 0 0 0 6 80 0 0 6 5 0 0 0 6 6 0 0 0 6 4 b i a s 0 0 1 1 9 0 0 0 5 9 0 0 0 6 7 0 0 0 6 7 0 9 m s e a0 0 0 2 70 0 0 2 70 0 0 2 7 0 0 0 2 7b i a s 50 0 0 6 3 0 0 0 6 3 0 0 0 6 3 0 0 0 6 3 1 3 由表有以下结果: 1 、7 r = 0 叭时 ( 1 ) p = 0 3 和0 5 时,单无关模型的均方误差最小,推荐模型的偏差最小; f 2 ) p = 0 7 时,推荐模型的均方误差最小,此时的偏差也最小; f 3 ) p = 0 9 时,双无关模型均方误差最小,推荐模型的均方误差与双无关模型的均方误差相差 很小( 小于0 0 0 0 2 ) ,推荐模型的偏差最小。 2 、f r a = o 1 时 ( 1 ) p = 0 3 时,单无关模型均方误差最小,偏差在n = 0 2 、0 3 及o 4 时最小,= 0 5 时推荐 模型偏差最小; ( 2 ) p = o 5 时,单无关模型均方误差最小,在码= o 2 、0 3 时偏差也最小,= 0 4 和0 5 时推 荐模型偏差最小。推荐模型的均方误差与单无关模型均方误差相差较小( 小于0 0 5 ) ; f 3 ) p = o 7 和0 9 时,双无关模型均方误差最小,但此时的偏差较大;推荐模型与双无关模型的 均方误差相差小于0 0 0 0 1 2 ,且推荐模型在7 r 。= 0 3 、0 4 、0 5 时的偏差最小。 3 、” = 0 4 时 ( 1 ) p = 0 3 及p = 0 5 时,单无关模型的均方误差均为最小,p = 0 3 时偏差也最小,p = 0 5 时, 推荐模型的偏差最小; ( 2 ) p = 0 7 及0 9 时,双无关模型的均方误差均最小,此时推荐模型与双无关模型相差很小( 小 于0 0 0 7 ) ,推荐模型的偏差最小。 第二章敏感性问题的基本模型 4 、随着p 的增大,推荐模型与双无关模型的均方误差及偏差都在减小。 5 、随着”a 的增大,三个模型的均方误差及偏差普遍有所增大。 1 4 第三章随机截尾模型 在这一章中,我们主要讨论数量特征敏感性问题的随机截尾模型 1 6 1 。由于在调查特定 人群中敏感性问题的数量特征的过程中,需要每位被调查者根据自身情况回答问题的准确数 目,容易引起被调查者的怀疑而降低合作系数,增加了调查的难度。随机截尾模型避免了直接 回答敏感性问题或非敏感性问题的具体数值,在某种程度上激发了被调查者的合作愿望。但 是随机截尾模型并不是一种真正的随机化回答方法,还不能很有效地保护被调查者的隐私。 随机截尾w a r n e r 模型和s i m m o n s 模型1 7 1 ,在保留随机截尾模型优点的同时,可进一步提高被 调查者的合作程度。我们在讨论这些模型的基础上推荐推广的随机截尾s i m m o n s 模型,并比 较它与之前装置。 3 1 随机截尾模型 1 模型的设计 设敏感性问题特征量为x ,其取值范围为陋,a + t ,密度函数为f ( x ) 。我们调查的目的就 是要估计敏感性特征量x 的数学期望如的大小。在调查时用一个装置产生【o ,a + t l 上掣j 均匀 分布的随机变量y ,l ,与x 独立。在实际调查中,这一装置可以是一套一定数目的卡片,每张 卡片上都有一个数字,这些数字在规定的取值范围内的分布是均匀的。例如,在调查大学生网 恋次数时,若取值的范围是0 ,3 1 ,则我们可以使用共计4 张的一套卡片,每张卡片e 分别标上 数字0 ,1 ,2 ,3 2 _ 一。调查时被调查者i 随意抽取一张卡片,将卡片上的数值k 与自身的敏感性 问题特征量的数值五比较。若五回答1 ;若置 k ,回答o 。以上过程是被凋查者自身 操作的,调查者不参与,只能得到数字0 或l ,并不知道置与m 的值,因而能保护被调查者的隐 私,从而提高被调查者的合作程度。 2 参数的估计 设样本容量为n ,从第i 人调查所得到数据为民,i = 1 ,2 ,n , 则 。 此时,6 。的期望为 文= : 若x i2y 若x ; m 这种敏感度较高的情况,因而 会使被调查者的合作程度降低,给出与实际情况不相符的回答,对提高被调查者的合作程度 还是不够乐观。顾震寰等人f 1 8 在随机截尾模型中纳入w a r n e r 思想和s i m m o n s 思想,得到了随 机截尾w a r n e r 模型和随机截尾s i m m o n s 模型。 1 随机截尾w a r n e r 模型 随机截尾w a r n e r 模型在随机截尾模型的基础上,在模型中增加了一个随机化装置,比 如一个装有红色卡片和白色卡片的盒子。两种颜色的卡片以p :1 一p 的比例混合均匀,其 中0 p 1 。在进行调查时,每个被调查者仍然首先从前一节提到的装有数字卡片的盒子中 抽取一张卡片,再从装有红,白卡片的盒子中抽取一张卡片。如果抽到红色卡片,仍然按照随 机截尾模型中相同的方法回答;如果抽到白色卡片,则按照下面的方法回答:如果托k ,回 答0 :如果五 k ,回答1 ,即对立问题的回答值为1 。因此,无论被调查者的回答值是1 还是0 , 调查者都无法知道他回答的是哪个问题或哪个范围,从而有效地保护了被调查者的隐私。 1 6 第三章随机截尾模型 设样本容量为m 第i 个被调查者的回答值是,i = 1 ,2 ,n ,则 仉= r “拯妞色且k 型磊抽到舱且x “x ” 于是有 e ( 饥) = p ( i = 1 ) = p p ( x , k ) + ( 1 一p ) 1 一p ( 。砭2k ) :堕型掣+ l p 以样本均值了估计e ( 吼) ,得到地的无偏估计: ( 风)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论