已阅读5页,还剩42页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
学位论文独创性声明 本人所呈交的学位论文是我在导师的指导下进行的研究工作及取得的研究 成果。精我所知,除文中已经浊明引用的内容外,本论文不包含其他个人已经 发表或撰写过魏瞬究藏慕。对本文戆磺究彀塞黧要贡献的个人和集俸,缘已在 文中传了竣确说明并表示谴 意。 作者签名:越竖幺! 竺岁 学位论文使用授权声明 本人宠垒了解华东师范大学有关保留,使用学位论文的规定,学校穰权保瞽学位论文 并淘莓家主管部门躐其指定视褐送交论文的电子版乖纸质版。有权将学位论文用于菲赢利 目的的少爨复制并允许论文进入学校图书馆被套阅。有权将学位论文的内容编入橱关数据 蓐遴行检索。有教将学位论文曲标题和摘要汇编出箴保密的学位论文谯解密后适用本规 定- , 学位论文作者签名:彩珍w 弓 导师籀名:葛脚_ 1 日期:川7 卯, 日期:卯够,p , 摘要 在对敏感性问题的调查中,为了获得真实的数据,并较好地保护个人的 稳襁,1 9 6 5 年w a r n e r 蓄次提窭了敏感瞧润题翡耱壤毒乏强答模登。之后, s i m m o n s ( 1 9 6 7 ) ,m o o r s ( 1 9 7 1 ) ,g r e e n b e r g ( 1 9 7 3 ) 以及p a d m a w a r ( 2 0 0 0 ) 努弼对w a r n e r 豹模鍪进行了改逶。本文豹第一部分,我磊j 耱出了一释w a r n e r 的随机化回答模型的改进模型。进步研究了随机化回答模型,验证了新模 型下的无偏估计比w a r n e r 和s i m m o n s 的模型估计疆为有效。同时,还研究 了所提模型在分层抽样和熬群抽样中的应用。此外,我们述提出了一秘擦伤 简单的具有多项选择的随机化回答模型以及另一种用于同时调查多个敏感性 目遂的随撬化模型。 本文的第二部分,提出了一种单样本情形下的改进的随机化回答方法, 建立了瑟模銎,绘爨了搂黧静无镳嚣诗,纛镳嫠诗豹方差藏方差戆冤镳话诗, 验证了改进的调查方法比p a d m a w a r 等人掇出的方法具有更高的精度。同时, 我们还研究了所撬模型在分层籀榉和整群捅样中静应霜。撩后,我稍研究了 这一方法在双样本无关随机化回答问题中的推广,并讨论了些相关性质。 关键逶:敏感性阕越;随机优露签;分层撼榉;螯鼗麓榉;模型。 2 a b s t r a c t t h er a n d o m i z e d r e s p o n s e ( r r ) m o d e lw a sf i r s ti n t r o d u c e d b y w a r n e r ( 1 9 6 5 ) ,i no r d e rt o o b t a i nt r u s t w o r t h yd a t aa n dp r o t e c tt h ep r i v a c yo f r e s p o n s eo ns e n s i t i v em a t t e r s s o m ei m p r o v e m e n t so fw a m e r sm o d e la r ed u et o s i m m o n s ( 1 9 6 7 ) ,m o o r s ( 1 9 7 1 ) ,g r e e n b e r g ( 1 9 7 3 ) a n dp a d m a w a r ( 2 0 0 0 ) i nt h e f i r s tp a r to ft h ep a p e r , a l li m p r o v e m e n to fw a r n e r sr rm o d e li sp r o p o s e d w e s t u d yt h er rm o d e lf u r t h e r , a n di ti ss h o w nt h a tt h eu n b i a s e de s t i m a t o r sb a s e do n t h ep r o p o s e dm o d e la r em o r ee f f i c i e n tt h a nt h ew a r n e r sa n ds i m m o n s s t h e n , w es t u d ys o m eu s e so ft h eg i v e nm o d e lu n d e rs t r a t i f i e ds a m p l i n ga n dc l u s t e r s a m p l i n gi nt h i sp a r t as i m p l er r m o d e li nw h i c ht h es e n s i t i v eq u e s t i o nh a v e m u l t i p l ec h o i c e sm a da n o t h e rr rm o d e lo fs u r v e y i n gm o r es e n s i t i v eq u e s t i o n s c o n c u r r e n t l ya r ea l s og i v e n i nt h es e c o n dp a r to ft h ep a p e r , a ni m p r o v e m e n tr rm e t h o dw i t has i n g l e s a m p l ei sp r o p o s e d w eg i v ean e wr a n d o m i z e dr e s p o n s e ( r r ) m o d e l ,i nt h i s m o d e l ,e x p r e s s i o n sf o r t h e e s t i m a t o ro ft h ep o p u l a t i o nm e a n ,v a r i a n c ea n d u n b i a s e de s t i m a t o rf o rt h ev a r i a n t eh a v eb e e np r o v i d e d ,a n di ti ss h o w nt h a tt h e u n b i a s e de s t i m a t o r sb a s e do nt h ep r o p o s e dm o d e la r em o r ee m c i e n tt h a n p a d m a w a r k s t h e nt h em o d e li su s e du n d e rt h es t r a t i f i e ds a m p l i n ga n dc l u s t e r s a m p l i n g w es t u d ys o m ee x t e n s i o n so ft h em e t h o du n d e r t h ed o u b l es a m p l i n g a n du n r e l a t e dr a n d o m i z e dr e s p o n s eq u e s t i o na n ds o m er e l a t e d p r o p e r t i e sa r e d j s c u s s e da t1 a s t k e y w o r d s :s e n s i t i v em a t t e r s ;r a n d o m i z e dr e s p o n s e ;c l u s t e rs a m p l i n g ;s t r a t i f i e ds a m p l i n g ; m o d e l 3 敏媒性问题的随机化回答模型 第一章绪论 接样调套是一耱 # 全覆潺套,蹩钛调查瓣象戆戆髂中淹橇擒取部分样本进 行观察,并依据所获得的数据对总体的数量特征作出具有一定可靠性的估计判 断,从丽这劐对总体豹认谖。在抽样调鸯中存在两种影响耩瘫的误熬:抽样误差 和非抽样误差。抽样误差是由抽样方法本身引起的,是不可避免的。但在采用随 机抽样调查时,可以通过样本得到信计。非抽样误差是由于样本单元的指标i 旗没 有被计量或德到错误的计量傻两造成艇,其误差的大小无法髂诗。特别是当我们 调查一些涉及政治态度或个人隐私等敏感性问题时,调查者往往不太愿意回答或 拒绝隧答,旗至馋爨镶误赘霾答。敏感性淘运是撑搬揍、维织或令人由予经济、 安全、形象等原因不宜或拒绝让外部知晓的问题,如政府机秘、企业商务秘密、 个入稳私等。敏感戆淹蘧分为属瞧特徭静敏感往润戆帮数量特薤鹭敏感往| ;鼋_ 嚣。 属性特征的敏感性问题是指被调查者是否具有敏感蚀问题的特征,一般是估计具 有菜释敏感往特征的入在总体中所占的t e 铡,也称为敏感性院例溷躲;数量特征 的敏感性问灏是指被调查者具有敏感性问题数额的多少特征,一般是估计敏感性 的均值或总和,也称为敏感性均值问题。敏感性问题一般具商隐秘性和可变性的 特点,用般蛉调查技术难以获褥寄效的数掇资辩,这样羞暴瘸壹接调褒的方法, 调查者将得不到可靠的样本数据,就无法作出可靠的推断,就会产生无法控制的 l 弦样误蓑。嚣筵磺究敏感魏阂嚣懿撞群调鲞方法燕摄寿必蚕瓣,鬻热舞获褥霹 靠的样本信恩是研究敏感性问题抽样调查方法的关键,处理敏感性问题的核心不 在予设计过分复杂静穰壅,褥在手逡瑶有效豹方法滔除祓璃鸯者静掇愧与藏虑, 达到提高调畿数据可靠性的目的。 在当今的社会缀济等多种抽样调查中,经常会i 瑕到各种各样的敏感性问题, 由予敏感性问题的隐秘性特点,决定了此类问题被调查者一般不愿意让外人知 情。为了使被调查者无后顾之忧地给出真实的回答,又能保护其个人隐私,1 9 6 5 年w a r n e r 掇出了敏感牲阀越豹睫穰化霾答调查穷法( 霓【l 】) 。睫捉化睡答是撵在 调查中使用特定的随机化裟鼹,使得被调查以预定的概率p 来回答敏感性问题, 这一技术翳窳鏊是羧大羧度穗菇技落套者缣守秘密,获磊取褥被调凌者戆嚣经, 敏麟性问题的随机化回答模型 到数量特征的研究( 见【1 0 】) ;从研究两项选择的敏感性间题发展到多项选择的 敏感性问题( 见【1 1 】、f 1 2 】) ;从调查一个敏艨性问趱发展到间时调畿多个敏膊性 问题的研究( 见 1 3 1 ) ;从辩随机化回答调瓷法的未知参数髅计的吉典方法发震 到吼叶斯方法( 见 1 4 1 ) ;随机抽样的方法也从简单有放回和无放回的抽样发展 到分崖接群方式翻懿嚣撞群方式( 爨 1 5 1 ) 。 敏感性问题的随机化回铸模型熄为了保护被调焱者的隐私,以取得被调铤者 熬真诚合徉褥采取懿一静统计蔹术。对于阖一夺霜栋量,往经可酸建立若干摹孛不 同的模型,而每一种模型的估计量殿其性质都不一定相同,哪一种模裂是比较理 想的程? 根据抽样调查的理论,我们认为随机纯回答模型一般应符合以下的条 件:茸先能最大限度地保护被调查者的隐私,对被调焱者的隐私的保护程度越离, 被调查者的合作程度就越高,取得的调查数据就越真实,否则,被调查者就套拒 绝隧答或作如错误的强答,从瑟,增大由镫谖信息孳l 起的误箍,在巍建立鳃艇掇 化回答模型中,应尽量使被调查者对所提问题回答“是”或“否”的概率基本相 同,以镬竣调套者谈必调查袭款菝调套者浆潮答中攥溺被谖凌者昊套袋不具窍菜 种敏感性特征的概率接近于1 2 ,从而,消除了被调查者的顾虑;其次估计缀应 其有较小静谟差。对予陡瓿纯罄答模型,擒梯误差怒不可避免煞,毯对予嗣一个 目标照,在样本容量相同的条件下,使用不同的模型会产生不同的抽样误差,抽 样谈差越少,估计的精度也就越高,调查才肖实际意义;最后,建立的随机他回 答模型要简便易行,模型越籀单,实旌越方便,工作爨戟越少,调蚕的费用就越 少,同时,也易于取得被调纛者的合作,避免回答差错。在建立随机化回答模型 露,我们应蓠先考虑保护被诞蠢者的戆毯,淤除被谈囊者豹颇虑,鸯瓣甚至宁愿 牺牲某些精度来换取被调查糟的配合,只有这样,被调查者才会作出真实的回答, 调套者取褥戆数据右可靠。 本文第一章讨论了属性特征的敏感性问题的随机化调查方法,由于w a r n e r 模鍪察s i m m o n s 模溅都存在一些不足之处,本文针对s i m m o n s 模燮弓i 入静无关 问题y 的分布未知的情况,茵先提出了一种两次摸球的随机化回答模型,研究了 新模鬻的估计量及其性质,并将新模溅与w a m e r 模型和s i m m o n s 模澎相比较,新 模型更能取樗被调查的信任,不仅操作褥单,两且具有准确蚀及更糍豹效率;其 次讨论了两次摸球随机化回答模型在分层抽样方式和整群抽样方式下的参数估 敏感性问题的随机化回答模型 该方法是设鼹一随机化装置,让被调查者根据随机化结果回锋其中的一个越题。 如调查某校学生的作弊率,向被调查者提出两个问磁: 问题1 :依在考试中馋遭弊吗? 问题2 :你从未在考试中作过弊吗? 鞍调查砉睫糠接取一个翊嚣强答,调查员不知道每令人其钵强答戆怒暌令瓣蘧, 但回答问题1 的人占的比例p 是事先确定的。当被调查者抽剡的问题与自己的情 况一致薅,戮答“楚”;籀爱瓣鼙答“否”,调查者只躲遴最螽酶露警结采,扶蘑 起到了为被调查者保密的效果。 由于在w a r n e r 的方法中所提韵两个闯题都具有敏感性特征,被调查者可能 仍存贼心,不予配台,而且回答问题1 的被调查者占的比例不能为1 2 。因此, 统计学家在w a r n e r 模型的基础上提出了许多随机化回答调查方法,1 9 6 7 年 s i m m o n s 提出了用无关闯题y 去替代w a r n e r 模型中豹对立阙题,搜被调查密戆 合作态度有了明显改酱( 见【2 】) 。但是无关问题y 发嫩的概率p ,是待定的,p 。的 佶计量a 的估计偏误会弓i 怒敏感性闯题所占的比例硝。的估计量丸豹估计偷误, 导致慈的误差增大;1 9 6 9 年g r e e n b e r g 提出了数量特,蹑敏感瞧阗题黪无关阉题睫 机化回答方法( 见 3 】) ;1 9 7 1 年m o o r s 针对具有两项选择的敏感性问题提出了 双撵本涟秘纯霞答模鍪( 冤f 4 】) ,麸蕊体中擒辍鼹令糕嚣独立戆榉本,第一个样本 使用随机化网答,第二个样本直接回答无关问题,该模型进步消除被调查糟的 顾虑;1 9 7 3 年g r e e n b e r g 针对s i m m o n s 模型中无关阅题的横率p 来知豹情况下, 提瞧了双无关阚题懿双样本夔规亿陵答模型f 霓1 5 1 ) ,在该模溅的随飒佬调套孛, 每一样本的被调查卷均需回答两个问题,一个是被调查者使用随机化装置选择的 运题;一令楚调查卷盔接逮逮豹无关靛 敏感牲润惩;1 9 7 7 年k j a k h a s i 窝 h s a h a s e g a w a 提出了隐含的随机化回答模型( 见【6 】) ,运用这一模型操作简单不 需缆眉侄俺髓辊纯实验装嚣,又不必蘧税豹将往,怒一释跑较好静麓辍稼罄答模 型;2 0 0 0 年s a r g i n d e r 等人对m o o r s 模型作了改进,提出了相关样本下的随机化回 答方法( 觅( 7 】) ;2 0 0 0 年p a d m a w a r 等入提琏 数量特征敏感性问题的随机交艇和 模型( 见【8 】) :2 0 0 4 年k i m 等人提出了多榉本下的w a r n e r 模型( 咒【9 】) 。 发展至今,敏感性问题的研究醴日趋成熟,已从敏感性问题的j j 羲性特征缎展 敏艨性问题的l 赧机化回答模型 计及分层抽样下样本容量的鼹优分配和最小方差;并提出了一神操l 乍简单的舆有 多项选择的敏感性问题的随机化回答的调查方法和同时调沓多个敏感性问题的 随栅i 化目答方法,分别研究了薅秘谈套方法蛇估计量及其性腰。 第二章研究了数量特征的敏感性问题的随机化阐答调查法,针对gr e e n b e r g 等人在数量特惩数敏感性翊题蘧凝亿潺套孛霉| 入戆无关弱题瓣分蠢溅知弱壤况, 提出了一种单样本情况下的数量特 疋的敏感性问题的随机化回答改进调查方法, 谈鼷蠢回答均含有敏感往滔簇静信惑,司霄,仅戮穰率1 - p 零| 入无关闯蘧,恣立 了魁 ;二蒿蹦- 6 ) ( 脚x + y 其中占瓢y 躯城共将之与 g r e e n b e r g 无关问题模型及p a d m a w a r 和v i i a y a n 提出的睫机变量和方法作精度比 较,该调查法不仅操作简单翁取得被调查者的信任而且参数的估计量有较好的精 度;接羞讨论了改进方法在分层抽样方式下蛉参数售量卡及样本容量浆最佼分懿和 最小方差;并将此方法应用到双样本凭关问麒和双样本双无关问题随机化回替调 查中,缛塞双榉本双燹关遥憨夔掇缘强答摸黧魄双榉本无关鬻题模黧误差受夸豹 结论。 敏感性问题的随机化回答模型 第二章属性特征敏感性 潮题的随机化回答模 藏性特征的敏感性问越一般是储计具有菜种敏戆性特征的人在总体中所占 的比例。1 9 6 5 年w a r n e r 首先提出敏感性闯题的随极化调查浃,随后国内终学者 在属性特征的敏感性问题的随机化潮答技术方面作了许多研究,1 9 6 7 年s i m m o n s 在w a r n e r 的萋礁上提出了无关阀题模型;1 9 7 1 年m o o r s 针j 事其有鼹矮选择熬敏 感性问题提出了双样本随机化模型;1 9 7 3 年g r e e n b e r g 针对s i m m o n s 模型中无 关润霪靛援窭未知懿 摹凝下,提出了双无关溺题豹双样本夔壤绽模麓;1 9 7 7 年 k j a k h a s i 和h s a h a s e g a w a 提出了隐含的随机化回答模型;赵俊康将整群抽样 方法弼于敏戆性滔瑟豹随税纯调查法( 觅 1 5 】) ;舔霉如和范大菡分疆提密了其 有多种选择的敏感性问题的随机化阐答技术( 见 1 1 1 2 】) ;1 9 8 3 年o h h l 和 s c h e u r e n 提出了拟随机亿回答方法( 见 1 6 1 ) ,2 0 0 4 年k i m 等人提出了多样本下 的w a m e r 模烈( 见f 9 】) ,使敏感性闻题的随机化回答技术得到了进一步的发展, 第一繁露次摸球夔蛾纯圄答模型 一、w a r n e r 模鍪( 麓【l 】) 这一模型是1 9 6 5 年w a r n e r 提出的,调凌前设置外形相同分别冀有问题“你 属于a 吗? ”与“称属于i 吗? ”的卡片,熟中写有问题“你属于a 吗? ”的卡 蛙;i 蛉比铡为p 。调凌对,被调查者在麓单奏效回抽样方式下从中睫糠撞取一张卡 片,真实地回答“怒”或“甭”,调赢者并不知道被调查者阐答哪个问题,只有 被谖奁者鑫惩翔道,谖查者只知道被调查考簸后的甏答缝暴,麸瑟越到了为被谲 查者保密的效果。现从总体中抽取容量为n 的样本,设有7 1 1 个人回替“是”。厅。 是具有敏感性特征a 的人所占的比例。令: 昂 1 0 黧i 淼器z ” 泛, 一 若第个被调查者回答“否”。 。 鬟薯: 琰x ,攀1 ) = 露妒+ l 一万4 ) ( 1 一p ) 嚣盖 敏感性问题的随机化回答模型 p ( x 。= 0 ) = ( 1 一石) p + 丌( 1 一p ) = 1 一a i = 1 , 2 ,n ( 2 1 2 ) 可得刀。的估计量及性质: 。的极大似然无偏估计为丸:鲁n 1 ( 1 - p ) 。p 争l 。 c :。 1 z 一的极大似然无偏估计为丸= 面= 广 ( p 尹。 ( 2 1 3 ) 2 无偏估计量的方差为 v a r ( p c a ) = 玩, 鲁一c - 一p , ,c z p 一,) =a(1-可a)=型型+磊p(1-而p)n(2p 1n(2p 。 ( 2 1 4 ) 一) 2一1 ) 2 n 3 r ( 疗。) 的一个无偏估计为 阮r ( 矛。) = 掣+ 差詈三鲁。 ( 2 - 1 5 ) 4 由柯西一施瓦兹不等式可得玩r d 一) 2 i 2 丽( 1 - 2 , ) s ( 2 1 6 ) 所以给定精度口,只需样本容量n = 丽1 + 即可。 c 2 - 刀 5 在置信水平口下,当n 比较大时,善;三二坠近似服从正态分布,n 的置信区间 肠,( 疗。) 疗一2 ;丽 ,其中2 詈为标准正态分布的上詈分位点。 沃纳模型引进了随机化回答,在一定程度上消除了被调查者的颁虑。但两个 问题皆具有敏感性特征,使得被调查者的配合程度减少;当p = l 2 时,是最能得 到被调查者的配合的,但是在w a r n e r 模型中,p = 1 2 时,调查者不能得到任何信 息;当p = o 或p = l 时,v a r ( 君) 最小,此时误差m i n v a ,( 疗) :兰l 兰为抽样误 n 差,但此时的随机化回答为直接回答,无法取得被调查者的配合;当p 越接进于 0 或1 时。v a r ( 疗) 越小,但此时被调查者的配合程度越小,使得该模型在实际操 作时具有一定的局限性。估计量疗。的方差前一部分三生兰反映了随机抽样 n 敏感性问题的随机化回答模型 引起的误差,后一部分j 型二兰兰反映了由于采用随机化回答方法而引起的方差 ( 2 p 1 1 ” 增大。说明了在随机化回答抽样调查中,宁愿牺牲某些精度来换取被调查者的配 合的思想。 二、s i m m o n s 模型 这一模型是1 9 6 7 年s i m m o n s 提出的,设计的原则是在w a r n e r 模型的基础 上,用一个与敏感性问题无关的问题y 代替w a r n e r 模型中的对立问题,进一步 消除了被调查者的顾虑比如敏感性问题为“你在考试中作弊了吗? ”,对立问 题是“你在考试中没有作弊吗? ”,在s i m m o n s 模型中,用一个与敏感性问题无 关的问题来代替对立问题,比如“你是四月份出生的吗? ”。在s i m m o n s 模型中 回答敏感性问题的概率p 可以取l 2 ,我们注意到,在s i m m o n s 模型中引用的无 关问题虽与敏感性问题无关,却与被调查者存在一定的联系,而被调查者对无关 问题的回答又是可以通过调查取得的,比如“你是四月份出生的吗? 调查者很容 易获知。因此对一个不是在四月份出生的被调查者来说,当抽到敏感性问题卡片 时,被调查者担心自己的隐私暴露可能不回答或者做出错误的回答,因此影响收 集的数据的真实性,而且当无关问题y 发生的概率p ,未知时,估计量p ,的估计 偏误会引起敏感性问题占的比例”。的估计量九的估计偏误,导致总的误差增大。 为此,我们提出下面的两次摸球模型。 三、两次摸球模型 设置两个分别装有大小一样红白两种颜色球的匣子,第一个匣子中红球占的 比例为p ,第二个匣子中红球占的比例为p 。调查时,被调查者先从第一个匣子 中摸取一球,摸到红球则回答敏感性问题,如果具有敏感性特征回答“是”;否 则回答“否”,摸到白球,则从第二个匣子中再摸取一球,如果第二次摸到红球 直接回答“是”;否则回答“否”。两次摸球都是在简单有放回的方式下进行的, 整个摸球过程是在调查者不知道的情况下进行,调查者只知道被调查者给出的最 后回答结果,并不知道被调查者回答的是哪个问题,从而保护了被调查者的隐私。 现从总体中抽取容量为n 的简单随机样本,采用两次摸球的随机化回答方法进行 敏感性问题的随机化回昝模型 调查。设有强个人的回答“楚”,一是具鸯敏感性特镊a 魄人襞占载 & 铡。为讨 论“的估计及有关性质,我们有如下定理。 定理2 1 1 :在两次攘球的随机化回答方法中,具有敏感性特征a 的人所占的比 捌。弱较太强然无编嵇诗为颤:墨墨! 韭,箕方差为玩,( 毛) ;掣, 扫 n p 。 踟r ( 丸) 的一个无偏估计为汔r ( 寿一) = 石;t o 可- ;0 。 i 胛一lj 芦 其中:五:鱼,兄= p 石。+ ( 1 一p ) 。p 。,n 。是阐答“是的入的个数。 h 证骥:为谨朝定理设: 弘 1 0 关i 纂淼等矧,z ,嚣一1 |第个人的回豁是“否” ” 则:尹( x = 1 ) = p 疗 + ( 1 一p ) - p | ! 塾 p ( x 。= 0 ) = p ( 1 一石。) + ( 1 - p ) ( 1 一p 1 ) 垒l 一兄 从上述两式可解得 芹。;a , - ( 1 - p ) p l 。 芹2 。 ( 2 。1 8 ) ( 2 1 ,9 ) 往。1 1 甜 # 令冀= 詈,由于n 。一盖,所以旯怒旯的无偏估计,羽可得的估计为 丸:a - ( 1 - p ) p l 。( 2 i 1 1 ) p 由于x 的分布函数为 f ( x , = f p 露( 1 - p ) p l 】肆【p ( 1 - j r 一) + ( 1 一) 舔一p l 而x t = 0 , 1 ,i _ l ,1 1 。 ( 2 1 1 2 ) 所以似然函数为 f ( x i , , x n ) :矗f ( 薯) = p 芽。十( 1 一p ) 妒,】善 p ( 1 一石。) + ( 1 一p ) ( 1 一p 。】”篆( 2 1 1 3 ) 敏蹲性问题的随机化回替模型 对( 2 1 。1 3 ) 式龋边取对数得 n * l n f ( x 1 ) = x f l n p t r + ( 1 - p ) p 1 1 + ( n 一而) l n p ( 1 一九) + ( 1 一p ) ( 1 一p 1 ) 】, 扛l拇l 对( 2 1 1 4 ) 式求关予z 。鹁穰警数并令蕤等予零羯有 ! ! 曼 一 ! 兰:璺! 望 :o , p , - c + ( 1 一p ) p l尹( 1 一牙) 一( 1 一p ) ( 1 一p 1 ) 整理缛 。生坠盟, 尹 因此,丸=尘二艘堕是粕的一个极大似然估计。 p 因为 f 2 1 1 4 ) 继。1 ,1 5 ) f 2 1 1 6 ) = & 坐p 血片p 齿母叫p 陋喜玲p 叫 tjl ”jl 栉百j p 陪( p 。+ 丞叫p 沪g 嘲p t 氓, ( 2 t l t l 7 ) l 开 j 所以詹。:墨蔓监是以豹一个无编绩诗,其方藏为 玩r 辑。) :玩,| - ( i - p ) p : :育n v a r ( x ;) 【p,h “p 。 ;塑蔓型+ 坠堕坠丝堕垫幽+ 坠。迥坠里! ! 。( 2 1 。_ 1 8 ) n n p n p 由于e ( m ) :n 丑,届( 。;) :h a + 月一1 ) 2 2 ,砌r ( 五) :掣:墨业,- 咒。胛 因此 e 鼯卜案裂= 等, g 拼 黢缓v a r f z ? 。 酶一个琵馕售诗为 敏感性问题的随机化回答模型 由下 ( 蚴= 器 脚眈,= 等n ps 专4 r i p 疆。1 。2 0 ) ( 2 1 2 1 ) 删黻黻幽赚糌褪一陆卜啊a ( 2 1 2 2 ) 推论1 :在簧信水平a 下, 。的置储区间为 九z 。肠( 九) 】,其中z 。为标准 正态分布的上要分位点。 西、两次摸稼模奎豹优点 1 两次摸球模型克服了w a r n e r 模型中每个被调查者都必须网答敏感性问题的缺 点,引进了第二次摸球,彻底消除了被调查糟的顾虑。当被调蠢者阐答敏感往 问题的比例为1 1 2 时,w a r n e r 模型不8 提供镊何信患,但对鼹次摸球模型丽京, 1 2 的比例却是一种瑷想的选择,最能得到被调查者的配合。 2 在s i m m o n s 模登中,无美淹嚣y 发生瓣壤攀p ,楚令德嵇诗量,凌蒋次摸球模 型中,第二次摸到红球的概搴p ,是预先确定的,避免了由焱的估计偏误而戮起 的丸的估计偏误。因此,两次摸球模型比s i m m o n s 模型更稳健和更准确。 3 两次摸球模型估计量的方差肠,( 靠。) ,第一部分- 篓趣二型反映了由随机抽样 引起的误差第二部分鱼羔塑坠虫坠二鱼垒兰丛反映了娃 于采用随机化阐答 印 方法而引起的方差增大:第三部分史二吐2 垂二越反映了由于引进第二次摸球 秽4 引起的方差增大。这和w a r n e r 模型中宁愿牺牲某些精度来换取被调查者的配合 的憨愆是一致静。 4 幽( 2 1 7 ) 和( 2 1 2 2 ) 可知,当被调查者回答敏感性问题的比例1 3 。( z 1 z s ) 可见在两次摸球模型中回答“是”与“否”对集合a 和a c 分别是危险的。所以, 两次摸球模型设计参数p 的最优选择为 ( 1 ) 当p l l 3 时,k 2 ,r ( 疗2 ) p a r ( 碲d 1 ) 。 ( 2 ) 5p ,= 1 2 时, 女:毫:素:i + 翌, 1 1 一p 无馕估计量鲍方差必 是一l 拧= 一, 1 k + l 毽1 2 8 ) r ? 掣+ 南+ 击 鲫, l 3 时,v a r ( 疗2 ) 茎v a r ( 彦d 1 ) 。 露= 瓠= 1 + f p 鬲, 3 国 无镳估计量的方差为 喊,= 掣+ 蚴掣+ 热觚翊 l 3 时,v a r ( 矗- ) 玩, 0 ) ) 。 眈较亵次摸球禳壁与w a r n e r 模鍪豹糖液,我稍蠢下落鹣定理 定理2 , 1 2 在被调查者保密程度相同及回答敏感性问题的概率p 1 3 的条件下, 两次摸球模缀院w a r n e r 模型兵有更高的精澄。 敏感性问题的黼【机化回粹模型 其次,两次摸球模型与w a r n e r 模型的方差比较我们可以从表一束看。豪一 中样本容量n = 1 5 0 ,中间部分第一橙为w a r n e r 模型估计量的方差,第二栏为在不 同p ,下的嚣次摸璩横型 砉诗爨浆方麓。霹以器出两次摸球模挺与w a r n e r 模麓摆 比,当较p 小时,w a r n e r 模型的方差更小,但此时被调程者关于敏感性问题的佰息 利用率低,当p 较大时,对不同的p ,两次摸球模登都具有较小的方差。而飘我 霞以控割p ,酌大小寒提麓谖查戆糖度,羁辩,又可滋蹭大被诞壹考熬配合纛疫, 使两次摸球模型更具有可操作性。 氪实例:( 数据柬翻【1 8 ) 假设要调查私人企业逃税的情况,从总体中随机撤取容量为n = 4 0 0 的简单样 本。 ( 1 ) 使用w a r n e r 模型进行随机化调签,痰提的嚣个闻题是 a :我在过去一年中曾逃过税,j :我在过去一年中未鹎逃过税。 其中问题a 被选择的概率为p = 0 9 ,随机化调查的缩果是柯m 。= 8 8 个企业潮答 “鬣”。瘊以在过去一年螫述过爨瓣金韭爨占懿魄爨繇瓣缀大锻然无攮馈诗 羔( 1 一p 蠢d “= 羔i _ = o 1 5 ,其方熬的无偏估计l p a r ( 考j “) = 6 7 0 x 1 0 “。在 z 口一i 1 一麒= o 9 5 的置信度下,礼的置信鬣间 九m z 。;磊i 孑巧 = o 1 5 + 0 0 5 1 , i 区间长度d 1 = 0 ,1 0 2 ,给定精度o r = 0 0 0 1 ,样本容量只需n = 3 9 1 即可。 趵袋用秀次摸球模懋谖查,设第一次挨到终球戆撩攀舞p = o 9 ;第二次蒺至l 缓蘧 的概率为p ,= o 5 ,调查结果是回铸“是”的企业个数为托= 1 2 0 ,所以在过去 一年曾逃过税的众业所占的比例n 的极大似然无偏估计符。“= 0 2 7 8 ,其方 麓静无偏估计允r ( 彦。锄) 一6 4 7 1 0 。在l 一口= 0 9 5 静鬣信度下,乃静鼯信 区阕 彦。z 。莎乏i i 丐】= 【臻。2 7 8 - + 0 0 4 9 ,嚣阕长发露:0 0 9 8 ,绘定耩 i 敏感性问题的随机化回答模型 度口= o ,0 0 1 ,样本容量只需n = 3 0 9 即可。 可见,两次摸球模型与w a r n e r 模型相比,两次摸球模型具有更好的效率和更 表一:( 两次摸球模型与w a r n e r 模型的方差比较) 0 20 4o 60 7o 9 万( 【) p 0 10 20 3 0 20 50 4o 5 0 6 0 50 6 0 ,70 70 80 1 丌( 2 ) p i o 0 80 0 0 3 4 5 40 0 4 0 4 9 l0 0 4 0 4 9 1 0 0 0 9 2 4 10 0 01 4 2 8 0 1 3o 0 1 5 7 90 0 0 2 2 2 50 0 0 1 2 5 90 0 0 0 9 3 30 0 0 0 4 6 9 0 0 0 9 4 6 3 0 0 0 3 5 5 40 0 0 1 3 9 4o 0 0 1 0 0 80 0 0 0 4 8 8 0 0 1 2 2 0 30 0 0 1 5 0 6o 0 0 1 0 7 3o 0 0 0 3 4 2 0 2 80 0 0 4 3 0 70 0 4 1 3 4 40 0 4 0 4 9 1 o 0 1 0 0 9 4 0 0 0 2 2 8 2 o3 3 0 0 2 0 7 8 10 0 0 7 8 5 4o 0 0 4 2 5 6o 0 0 3 2 0 90 0 0 1 9 1 2 00 2 9 1 5 40 0 1 0 2 2 40 0 0 4 4 3 70 0 0 3 2 9 40 0 0 1 9 3 3 0 0 3 5 3 9 4o 0 0 4 5 5 80 0 0 3 3 5 4o 0 0 1 7 5 1 0 4 80 0 0 4 6 2 70 0 4 1 6 6 40 0 4 1 3 “ 0 0 1 0 4 1 4 0 0 0 2 6 0 2 o5 3 0 0 2 5 2 3 40 0 0 9 2 4 l0 0 0 4 6 2 10 0 0 3 3 9 50 0 0 2 0 3 9 0 0 3 2 5 4 1o 0 1 0 4 1 10 0 0 4 6 2 40 0 0 3 3 6 60 0 0 2 0 3l 0 0 3 7 7 1 40 0 0 4 5 6 70 0 0 3 3 1 2 0 0 0 2 0 5 6 o6 8 o0 0 4 4 1 40 0 4 1 4 5 l0 0 4 1 6 6 4o 0 1 0 2 0 10 0 0 2 3 8 8 0 7 3 0 0 2 9 1 5 4o 0 1 0 0 9 4o 0 0 4 4 5 20 0 0 3 0 4 9 0 0 0 1 6 3 4 0 0 3 5 7 9 40 0 1 0 0 6 4 0 0 0 4 2 7 70 0 0 2 9 0 50 0 0 1 5 9 5 0 0 3 9 5 0 l0 0 0 4 0 4 3 0 0 0 2 7 3 7o 0 0 1 8 2 8 o 8 8 0 0 0 3 6 6 70 0 4 0 7 0 40 0 4 0 7 0 40 0 0 9 4 5 4o 0 0 1 6 4 2 o 9 3 0 0 3 2 5 4 10 0 1 0 4 1 40 0 0 3 7 7 50 0 0 2 1 6 9 0 0 0 0 6 9 4 0 0 3 7 7 1 40 0 0 9 1 8 40 0 0 3 3 9 40 0 0 1 9 1 10 0 0 0 6 2 6 0 0 4 0 7 5 4o 0 0 2 9 8 50 0 0 1 6 2 8 0 0 0 1 6 6 7 敏感性问题的随机化回答模型 第二节分层拙榉和整群抽样方式下两次摸球模型的参数镳计 、分层拯糕方式下薄次摸球模型斡参数继计 分层抽样是根据被调查个体的菜个特征戚标识将总体分成一些互不重藏的 了惑体,对簿一子蕊俸分剐避孬季瘗嚣诵查熬一耱调查方法。巍对敏感性翊嚣静随 机化调查时,为了收集到全谢的数据赘料,采用分层抽样调巍是很有必要的j 。假 设我们要调凌菜校学生舞弊清况,随辊箍取豹样本胃巯会院较集中在菜些系或菜 些年级,调查的结果就不能t 阪映全校学生的瓣弊情况。因此,我们可以先把举生 按系( 或按年级) 进行分层,从每层中分鄹掏取一定容量的样本进行调查,叛获 得更全面的信息资料。 将包含n 个单位的总体分成l 个互不重藏的予总体,设第i 个子总体包含单 位静个数为l ( f = l 2 ,国,n ,= n ,每罄容量权黧为r o , ( i 。1 , 2 ,五) a 孰德层 中独立迸行无放回的抽样方式,抽取容量为m 的简单随机样本,且,= h 按 两次摸球随机化圜警方法进行调壹。设丑为第i 层中具有敏感性特征的入所由的 跑铡,p 戈第i 星被调查者繁次摸到红璩瓣概率,识为第i 层被调裘者第二次 摸到红球的概率,;为第i 层的样本中回答“是”的人数( 净l ,l ) 。 定理2 2 1 在分层抽样方式下的两次摸球随机化回答横型中,具有敏躲性 特征躲人鼹的眨铡露的无镳髅计量必 彦= 去静置一半” 其方差为 嘲= 古喜茸卜,- 竿+ 驾竽型 , 其中 阜= 喜蛳丑= 詈,= f n _ l 。 敏感性问题的随机化回答模型 证明 设豫为第i 层样本中熙答“楚”蛇人数,由定理1 1 1 褥第i 屡聋的镳计 量为 其中五= 堕是丑,= 万;p + ( 1 一p ) 吼的无偏估计量,杰的方差为 材f 踟,( 彦) ;( 1 一工) 型型+ ( 1 _ ) 十旦! ! :旦! ! 兰! ! ! 二! 苎i 望! ! n i p 。 其无偏估计撼为 赫( 梢卜 ) 警卜1 n ;加刊学 胛l 一 i p 一 ( z 2 2 ) :(1-工)要i堡二!置2+(1一:)羔尘二望2掣+_p(1-p)(;。i+qi-2;彦iqi)(223) n p抖f p 。露f p 9 其中z2 熹,所以总体疗的估计量为 席= 砉蝻= 静半= ;1 备l 婢以 一了1 - p 善l ,婶 即嚣= 吉妻以一字其中g = 喜嘲。又因为 鼯,= 吉嚣0 置) _ 了l - p 驴刍妻啦肘圳一字俨露。汹, 故蠢是万的笼偏估计量,考的方差为 7 1 纠l ”胁掣+ 坐鼍掣 2 妻,掣+ 孚c 掣地朋;锄。) 】 獗 孚 磊一 敏感性问题的随机化回答模型 在 蠖分酝下( 嚣【1 9 等= i n i = 五= ,= 景,显藓= 秘= 。,。剐鸯; 吲承妻等 ( 1 书世硝+ 竖【( 1 _ 髑嘲州”弹嗍, 在簸饶分琵中,菪每层蕈位溃耗费蠲耀等,令 s t2 = ( 1 一,) 石,( 1 一,屯) + ! ! 二i ;蔓 ( 1 一,) ( 1 一g ) g + ( 石;+ 譬;一2 ,譬) 】, = l ,。,。( 2 2 7 ) 我们有下面的结论: 结论2 2 2 分层抽样下酶两次摸球横穗样本容量的最伉分配和最小方麓分别为 样本容量的掇优分配为 生:霉坚l ,o :1 加,上) _ 2 ,8 ) ” 窆颤& 最小方差为 脯”妇r ( 宝) = i 1 【( 善l 哪) 2 一妻叻s 。2 】。 ( 2 2 _ 9 ) 二、整群抽样方式t 两次摸球模型的参数估计 怒聚调套豹总髂分走n 令察,鬻不教嚣方法扶n 令群巾捶取1 1 令群戆熬群 样本,第i 群的容量为m ;( 忙l 2 j 叼,对每一抽中的群分别独立地以两次按球 模型进行随机化回答调查。设第i 群中具有敏感性特征的人所占的比例为死,在 第i 群延瓿纯醒答谣查中卞髂第一次摸到红踩鹣穰率为p ,繁二次摸翻荭球翡概 率为q 。,回答“是”的人数为m ;。则由定理2 1 1 可得曩的估计量和方差为 拈地,( 2 2 z o )筇= k 一 嘶) = 匮塑学等掣乒k ”,一 剐) 敏感性问题的随机化回答模型 1 、若各群大小相等,则总体中具有敏感性特征的人掰占的比例万的估计量 毋= i 1 善n 反= 去 击喜州。一c t p ,善na ; , c z 2 z , 其中m = m ,( 净1 ,) ,疗的方楚 + 1 p o - i p ) ( 石+ 垡一2 z n ) , t t md 2 1。 其中 g = 喜譬f , ,2 i n ,英无馕德诗量为 陆( 斤) ;堕 以 蛾 i = 1 h l十去学( z ? + q - 2 自) 。 ( 2 2 - 1 4 ) 2 、潜各群大小不等,设各群容量为m ;,从n 个群中抽取n 个群的整群样本, 在挂较大时,乃懿邋经无镰 砉诗炎跑镄 砉诗,瑟 秀= 龟,m , 其中g ;为繁l 蓑中其毒敏黪镶特薤的大弱数曩,曼 在f * m f 骨f = m i m f ( 1 一p ) q f i p , 所以石的近似无偏估计量 彦1 薹:兰堕竺 亡p m ; 其方差 r ( 蠢扣n 1 蟊- _ _ l : m 融;一疗) 2 一1 n 其中 譬- - e q ,蒸 砉幸 爨透强为 持1 鲤一1 p n m ( 露譬一2 耀 , z 、 1 r 2 2 1 6 ) 肄半 i l 癸 “ 魄 敏艨性问题的随机化回替模型 其中 良r ( 君) 。j 1 - f n m 。 胛一1 + p ( 1 - f p ) = 1 ( 疗+ q - 2 向) ,( 2 2 1 8 ) 口一m - 2 2 - 晖 。m 峨一 。堡 i i 嚣 敏感性问题的随机化回答模型 第三节同时调查多个敏感性问题的随机化回答模型 一、同时调查多个敏感性问题的随机化回答模型 濮宗伟
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 导尿术操作流程图解
- 高中教师减负政策执行效果评估-基于 2024 年全国高中教师减负清单落实
- 护理护理实践指导
- 变暖背景下登革热的媒介控制成本效益
- 2026秋招:万华化学面试题及答案
- 2026秋招:数据科学家笔试题及答案
- 2026年考公的心理测试题及答案
- 举报与监督制度
- 中小学卫生监督制度
- 制定支部监督制度
- 框架协议管理办法
- 寒假作业的数学试卷
- DB5104∕T82-2023 康养产业项目认定规范
- 2025-2030年中国太阳能光伏发电行业市场深度调研及前景趋势与投资研究报告
- 驾校教练车承包协议
- 金砖国家的经济合作试题及答案
- 《鸭养殖技术》课件
- 国防科大宣讲课件
- 会计中级职称《财务管理》电子书
- 机场控制区通行证培训
- 苗圃管理的病虫害防治及维护措施
评论
0/150
提交评论