(运筹学与控制论专业论文)敏感性问题抽样调查基本方法与理论研究.pdf_第1页
(运筹学与控制论专业论文)敏感性问题抽样调查基本方法与理论研究.pdf_第2页
(运筹学与控制论专业论文)敏感性问题抽样调查基本方法与理论研究.pdf_第3页
(运筹学与控制论专业论文)敏感性问题抽样调查基本方法与理论研究.pdf_第4页
(运筹学与控制论专业论文)敏感性问题抽样调查基本方法与理论研究.pdf_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 随机化技术主要是用于解决具有敏感性数据的抽样问题。自从沃纳、西蒙斯 应用随机化技术分别提出沃纳模型和西蒙斯模型以来,后继的统计工作者们便在 他们研究成果的基础之上提出了很多的改进模型。本文我们介绍了其中几个主要 的模型一沃纳模型和西蒙斯模型以及后续的几个改进模型。其中由于原两敏感闽题 的w 抽e r - s i m m o n s 统一模型的思想无法解决具有多个敏感选项的推广问题,所以 我们提出了一种新的改进思想,在这个新思想的指导下,我们将原模型推广到了 具有多个敏感选项的情形。另外原广义s i m m o n s 模型虽然保密性很好,并且精度 也很高,即在相同保护度下,其精度远远高于格林博格模型和莫尔模型,但我们 在研究过程中发现,如果对原模型进行一些改进,其在相同保护度的条件下,改 进模型的精度会大大提高。 由于敏感问题的研究都是基于被调查者对调查作出真实回答的基础之上来完 成理论推导的,而在实际调查中,不真实回答的被调查者会存在,并且这种存在 对调查的结果会产生很大的影响,所以对这类问题的研究就显得尤其重要。由于 问题的复杂性,这类问题的研究在抽样调查界几乎是一片空白,即使有一些研究 也仅仅限于文字性的描述。在这方面我们通过深入的研究,对存在不真实回答情 形的敏感问题给出了一种近似的估计方法。这种近似的估计在被调查者对调查的 敏感问题作出随机回答时即通常我们讲的扔硬币的方式随机来选择回答有较 好的结果。对于仅仅是一般的存在一些不真实回答的情况,此估计方法仍然存在 缺陷,但是由于不真实回答情况的客观存在性以及它对调查结果影响的严重性, 对这类问题的研究仍然很有价值,同时也具有很大的研究前景和研究空间。 关键词:敏感性问题,抽样调查,随机化技术 电子科技大学硕士学位论文 a b s t r a c t t h er a n d o l i z e dr e s p o m et e 州q u e ( r r t ) i so r i g i n a l l yd e v e l o p e df o r 删i t a t i v e p u f p o s eo fs e n s 城v es 强毕王主矩s 1 粼y ts 叠c ew a m 甜碰ds i m m o n sd e v e i 。弘dw 抛e m o 曲la n ds i i i 】m o n sm o d e la p p l y i i l gr a n d o m i z e dr c s p o n s et e c q u e ,姗ys t a t i s t i c w o r k c rh a v ed e v e l o p e dm a n 甲n e wm o d i f i e dm o d e la c c o r d i n gt o 也et 、om o d e l s i nt m s p a p e r ,廿】ea u 小o r 加打o d u c e dt h e 铆oi 瑚p o n 如tm o d c l ga n ds o m em 甜i n e dm o d e l s s i n c et h ei d e ao fo n eo ft h em o d i :f i e dn l o d e ln a m e dt f ds e n s i t i v eq u e s c i q n sn e c s i n l i n o 璐1 1 n i o nm o d e lc a nn o td i s s 0 1 v em u m c h o i c es e n s i 廿v eq u e s t i o ns a l 】叩l i n gs u r v e y w ed e v e l o pan e wi d e a t h r o u 咖也en e wi d e a ,、cc a l ld i s s o l v et 1 1 i sq u e s 廿o ne a s i l y - a t k a i t h o u 醣t kp r o 妖d o no f 斑ob f o a d i y t d 萌n e ds i m m o 潞m o d e l 远v 哪rg o 醯, 锄dt 1 1 em o d e l i sm o r ee 伍c i e n tm a ng r e e n b e r gm o d e la 1 1 dm o o rm o d e l ,w ed i s c o v e r t h a ts o m el i t em d d i 句c a nm a k et h em o d dm o r ee 伍c i e n t t h er e s e a r c ho fs e n s i t i v eq u e s t i o n sb a s e s0 nr e a l 删p o n s e sd ft h e 删e y e d p e o p l e b u ti nf h c tn o tr e a lr e s p o n 3 e si so r d i n a r yi ns e n s m v eq u e s t i o n ss a r n p l i n gs u r v e y 1 1 1 i sn o tr e a lr e s p o n s e 谢nm a k c0 1 l re s t i m a t o ri n e m c i e n t s om er e s e a r c ho fs e n s “i v e q u e s t i o n ss a m p l i n gs u n r e yw i t hn o tr e a lr e s p o n s e si se s s e n t i a l _ s i n c et h er e s e a r c ho f t h e s eq u e s t i o n si sm o r ec o m p l e xt h 觚r c a 王r e s p o n s e s ,t h ep a p 盯a b o u 越sr e s e a r c h s v e r yf c w t h r o u 酿t h er e s e 诎o ft h e s eq u e s t i o n sw ed e v e l o pan c wm e m o d0 nt h i s s i t u a 6 0 n w h e n u n r c y e dp e o p l er e s p o n s es e n s i t i v eq u e s t i d nr 趾d o m l y ,也i sm o d e l i s e 箍c i 髓t ,b u tj na n o t b e rs i h 斌i o n t h en e wm d d di sn o te 硒c j 叻t h 1t h j ss j t u a t i o nw c n e c dd e 印1 yr e s e a r c h ,a tt h es 锄et i m e 出er c s e a r c hi si m p o r t a i l ta n de s s e n t i a i k e y w o r d s :s e n s i t i v eq u e s t i o n g ,s 跚l p h n gs u r v e y ,r a n d o m i z e dt e c l l i l i q u e ” 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 签名:日期:年,月,。日 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 签名:娅导师签名:羔兰l 日期:年月,。日 第一章绪论 1 1 背景介绍 第一章绪论 抽样调查是统计中应用与发展最早的一个分支,由部分推算整体的思想由来 已久。早在1 6 6 2 年英国人j g r 姐l m t 曾对伦敦城内保有较完整登记表的教区进行家 庭调查,他根据一个教区的洗礼和葬礼的次数来估计当时伦敦的总人口约为 3 8 4 ,0 0 0 人。1 7 一1 8 世纪的人口统计学家包括英国的w p e 姆和f h a l l e y ,瑞典的 p w 啦埘n 以及德国的j p s u s r n i c h 都曾根据一个地区的部分资料对整个地区作过 类似的推算。更完整的工作要数法国著名的数学家p s l a p l a c e ,他在1 7 8 6 年写的 一篇关于巴黎人口出生、死亡和婚姻状况的论文里,就建议用某些地区的出生率 来推算整个法国的人口,并对估计结果的误差问题进行了研究。1 8 0 2 年他在法国 政府的支持下,作了一次统计抽样的试验。但是象p s 1 邢1 e 这样的工作在当时 还是很零星的,较完整的抽样调查工作起始于上世纪9 0 年代,那时许多欧洲国家 相继在社会经济领域中应用抽样调查:时任挪威统计局局长的a n k i a e r 在1 8 9 1 年利用抽样调查估计挪威全国国民的收入和财产情况,用以研究该国人口的一些 经济和社会特征;1 9 0 1 年丹麦进行了农产品产量的抽样调查;英国的a l b o w l e y 等人也在1 9 0 6 年及1 9 1 3 年进行了社会经济方面的调查;在第一次世界大战期间, 美国曾用抽样调查制定军服尺寸的系列标准等等,这些都是方法抽样调查的一些 早期应用。 随着抽样调查实际的需要以及统计基本理论的发展,从2 0 世纪2 0 年代到4 0 代年问,抽样调查的基本理论也就逐步形成了。另一方面,在社会经济调查中, 有时提出的一些问题是属于敏感性的或者高度私人机密的内容。例如在调查科技 人员的流向及有关意愿时,被调查者出于种种原因,不愿意在流动之前袒露自己 的意向,以免在原单位造成不必要的麻烦。如果我们的调查内容仅仅限于是否离 开原单位,而我们能够设计一种方案,做到被调查者可以作出真实回答又能保护 私人秘密,那么这个问题就得到了圆满的解决。1 9 6 5 年沃纳( w j m e r ) 曾针对仅 有“是”或“否”两种回答的调查( 目的是获得总体中“是”的比例) 设计了一 种随机化装置达到了上述目的。虽然沃纳模型( w 珊e r m o d e l ) 具有保密性好的特 点,但是沃纳模型精度差,估计相当的粗略。鉴于此,1 9 6 7 年西蒙斯( s i m o n s ) 电子科技大学硕士学位论文 对此模型进行了改进,有效地解决了精度问题,但是同时又降低了保密性,这两 个模型各有优缺点。在这之后,关于敏感性问题的抽样调查方法及其原理有不少 深入的讨论,得出了许多很好的结论,这些研究都是基于沃纳和西蒙斯的随机化 模型基础上的。随机化回答模型作为一种调查社会敏感性问题的抽样方法,具有 重要的现实意义,在我国社会经济统计调查中有着广泛的应用前景。 由于历史原因,在我国抽样调查的研究与应用起步较晚。长期以来,我国有 关部门大多是通过定期统计报表来搜集统计资料的。新中国建立以后的前三十年, 抽样调查未得到足够的重视。全国范围内的应用主要是在1 9 5 5 一1 9 5 8 年,以及1 9 6 2 1 9 6 6 年两个短暂的时期内。另一方面,建国头三十年内,我国统计理论界中专 门从事抽样理论与方法研究者寥若晨星。党的十一届三中全会以后,我国实行了 改革开放政策,社会经济面貌发生了根本变化。在农村和部分城市企业中,逐步 实现了责任承包制,具有中国特色的社会主义市场经济逐步形,成并取代了过去 单一的计划经济,以前可以通过报表制度获得的统计资料在新的条件下愈来愈困 难。改革开放也导致人们观念的更新和思想活跃,各级领导和决策部门以及一些 学术机构也需要了解和掌握各阶层人们的现状,以及他们对社会中各种问题的看 法和愿望,工商企业集团需要了解各消费阶层对其产品的需求与爱好。于是各类 型的抽样调查应运而生,特别是对于一些敏感问题的抽样调查更是不可缺少,对 其理论研究也提出了更高的要求。 1 2 国内外研究现状与研究前景 自从1 9 6 5 年沃纳( w a r n e r ) 提出随机化模型解决敏感问题抽样调查以及1 9 6 7 年西蒙斯( s i r m o n s ) 提出改进模型以来,后继统计工作者们就沿着随机化思路针 对不同问题的不同情形给出了不同的分类,同时提出了许多估计方法及改进模型。 1 2 1 二选项研究与多选项研究 敏感问题研究初期,所有模型都仅仅研究只有两个选项的敏感问题抽样技术, 即研究被调查者具有或者不具有敏感属性。由于问题仅仅具有二元性,问题也就 变得相对简单容易,这吸引了大量的统计工作者的目光,所以在二选项敏感问题 的研究方面这几十年来取得了很大的成就。另一方面由于实际情况的需要,我们 不得不面对多选项敏感问题的抽样问题。所以多选项敏感问题抽样技术也得到了 2 第一章绪论 一定程度的发展。但和二选项敏感问题抽样技术相比多选项敏感问题抽样技术发 展相对较慢,由于涉及大量矩阵知识和利用计算机求解线性方程问题,以及利用 计算机求解的精度问题,所以在实际工作中人们往往避开多选项问题,但是作为 理论研究这方面的工作却很有研究前景,国内在这两方面的研究成果主要有:二 项选择敏感性问题调查的基本方法“1 、二项选择敏感性问题调查的改进方法圆、 多项选择随机化调查的多样本模型。1 、多项选择随机化调查的一样本模型、随 机化回答模型中的贝叶斯估计“1 、敏感性问题中的无关问题方法附、论敏感性问 题中的抽样调查方法与均方误差”1 具有多种选择的随机化回答调查法脚、二分总体 中随机化调查方法的一种新的估计量及协方差改进估计跚、随机截尾的i r i l e r 与 s i r n m o 璐模型“”、有多种备选项的敏感问题抽样调查方法分析“”敏感性问题抽样 调查方法新设计n 2 3 、敏感性问题无回答及故意错答的预防与控制究“”、敏感问题 “随机变量和”回答模型“”对敏感性闽题调查之随机化回答技术的思考“。有陧总 体下敏感性问题的抽样调查方法与误差估计“”敏感性问题抽样调查的新方法一网 上调查o ”、敏感性问题调查新议o ”、敏感性问题调查方法探讨“、企业市场调查 中敏感性问题的处理嘲、敏感性问题抽样调查的应用注记眦3 、s i 】i 】r n d n s 敏感性问题 抽样调查误差的估算噙1 、敏感问题弱转化问卷数学还原模型的构建。”、数量特征 敏感性问题调查的两个随机化回答模型。”、调查研究中的敏感性问题的“去敏感 化”技术述评o “、敏感性问题调查的基本方法与比较。”等, 1 2 2 定量研究与定性研究 在敏感问题抽样调查研究初期人们的研究仅仅局限于对问题作定性处理,比 如人们仅仅关心总体中具有敏感特征人数的比例。随着实际问题的需要和问题研 究的深入,人们发现在很多情况下仅仅对问题作定性处理是不够的,比如我们调 查学生作弊情况,我们不仅关心学生作弊人数占学生总人数的比例而且也关心作 弊不同次数的人数比例,于是定量分析就应运面生。国外学者在这两方面的主要研 究成果有w 细e rm o d e l ,s i m m o n sm o d e l ,m o o rm o d e l ,g r e e n b e r gm o d e l ,f o l s o m m o d e lm a n 明tm o d e l 。等。 1 2 3 矩估计、似然估计、贝叶斯估计 随着概率统计理论的不断完善,抽样调查理论得到了巨大的理论支撑。研究 电子科技大学硕士学位论文 初期由于人们仅仅研究二选项敏感问题抽样技术,所以人们乐于使用极大似然估 计方法对抽样参数作估计。随着问题研究的不断深入,人们发现似然估计在很多 情况下不容易求得,甚至根本无法求解,而相应的矩估计却极易求得,所以很多 情况下人们往往用矩估计来求解。另一方面由于统计资料的逐年累积,这使得人 们可以根据以往的资料来获得一定的信息,所以在以往资料容易获取的情况下, 人们乐于使用贝叶斯估计,以便充分利用以往资料的信息。矩估计、似然估计、 贝叶斯估计已经成为当今敏感问题抽样调查参数估计的三大支柱。 1 2 3 模型公平性比较 由于人们对不同问题甚至同一问题提出了不同的模型及其修正模型,而所有的 这些模型之间缺乏统一的衡量标准,到底哪个模型更优越更实用的问题就摆在了 科学研究者们的面前。近几年统计工作者在这方面作了一些有益的工作,但工作 做的还不够完善有待进一步作研究,主要代表成果有随机化策略的公平性比较o ”。 1 2 4 单一敏感问题抽样和一般抽样技术的结合 近年来人们的兴趣从以往的研究单一敏感问题抽样技术转移到了更广的应用 层面。过去人们研究敏感抽样往往把焦点聚在敏感性上,仅仅考虑简单随机抽样, 而现在的研究却和一般的抽样理论紧密结合在一起,把敏感问题抽样和分层抽样、 整群抽样、系统抽样、复杂抽样、二阶及多阶抽样、比估计、回归估计、不等概 率抽样等相互结合。其理论相对于一般简单随机敏感问题抽样更复杂,但是其理 论和实用价值却更高,有着广阔的研究前景。本文围绕精度问题和二项到多项的 推广问题上,对以往的两个经典模型进了介绍和改进,并对不完全真实回答问题 作了深入的研究,取得了一定的成果。 4 第二章沃纳( w a l t l e r ) 模型和西蒙斯( s i r n r n o t l s ) 模型 第二章沃纳( i i ;f a r n e r ) 模型和西蒙斯( s i 踟o n s ) 模型 2 1 沃纳( w a r n e r ) 模型 2 1 1 有放回方式下的沃纳模型( w a r n e rm o d e1 ) 设a 是一个社会敏感问题,比如“你考试做过弊吗? ”,我们希望对总体中 具有属性a 的单位的比例万。加以估计。沃纳的方法是:调查者事先设计好一个 随机试验,比如在一个盒子中装有红球和白球,从中任选取一个球为红球和白 球的概率分别是p 和( 1 一p ) ,被调查者回答问题前在盒子中随机地取出一球( 球 的颜色只有本人知道) ,取到红球则回答闺题a ,取到自球则回答闯题a 9 反面 问题彳,回答时只回答“是”或“否”。记总体中回答“是”的比例为a ,则实 际调查中回答“是”的比例五= ”。一是五的一个无偏估计量( 其中强是样本中 回答“是”的人数, 是样本容量) ,且 与万。之间有如下关系式: 五= ( 2 p 一1 ) 刀_ + ( 1 一p ) 由于p 可以事先确定,故当p 已知时由上式我们可以得到如下定理: 定理2 1 1 估计量万一( 下标w 表示毗粕e r 估计) 是乃的极大似然无偏估 计,其中 ;一掣竿,( p 1 2 )肌一1 盂f ,【辟2 ) 证明引入变量五= 裟誓篡;由全概率分解式得: p ( 置= 1 ) = 刀p + ( 1 一万d ) ( 1 一p ) p ( 置= 0 ) = ( 1 一乃1 ) p + 乃( 1 一尸) 似然函数:工( 乃) :r i 【p ( 置:1 ) r 【p ( 墨:o ) 】 1 一五其中五:1 ,o :立f 乃尸+ ( 1 一乃) ( 1 一d r f ( 1 一乃) p + 乃( 】一d 】 ( 1 一局 i = 1 电子科技大学硕士学位论文 解似然方程 z ”= b 喜互一( 1 一聊 ( 2 ,一1 ) ,( p 1 2 ) ,其中喜置= m 所以 免r = 篆p ,( p 1 2 ) ,z ,一i 且 e ( 二。,) :墨鲤:l ! 二旦:墨二f ! 二丝:石。 且 砸神2 半器产2 罨早2 乃 定理z 1 2 估计量的方差表达式为:。( 毛一) = i 三等,其一个无偏估计 量为易( 龛。,) :旦生、 ( 聆一1 ) ( 2 p 一1 ) 2 证明 。c 知瑚牟= 芒格而 d ( 置) = ,z 【乃p + ( 1 一矾) ( 1 一p ) 】 ( 1 一) p + ( 1 一内 a = ( 2 尸一1 ) 乃+ ( 1 一d 带入上式即得。( 二- r ) = 震芸己等 又由于 嬲= m 固厢 e ( 五( 1 一a ) ( ”一1 ) ) = e ( 生( 1 一生) n 1 ) ) = 丑( 1 一兄) n :d ( 互) 从而d ( 茹。,) 的无偏估计量为: 刍c ;一”,= 刍 鲁一c ,一p , ,c z p 一, = 刍c 鲁,c z p t ,2 = d ( z ) ( 2 尸一1 ) = a ( 1 一五) “聆一1 ) ( 2 p 一1 ) 2 2 1 。2 参数估计与样本容量n 的确定 沃纳随机化回答法的抽样误差与随机试验参数p 有关,p 愈接近l 2 ,抽样误 差愈大:愈接近1 ( 或0 ) ,抽样误差愈小。但是p 愈接近1 ( 或o ) ,保密性越差。 故通常可将p 取为0 7 一o 8 ”1 较为恰当。 第二章沃纳( w h m 日) 模型和西蒙斯( s i m m o l l s ) 模型 定理2 1 3 “1 给定方差上限口时最优样本容量n 满足: 片:j 土+ ! 坠彗i + 1 1 4 口( 2 尸一1 ) 2 口j 2 1 3 无放回方式下的沃纳模型( w a r n e rm o d ei ) 设总体容量为n ,用无放怛l 简单随机抽样万珐抽取晷量为n 的样本,则我们田 以得到如下定理。 定理2 - 叫五( 乞h 且d ( 免) = 等等掣+ 卷等 “( 1 一,) 互生q i ! 尘十:瓣其中;- = 函( 1 一尸) ) ( 2 p 1 ) ,= 号 定理2 1 5 d 函4 ) 的个无偏估计量是: 刍( 会加( t - ,) 等掣+ 嚣鲁 d ( 万a ) ( 1 一,) 二= 二! :二兰+ 妄;:f 定理2 1 6 “3 当总体容量一十。时有放回抽样与无放回抽样的方差估计相 同即存很大时,有放回抽样与无放回抽样等效。 2 2 西蒙斯模型( s f m n o n s 巾o d e i ) 2 2 1 有放回方式下的西蒙斯模型( s i m o n sm o d ei ) 西蒙斯1 9 6 7 年曾建议如果在沃纳模型上使用与第一个陈述a 无关且毫无敏感 性的问题记为b 作为第二个陈述,则被调查者的合作态度可能有所改进。如果第 一个问题不变,记为第总体中具:有问题b 属性的人的比例。则a ,乃,之问 的关系为: 九= p x 兀a + ( 、一p ) 氕b 则我们有如下定理: 电子科技大学硕士学位论文 定理2 2 1 估计量乃s ( 下标s 表示s i 衄0 1 1 s 估计) 是死的极大似然无偏估 计,其中矗= 华,且d r 矗j = 掣 证明引入变量五= 代瓣套喜篓;由全概率分解式得 烈五= 1 ) = 乃尸+ ( 1 一p ) 烈互= o ) = ( 1 一乃) p + ( 1 n ( 卜) 则似然函数三( 乃) = i ! i 【p ( 置= 1 ) r p ( 置= o ) 】 o _ 其中置= 1 ,o = 乃p + ( 1 一p ) r ( 1 一) p + ( 1 一p ) ( 卜) r 1 l g ( 三( ,o ) ) = 啊1 9 万。p + ( 1 一p ) 刀j 】 + ( 聆一码) l g ( 1 一,_ ) p + ( 1 一d ( 1 一万i ) 】 令产娟到赤= 两赫轰而 即 z 。:塑2 学纽 占( z s ) = 专寺喜e ) 一( 】一d 】= 专 耽+ ( 1 一即一( 1 一尸) 】= 乃 。蠢步南喜吖耻等 当未知时为了估计乃,我们一般抽取两个容量分别强,氆的简单随机样本, 对敏感性的问题用不同的比例日,最,设,分别是样本容量为啊,屿,时,随机样 本中回答“是”的人数,则我们可以得到如下定理: 定理2 2 2 估计量z 。( 下标s 表示s i m m o l l s 估计) 是万。的极大似然无偏估 计,其中 万。叫m ,玛r l 一只j m :月:r 1 一只j 】r 只一只j 第二章沃纳( w a m e r ) 模型和西蒙斯( s i m m o n s ) 模型 并且 盹,= 南 半+ 半 其中 = 与乃+ ( 1 一日) ,五= 罡乃+ ( 1 一b ) 证明引入两随机变量: 第一组中被调查者回答“是” 第一组中被调查者回答“否” 第二组中被调查者回答“是” 第二组中被调查者回答“否” p ( 五= 1 ) = e 乃+ ( 1 一号) 巧。= 尸( r = 1 ) = 丑乃+ ( 1 一忍) = 也 则似然函数分别是: 厶( n ,) = 阳+ ( 1 一弓) r 【1 一日乃一( 1 一号) r 。卅1 厶( 乃,) = 【只乃+ ( 1 一只) r 2 【l 一墨乃一( 1 一昱) 】 l g ( 厶( 乃,) ) = l g 【墨乃+ ( 1 一日) 】+ ( 啊一) l g 【1 一日乃一( 1 一日) 】 i g ( 厶( 乃,) ) = 埘:l g 最乃+ ( 1 一最) 】+ ( 心一埘:) i g 【l e 一( 1 一罡) j 由极值条件得到 垫墨 : f 垡二堡2 墨 置乃+ ( 1 一点) 1 一只乃一( 1 一最) 丝墨:f 垫二竺2 墨 b + ( 1 一最) 1 一e 一,一( 1 一县) 解得:万。= n 。r l 一只j m :”:r 1 一只j 】吖置一只j 又由于: 兢,= 去降喜硐一警秘) = 壶 ”只烨川1 一驯l 一枷。卅一鼻j 卅一驯l 一艺属】巩 器n。m、 = = 誓 r 知式公率 概 全 电子科技大学硕士学位论文 所以是乃的无偏估计。 耐矿茄歹 堡喜取,+ 尘笋静i 一 = 南 芈+ 蝴学型化一只j 2l m 啦 j 2 2 2 参数估计与样本容量n 的确定 一般情况下当已知时,p 的取值介于0 7 o 8 ”之间即可,当未知时第 二个样本所用的随机装置中,敏感问题的比例尽可能的小而第一样本中的敏感问 题比例要尽可能的大,即丑一般在o 8 5 之间,而最一般介于o 1 0 1 5 之间。 定理2 2 3 “1 当巩已知时,在给定方差上限口时最优样本容量满足: 胛= 爿扎 定理2 2 4 “1 当未知时样本容量最优分配满足: 兰:牌二婪墨坠型1 2 也 l ( 1 一日) 2 友( 1 一五) j 定理2 2 5 1 1 当未知时,在给定方差上限口时最优样本容量满足: 玎= 锗考 + 1 2 2 3 无放回方式下的西蒙斯( s i m o n s ) 模型 定理2 2 6 当己知时 。( ) = ( 1 一厂) ! i ! :i ! 尘+ ( 1 一,) 塑_ = 二掣+ ! ! ! 二= 2 1 兰:i 趔 其中= 尘墨i 盟堑,且e ( ) = 死 即同时也是死的一个无偏估计。 定理2 2 7 m 令强表示为样本中回答。是”的人数则d ( z ) 的一个无偏估计 1 0 第二章沃纳( w 抽m r ) 模型和西蒙斯( s i l i n o l l s ) 模型 量是: 刍( 珏( 一力等+ 扣叼丛_ ( 1 切等等 + ( 1 一厂) ! l 二! 笋+ ! :! ! 二! = ! i 挚,其中互:鲁,厂:景 2 3 西蒙斯( s i m m o n s ) 贝叶斯估计模型 设总体中具有敏感属性一的人的比例为石。,抽取样本容量为珂的简单随机样 本。然后采用一种随机化装置,对栉个被调查者以概率p 提出第一个敏感问题4 , 以概率1 一p 提出第二个毫无敏感性的问题b 。设是总体中具有属性b 的人的比 例( 已知) ,川是被调查者中回答“是”的人数,则万。的极大似然估计为。3 : 石= 五一( 1 一p ) p ( a = m 功 为了使允有意义,设 f埘以 互: ( 1 一p ) 【p + ( 1 一p ) 当( 1 一p ) m 行p + ( 1 一p ) 当0 s 删栉 p + ( 1 一p ) 兰珈+ ( 1 一p ) m 挖1 假定乃的先验分布是贝塔分布,即,( 乃) = 乃”1 ( 1 一九) “1 b ( 口,6 ) ,( 0 乃1 ) , 则乃的后验分布的核是: 而( 乃l 五,屯,矗) * 乃”1 ( 1 一乃) “1 【p 乃+ ( 1 一p ) 】” 1 一p 乃一( 1 一p ) 确r ” = _ j “( 1 一乃) “1 p n + ( 1 一p ) 】”p ( 1 一乃) + ( 1 一p ) ( 卜魂) r ” 其中 1 l 七= fn ”( 1 一死) “1 p 乃+ ( 1 一力】”f p ( 1 一乃) + ( 1 一p ) ( 卜) r “d 乃f l oj 则万的贝叶斯估计为: l 乃娜= lk 4 ( 1 一乃) “1 【p + ( 1 _ p ) 】p ( 1 一乃) + ( 1 一p ) ( 1 一) r ”d 乃l 0 = 碱。矿。( 1 一p ) ”7 砧”( 1 一) ”。o + f + 1 ,6 + f ) 电子科技大学硕士学位论文 由于乃的后验分布不再是贝塔分布,而且当开,坍很大时计算量很大,因此我们 利用共轭分布思想,在后验分布的核中用一个函数( 乃) = 乃一( 1 一乃) ” ( o 乃1 ,与乃无关) 来代替g ( 乃) 其中 g ( 死) = p + ( 1 一p ) 】【p ( 1 一乃) + ( 1 一p ) ( 卜) r ”( o s 1 ) 此时 厅( 乃i _ ,屯,吒) = _ j 乃“1 ( 1 一乃) “”- 1 = 【舻( 口+ 口+ 1 ,6 + 圳一, 贝0万4 脚刘_ j ,垆( 口+ + 1 ,6 + 6 ) = ( 口+ 口) ( 口+ + 6 + 6 ) 另一方面,在假设扎的先验分布是贝塔分布时,记乃的最大后验估计为 万。”,即为使得而( 乃i 西,屯,) 达最大的估计,因 而( 乃i ,恐,矗) = i 乃。1 ( 1 一乃) “1 p 乃+ ( 1 一p ) r p ( 1 一乃) + ( 1 一p ) ( 卜) r ” 令塑竺4 趔:o 得到一元三次方程,由于解方程困难,仍考虑 u 刀一 ( 乃i 五,恐,) = 七0 l 乃l 1 ( 1 一石) 6 + f _ 1 贝0刀4 m ( 口+ 口一1 ) ( 口+ 口7 + 6 + 6 ,一2 ) 特别地当口:6 = 1 时 7 r 4 m ( + 6 ) = 就是乃的极大似然估计。1 。 万 0 1 当( 1 一p ) m ,聆p + ( 1 一p ) 当o 掰栉 p + ( 1 一p ) 当p + ( 1 一p ) 聊胛1 第三章w 越n * s i 珊n o i l s 统一模型 第三章w a r n e r _ s i m m o n s 统一模型 3 1 两敏感问题的w a r n e r _ sim o n s 统一模型 3 1 1 模型介绍 设有两个敏感性问题4 和4 ,与它们配对的两个问题分别为置和马。所有回 答只有两种:肯定用l ,否定用0 表示。回答一类问题还是回答占类问题,我们可 以用摸球或其他的随机化方法进行,如袋中有5 球,其中3 个爿球,2 个b 球,若 被调查者摸到一球就回答4 类问题( 只有被调查者自己知道) ,摸到占球就回答b 类问题。 第一种情形是:对q 1 :4 或骂q :4 或马分别独立随机化两次, 令 轰= 托翟黧卺 。f 1 回答4 问题 钮一1 0 回答最问题 鼻表示对4 的回答u 表示对骂的回答r 表示对4 的回答 矿表示对岛的回答z 1 表示对q l 的回答z 2 表示对q 2 的回答 烈 z 皇( 2 1 z 1 ) 葛( 矗x + ( 1 一毛) + u ,毒i y 十( 1 一专t ) + v ) 令 e 毛) = 乳,e 1 ) = p l e ( x ) = e ;e ( y ) = a , e ( x y ) = 。e ( u ) = 。,e ( v ) = 口,-e ( u y ) = 。, e ( z t ) = h ,e z 1 ,= 疋,e ( z i z l ) = , 以上这些均为比例量。 第二种情况是;对岛和q 仅作一次随机化,即要么回答4 和4 ,要么回答蜀 和且。实际上就是 令 磊= 岛= 手, e ( ) = p , z = ( z l z 2 ) = + x + ( 、一 ) u 。 4 y + 、一 f ) , 这里日和马可以是非敏感性问题,也可以是4 和4 的对立问题。一般蜀和 鼠可以为相互独立的两个非敏感性问题。 鼠可以为相互独立的两个非敏感性问题。 一 皇王型垫奎堂堡主堂垡笙壅 3 1 2 第一种情形下以,乃,的极大似然估计及其方差估计 3 1 2 。1 问题骂和岛均为非敏感性问题 此时假定死,瓦,死,均已知,可得以,q ,的极大似然估计及其方差估 计。 定理3 1 - 1 嘲1 若瓦,瓦,死,均已知,互,乏,名分别为 五五的极大似然估 计。则: 会。:墨! 二卫= 墨丛,巩= 二_ z 2 , n 二一墨:一r l 一昱j 死 万v = 、_ i o ! , 见 安。:墨二墨( ! 二丝2 墨垒二墨( ! 二旦2 墨尘二 ! = 墨2 ( ! 二旦2 堑 丑p 2 为瓦,乃,的极大似然估计,且为无偏估计。 定理3 1 2 m 1 在定理2 1 的条件下,曩,毒,蠢的方差为 喻= 等喻= 毪笋。 。r 蠢,2 去w 1 一也,+ 万卜 一枷万加一”一五j + 2 死瓦r l p 1 j f l 一岛,r 也一 五j 一2 r 1 一县j r 也一 也j 一2 乃r 1 一a j r 也一是五月 其中胛为样本容量,其极大似然估计仅需将互,互,五代人即可。 3 1 2 2 问题骂和垦分别为4 和4 的对立问题 此时,u = l 一蕾y = 1 一 死= l 一亿,死= l 一乃,= 1 一以一乃+ 均为未知 量,则以,石。,刀的极大似然估计及其方差估计由下面定理给出。 第三章w b m e r - s 妇m o n s 统一模型 定理3 1 3 若五,乞,名分别为a ,如,五的极大似然估计,则 童= 笔旱,毒2 笔旱, 蠢= 塑型型专篙裂笋塑 为以,乃,万。的极大似然估计,且为无偏估计。 定理3 1 4 胁3 在定理3 1 3 的条件下,乏,考,的方差为: 。r 乏,= 篙等, n ,:l 一屯r 1 一五, d q 卜耥t 。 聆,z 口,一l 厂 研菇,= 而罚南w 1 五川1 一枷一是) + r 1 一p 2 j 2 ar 1 一 j + 2 r 1 一见) r 1 一p 2 j r 五一 五j 一2 r 1 一见j r 五五丑j 一2 r 1 一p :j r 也一 五月 其中n 为样本容量,其极大似然估计仅需将a ,丑:,允代入即可。 3 1 3 第二种情形下以,乃,的极大似然估计及其方差估计 3 1 3 1 问题置,垦均为非敏感性问题 此时同样设定以,万,瓦,已知,可得曩,乃,刀0 的极大似然估计及其方差估计。 定理3 1 5 1 若死,乃,死,已知,互,五:,乞分别为 ,五, 的极大似然估计,则 茹,垄二! ! 二旦丝,万x = o _ :o o p ;。:垄= ! 二旦丝,万v = _ 二:, p 为以,乃,石,的极大似然估计,且是无偏估计。 :一九j i 、一p ) 冗。 疗n2 l 2 _ 二o p 定理3 1 6 叫1 在定理定理3 1 的条件下,童,z ,蠢的方差为: 电子科技大学硕士学位论文 n :l 一 r 1 一 , d 冗z j 2 拦,d ;小掣, n :l 一五r 1 一五j d r 万一j 2 等, 为样本容量,其极大似然估计仅需将a t ,丑:,几分别取代上式的 ,五,五即可。 3 1 3 2 问题置,垦分别为4 ,4 的对立问题 定理3 1 7 叫1 若盒,盖:,乞分别为 ,五,五的极大似然估计,则: 龛:;兰掣,安,:l 掣,龛,:五,一r l p ,r l 一;,一龛,j , 2 p 一1 。 2 p l 。、 为以,乃,刀0 的极大似然估计,且是无偏估计。 定理3 1 8 吼3 在定理3 3 条件下,乏,考,的方差为: 。r ;z ,= j ;i ;i j 多,。r ;,= 喾 ;茜i j 笋, 旅加丢w 1 刊+ 掰枷刮+ 掰枷刊 乾掰”例+ z 掰份w + 瑞伦枷 其中”为样本容量,其极大似然估计仅需将五。,五:,免分别取代上式的 ,也,也即可。 3 1 4 “矾,“的贝叶斯估计 在上两节给出的以,万,的极大似然估计中,由于预先设定好了巩,砜,死, a ,p :,p 的值,在抽出的样本中不一定正好是这样的比例值,故上述的极大似然估 计有时候会得出不符合逻辑的值,如以的极大似然估计计算值小于0 或大于l ,瓦 的极大似然估计计算值大于万,的极大似然估计计算值,尤其是在样本容量不大时 更会出现这种情况。为此我们提出了贝叶斯估计,下面我们给出它们的后验期望 和后验方差估计,所用的分布是d 洲c 胁分布。 1 6 第三章m 煳c r s i m m o n s 统一模型 我们给出3 1 2 第一种情况下墨,乃,万,的贝叶斯估计,其他情况的贝叶斯估 计可以类似考虑,证明也略去。记珥1 = 尸r x = 1 ,y = l j ,巧o = p r z = 1 ,y = 0 j l2 p r x = n r = 1 ,o = j p 俾:= o ,r = 0 ,那么啊1 + 巧o + 1 + = 1 。假定 巧1 ,巧。,1 ,刀k 的先验分布为: 其密度函数为: r f q l + 最。+ 岛】+ 氏j ,r 乃,巧。,l ,。j = r r 日l 归r 6 1 0 j 吖岛i j r r 氏j 巩。6 1 - 1 雹。轧。i 岛1 一万0 。,o 乃1 ,巧。,。 1 , o 其他 其中巧1 + 而o + 万o l + = 1 又记 丑5 p ( z 1 = 1 ,z 2 = l 0 2 p ( z 1 = 】,z 2 = o j ,凡。5 以z 1 = o ,z 2 = 1 ,= 烈z l = o ,z 2 = o j 则: 。 丑。 九, q i o l q 0 0 1 l o l 0 1 ,其寺n q h “j k 。l = q 。、伪絮数。 若样本为五= r 瓦,z 2 。j ,露= 1 月,样本值为& = f ,z :。,七= 1 ,”,记魄。为样本 值中取值为r 1 ,1 ) 的个体数,七i 。,屯,的含义类似,且= n 。故 j j 。o 1 r 玛。,巧。,刀砺j 的后验分布函数为: g 亿,蜀。,刀0 ,。,一兀毋砖一, f ,j = o 1 若记g = 门1r 移衫1 巧。慨。d 。 r ,;o j 其中r = r 乃1 ,乃o ,l ,j j 而l + 蜀d + 1 + 1 ) ,码1 + 巧o + l + o = 1 ,则: 登( 氕。) = 毛l 甚j 砖磅? 强冗1 1 d 矗胡, c o y g ( 啊) = 毛l 疆5 磅磅i ) 冗铲一托、p 冗、毋一e 4 ( 尢u ) e g ( 托。) 1 7 电子科技大学硕士学位论文 从而: e g f 冗x ) = e g ( 耳l 1 + 冗协) = e 2 ( 万n ) + e g ( 冗1 q ) , e g ( 兀p ) = e g 冗u + 耳n ) = e g 冗n ) + e g ( 筇m ) e g ( 冗。) = e g 冗n ) , d g 冗。) = c o y g ( 死u 牡u ) d 8 r 以j = d 。r l + 覆o j = c d y g r 而1 ,雹1 ,+ c o 矿窖r 而o ,丑o ,+ 2 c d 矿窖r 乃l ,巧o j d g ( 耳v ) = d g 丌u + 万n ) = c o y g ( 耳u 冗u ) + c o y g ( 再吐,嚣叽) + 2 c o y g ( 靠u 万吐) 在,岛较大时,可以用积分近似计算算得结果。 3 1 5 两个敏感性问题间的相关性 在多个敏感性问题调查中,我们也希望能知道敏感性问题的相关性。在第 3 1 2 节中第一种情况下,我们有如下结果: 定理3 1 9 。”若r 石,u j 与矿独立,且r 】,矿j 与u 独立,则z 与】,独立等价于z 1 与五独立。 定理3 1 9 的意义就是对z 与】,之间的独立性检验可由z l 与z 2 之间的独立性检 验来完成。在这种情况下,我们可得到如下的相关性的结论。 定理3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论