




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
抽样技术其他专题第1页,课件共46页,创作于2023年2月2
以前各章基本假设总体单元数N是已知的,然后对总体的有关特征如均值、总值、比例等进行估计。但有些场合,总体单元数是未知的,是要估计的目标,如:一个池塘中鱼的数量,一片森林中鸟的数量等。彼得森(Peterson,1896)提出捕获再捕获抽样,并将此方法用于野生动物的数量研究中。第一节捕获再捕获抽样第2页,课件共46页,创作于2023年2月以捕鱼为例说明:假如要估计湖中的鱼的数量N;从湖中捕获200条鱼做记号放回湖中,让它们与湖中未做记号的鱼充分混合。然后从湖中再捕获100条鱼,假设这次捕获的鱼中有20条是已经做了记号的,若假定鱼的总体没有变化,两次捕鱼都是简单随机抽样,就可以估计湖中的鱼20%做了标记,由此可以推断N的估计值是1000。3第3页,课件共46页,创作于2023年2月这种方法依赖于以下假定:(1)总体是封闭的——两次抽样间没有鱼进入或离开该湖。即对每次抽样而言,N相同。(2)每个样本都是来自总体的简单随机抽样。即湖中每条鱼都有同样机会被捕获。(3)两个样本是独立的。即第一次捕获并放回湖中再次与总体混合,标记与否和第二次被捕获的概率没有关系。(4)鱼不会丢失其标记,从而有记号的鱼可以被识别。4第4页,课件共46页,创作于2023年2月5若为第二次抽样的样本量,m为第二次捕获有记号的单元的数量,有则一、直接抽样法◆先从单元数为N(未知)的总体中抽取一个随机样本,设样本量为,把这些单元做上记号,然后放回总体,使其与原总体的单元充分混合;这时,做记号的数量占总体数量的比例为,N未知,P待估计;◆再抽取一个样本,观察其中做记号的单元所占的比例,对总体的单元数进行估计。第5页,课件共46页,创作于2023年2月6可以看成比率估计的特殊形式令1,0,如果第i个做过标记如果第i个未做标记第6页,课件共46页,创作于2023年2月7由比率估计方差可以得到:有偏当第一次样本量和第二次样本量足够大时,偏差会逐步变小。通常对N是略有高估的。在大样本情况下,估计量近似正态分布,可以给出一定置信度下的置信区间。第7页,课件共46页,创作于2023年2月8前例中,第8页,课件共46页,创作于2023年2月二、逆抽样法当做记号的单元在总体中的比例很小时,即很小,9则在第二次抽样时是一个小比例事件,如果不够大,很可能出现没有记号的单元,即,无法对N进行估计。一种方法:加大第一次抽样的数目;另一种:逆抽样;这种方法在第二次抽样时,并不对的数量作出规定,而是一直抽到曾做过记号的单元数达到个为止。与直接抽样法不同,此时是预先规定的,而是一个随机变量。第9页,课件共46页,创作于2023年2月例:欲估计某个森林中啄木鸟的数量。首先随即捕捉了150只啄木鸟,并在鸟的翅膀下染上颜色作为记号,然后予以放飞,适当的一段时间后,在第二次捕捉中目标是捕到有记号的啄木鸟35只,结果一共捕捉了100只。要求估计啄木鸟的数量,并给出估计标准误。10第10页,课件共46页,创作于2023年2月某出版社要调查某一畅销书的盗版数量,由于正版发行多少册是已知的,相当于已做记号的的册,然后可以随机的抽取个购买该书的读者,若其中有册正版书,则可以推算出正版书和盗版书的总量,从而算出盗版书的数量。推算总的网站数量。在CN下注册的网站的数量是已知的,但在CN外的就无法掌握……11捕获再捕获的抽样方法起源于野生动物的估计,可以进一步扩展用于社会经济的统计。广场集会人数的调查。如某报社要报导某次自发性的集会人数,可以在广场入口处散发一些小红帽,然后由记者随机抽取一个参与集会的样本,该样本中有多少有小红帽,就可以推断出总人数。第11页,课件共46页,创作于2023年2月采用条样(Quadratsamples)
估计总体密度和数量直接抽样和逆抽样都是建立在总体单位流动性比较大的基础上;对于有些总体的流动性并不是很大,例如松林中发生的松毛虫灾害,大气中的可吸入颗粒物,就不适宜采用捕捉再捕捉抽样;通常采用抽取若干样本来估计总体密度,然后根据总体的面积或体积来估计总体数量。12第12页,课件共46页,创作于2023年2月设一个地区的面积为A,从中随机抽取n个样本,这种样本通常称为条样。若每个条样的面积为a,则总体划分为N个a,总面积A=Na。13这些元素在总体中的密度为第13页,课件共46页,创作于2023年2月在对密度的估计中,通常假设总体的元素在总体中的分布是随机的,而不是聚集在一起的,即分布没有一定的规则顺序,因此在条样中的分布近似于泊松分布;14先计算样本每个条样中的平均元素数:再估计条样的密度:总体的元素总量M的估计值为:其方差估计为:第14页,课件共46页,创作于2023年2月例:在一项耕地的切根虫调查中,抽取的工具是一个20cm长和20cm宽的一个正方形测框,取10cm的表土来计量切根虫的数量。随机取了10个样框资料,得到每个测框中平均有切根虫2条。试估计在一块5000平方米的耕地中有多少切根虫,并给出估计标准误。15解:切根虫数已知该耕地切根虫数估计为25万条,估计标准误为5.59万条。第15页,课件共46页,创作于2023年2月16
第二节样本轮换一、样本轮换的原因有些抽样调查是连续性的,需要定期的重复进行;通常逐月、逐季或者每半年一次,都要估计有关指标,还要与上月上季或上年同期对比;为了解决样本老化和更换全部样本单位引起的费用增加以及前后期比较问题,就要考虑采用样本轮换。样本轮换:在抽样调查中,每隔一定时间更换一定比例的样本单位,保留其余单位。第16页,课件共46页,创作于2023年2月17二、样本轮换的最优比例假定抽样是放回的简单随机抽样;设在第一个时期的样本量为n,在第二个时期保留样本的比例为p,即保留的样本量为np,同时独立的补充新的样本量nq,p+q=1。第二个时期的样本量仍然为n。第17页,课件共46页,创作于2023年2月18第一个时期与第二个时期相同的np个单位在第一个时期的均值第一个时期的nq个单位在第一个时期的均值np个单位在第二个时期的均值nq个补充单位在第二个时期的均值估计第二个时期的均值,并希望此均值充分利用第一个时期的信息,令第18页,课件共46页,创作于2023年2月19因为要使有可以求得估计量方差第19页,课件共46页,创作于2023年2月20该估计量的方差:第20页,课件共46页,创作于2023年2月如果不利用前期信息,只根据第二期的结果来估计均值,有21其方差为计算利用前期信息后的设计效应见书P208:可以得到最优的轮换比:第21页,课件共46页,创作于2023年2月22三、样本轮换方法(P209)四、样本轮换应该遵循的原则第22页,课件共46页,创作于2023年2月23第三节敏感性问题的处理一、敏感性问题所调查的内容涉及个人隐私,受访者不愿或不便于公开的问题。如果直接使用对这类问题的答案构成的调查结果来推断总体,显然可靠性值得怀疑。一般从两个方面改进:改进问卷设计;通过引入专门的抽样技术(随机化模型),消除受访者的防卫心理,降低受访者因真实回答遭受的隐私受侵害的风险。第23页,课件共46页,创作于2023年2月
是指在调查中使用特定的随机化装置,使得被调查者以预定的概率来回答敏感性问题。这一技术的宗旨就是最大限度地为被调查者保守秘密,从而取得被调查者的信任。随机化回答技术比如在调查学生考试作弊的问题中,设计外形完全一样的卡片k张,其中k1张卡片上写上“你考试是否作过弊?”,n-k1张卡片上写上另外的问题。然后放在一盒子里。调查时,由被调查者从盒子里任抽一卡片,根据卡片上的问题做出回答,至于卡片上具体是什么问题,调查者无权过问。这样就起到了为被调查者保密的作用。因而相对于直接问答调查,易于得到被调查者的合作。
第24页,课件共46页,创作于2023年2月
沃纳随机化回答模型
西蒙斯模型(Simmonsmodel)随机应答技术的类型第25页,课件共46页,创作于2023年2月二、沃纳随机化回答模型由美国统计学家沃纳提出,具体的做法是:要调查的敏感性问题,列出正反两个问题。如调查考试作弊问题,就作成两种卡片:卡片A:我曾在考试中作弊卡片B:我不曾在考试中作弊
然后由被调查者随机抽取一张来回答“是”或“否”,至于卡片上具体是什么问题,调查者无权过问。因此,调查人员并不知道被调查者在回答那一个问题,而达到对被调查者个人秘密的保密作用。第26页,课件共46页,创作于2023年2月
两种卡片的比例是已知的。卡片A的比例是P,卡片B的比例是1-P。在大规模调查中,抽中卡片A的概率P(A)=P,抽中卡片B的概率P(B)=1-P
沃纳随机化回答模型
若样本量为n,回答“是”的人有m个,则回答“是”的有两种情况:一种抽中了卡片A,正好是作了弊,另一种是抽到了卡片B,没有作弊的。第27页,课件共46页,创作于2023年2月28受访者卡片A卡片B是不是不是是具有A特征具有B特征具有A特征具有B特征不管抽到卡片A还是B,作过弊的概率是相等的,假设为第28页,课件共46页,创作于2023年2月其方差为:无偏估计:第29页,课件共46页,创作于2023年2月举例:P224.6解:第30页,课件共46页,创作于2023年2月仍然存在的两个问题1.在模型设计中,受访者需要回答的两个问题仍然都是敏感的;2.要求P≠1/2,而且当P越接近1/2,估计量方差越大,效率越低。但从消除受访者的顾虑角度看,两种卡片的比例最好是1/2,这样抽中这两类问题的机会是均等的。西蒙斯提出一种修改方案:无关问题的随机化回答模型。将一张卡片的问题改为与所调查的敏感问完全无关的非敏感问题。31第31页,课件共46页,创作于2023年2月三、西蒙斯模型
设提敏感性问题的卡片的比例是P,无关问题的卡片的比例是1-P。
对于敏感性问题回答“是”的比例为,对无关问题回答“是”比例为。
若样本量为n,回答“是”的人有m个,则有第32页,课件共46页,创作于2023年2月33估计量方差例见教材P217第33页,课件共46页,创作于2023年2月敏感性问题调查方法的应用
某高校在开展关于普及性知识的活动中,要求对学校的学生是否有过性行为这一问题进行抽样调查。该调查问题具有敏感性,运用通常采取的调查方式,调查根本无法进行,因此运用了敏感性问题抽样调查方法;该高校在校生人数为6000人,随机抽取1500名学生进行抽样调查,且分别运用了以上的两种方法,比较统计结果。第34页,课件共46页,创作于2023年2月
采用随机化的回答技术设计了两种用信封封装比例一定的问卷;一种问题为:“你有过性行为吗?”;另一种问题为:“你没有过性行为吗?”。在调查时,让同学任意选取一个信封并回答上面的问题,当然调查人员是不知道该同学回答的是哪一个问题。第一种方法:沃纳随机化回答模型提出两个都具有敏感性相关问题第35页,课件共46页,创作于2023年2月
这样同学们根据他们的实际情况回答抽到的问题,与自己的情况一致的则回答“是”;否则回答“不是”。研究者在设计问卷时,设计第一种问题占60%,这样两个问题所占的比例比较接近,有助于让被调查者消除顾虑,对收回的问卷进行统计,结果对两种问题回答“是”的有638人,占样本的比例为:m/n=638/1500=0.4253第36页,课件共46页,创作于2023年2月已知m/n=638/1500=0.4253,P=60%将它代入其方差为:得到回答第一种问题为“是”的人数估计比例:估计标准误为:第37页,课件共46页,创作于2023年2月
同样采用随机化的回答技术设计了两种用信封封装比例一定的问卷,然而一种问题为:“你有过作弊行为吗?”;为了统计的方便,另一种问题设计为:“你是四月份出生的吗?”。
显然,第二个问题与所要调查的问题无关,而且被调查同学当中是四月份出生的比例可以很容易从学校教务处学生信息中心收集到。经统计该校学生中四月份出生者所占的比例为15.38%。其中设计的问卷中第一种问题同样占60%,统计结果为对两种问题回答“是”的有206人,占样本的比例为:
m/n=206/1500第二种方法:提出的两个问题,一个为敏感性问题,另一个为与调查内容无关的非敏感性问题。第38页,课件共46页,创作于2023年2月得到回答第一种问题为“是”的人数估计比例:其方差为:可以看出采用两种调查技术,最终得出的结果是接近的
估计标准误为:第39页,课件共46页,创作于2023年2月第四节交叉子样本交叉子样本方法,又称为随机组方法,是将抽出的样本分成若干组,每个组形成一个子样本,再利用每个子样本之间的离散程度构造方差估计量。对于复杂抽样便于计算估计量方差和估计标准误;还可以用于发现偏差,核对调查员的调查质量。40第40页,课件共46页,创作于2023年2月一、独立的交叉子样本设总体为N,从中抽取容量为n的样本。并不直接抽取,而是抽取k个子样本,每个子样本的容量为m,n=km,每个子样本都可以得到总体指标的无偏估计量,那么总体指标的估计量及其方差为:41第41页,课件共46页,创作于2023年2月42123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125………………………………………………………………37637737837938038138238
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 子宫腺肌病合并子宫内膜腺癌护理查房
- 慢性肾盂肾炎合并肾性高血压护理查房
- 阿拉尔市2025-2026学年七年级上学期语文月考模拟试卷
- 安徽省亳州市涡阳县2024-2025学年高一上学期第一次月考化学试卷及答案
- 2025 年小升初吕梁市初一新生分班考试英语试卷(带答案解析)-(外研版)
- 湖南省零陵区2025年5月中考思想品德历史综合模拟试题(无答案)
- 黑龙江2025年下半年城市规划师考试规划实务:人居环境科学和可持续发展考试题
- 【名师一号】2026届高考生物总复习体验双基考题:选修1 专题3 植物的组织培养和酶的研究与应用
- 社区科普知识课件
- 社区电梯安全知识培训课件
- 2026版步步高大一轮高考数学复习讲义第三章 进阶篇 不等式恒(能)成立问题 进阶2 参数半分离与主元变换含答案
- 2025年中国数位式照度计市场调查研究报告
- 净化板材料安装合同范本
- 中国NAD+ 增强剂行业市场占有率及投资前景预测分析报告
- 江苏省扬州市2023-2024学年高一下学期6月期末考试英语试题(含答案)
- 遗址公园建设项目可行性研究报告
- 2025如何审查合同文件中的要约与要约邀请的区别
- 权责清单培训实施纲要
- GB/T 2099.31-2025家用和类似用途插头插座第31部分:装有USB电源的插座的特殊要求
- 2025-2030酒吧行业市场发展分析及投资前景研究报告
- 2025-2030年中国土豆切片机行业市场现状供需分析及投资评估规划分析研究报告
评论
0/150
提交评论