版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一节概述重抽样(复制样本),泰勒级数,广义方差函数典型抽样方法?复杂设计:多种抽样方法结合,多种抽样框复杂估计:非线性,无回答调整,加权估计,事后分层第一节概述重抽样(复制样本),泰勒级数,广义方差函数典型抽1第二节随机组法一.什么是随机组法(RandomGroupMethod)
不同的名称:replicatesamples重复样本ultimatecluster末级群交叉样本等
不同的术语来自于不同的应用。第二节随机组法一.什么是随机组法(RandomGrou2抽样调查课件第八章-调查中的复杂样本3抽样调查课件第八章-调查中的复杂样本4抽样调查课件第八章-调查中的复杂样本5无偏估计无偏估计6抽样调查课件第八章-调查中的复杂样本7全样本估计全样本估计8保守估计保守估计9抽样调查课件第八章-调查中的复杂样本10抽样调查课件第八章-调查中的复杂样本11利用随机组方法估计拒答率及其方差样本样本拒答户数合格调查户数拒答户数合格调查户数城区S1S2拒答户数合格调查户数拒答户数合格调查户数141150371492401493014833814538150总计119444105447利用随机组方法估计拒答率及其方差样本样本拒答户数合格调查户12抽样调查课件第八章-调查中的复杂样本13172个抽屉64张卡片,卡片可能是可能是合同汽车旅馆、饭店、空白卡片等1.总体中约有5000个合同汽车旅馆,并准备抽取约700个单元作总样本,这样,总抽样比约为700/5000,即约7个里面抽1个。所以,每一个抽屉都各增加6张空白卡片,这样每个抽屉都有70张卡片。2.从每一个抽屉中随机抽取一张卡片,组成一个172张卡片的样本。抽样在不同的抽屉中是互相独立的。3.按照第2步的方法有放回地再抽取9个样本,10个样本(或随机组)互相独立。4.结果有854个汽车旅馆被抽入总样本,向每一个单元寄一张调查表。其他单元不是合同汽车放馆,不属于被调查总体。没有单元被重复观测。5.10天后,对无回答的单元第二次寄调查表,再过一星期第三次寄调查表。如果一个单元24天后仍无返回调查表,就被认为是无回答者。6.将无回答者按随机组的数字顺序排列,并从每3个相邻组中随机抽选一个。忽略对随机组估计量独立性的破坏。172个抽屉64张卡片,卡片可能是可能是合同汽车旅14抽样调查课件第八章-调查中的复杂样本15抽样调查课件第八章-调查中的复杂样本16总数总数17=70×(16+3×1)=1330权数:入样概率倒数
=70×94=6580
第一随机组中回答者和无回答者子样本的求和=70×(16+3×1)=1330权数:入样概率18抽样调查课件第八章-调查中的复杂样本19抽样调查课件第八章-调查中的复杂样本20实际应用中很难实现多次有放回抽样,而是把一次样本随机分为k个随机组,所以随机组相互不独立实际应用中很难实现多次有放回抽样,而是把一次样本随机分为k个21抽样调查课件第八章-调查中的复杂样本224多阶段抽样:来自同一初级抽样单元(PSU)的所有基本样本单元的集合:末级群。随机组是通过将所有末级群分成组而得到的,具体的划分方法根据第一阶抽样方法而定。5如果采用的是二重抽样,则应将第一重样本划分成个随机组;而第二重样本则被相应地分成随机组,即第二重样本单元所在的随机组完全由第一次划分时决定。4多阶段抽样:来自同一初级抽样单元(PSU)的所有基本样本23抽样调查课件第八章-调查中的复杂样本24抽样调查课件第八章-调查中的复杂样本25抽样调查课件第八章-调查中的复杂样本26在许多大规模调查中偏差通常都不会很大在许多大规模调查中偏差通常都不会很大27随机组问题的讨论涉及两个主要问题:1.估计量的方差2.估计量方差的精度,即对随机组方差估计的质量评估。
随机组问题的讨论涉及两个主要问题:28抽样调查课件第八章-调查中的复杂样本29当N,n很大,抽样比很小时,也可用于不独立随机组当N,n很大,抽样比很小时,也可用于不独立随机组30(1)峰度(1)峰度31由(1)式看出,近似地反比于随机组个数K定理说明CV依赖于两个因素,和K1.K小,CV则大2.大,CV也大由(1)式看出,近似地反比于随机组个数K定理说明32说明,方差的随机组估计的精度,不但依赖k,而且与的分布(从而与)有关。令m=n/k,如取采用有放回简单随机抽样,取为a组的样本均值,则
说明,方差的随机组估计的精度,不但依赖k,而且与33这时若抽样方式为放回PPS抽样,取为第a组的总体总和的估计量,则这时若抽样方式为放回PPS抽样,取34抽样调查课件第八章-调查中的复杂样本35上述两种形式蕴含了这样一个事实,从本质上讲,的形式。m从1开始增长时,峰度明显减少,但随m越来越大,峰度的递减作用减少,因此对越来越大的m,峰度的边际递减不足以弥补必要的k的递减,K对减少CV和提高方差估计精度比组容量m更重要。上述两种形式蕴含了这样一个事实,从本质上讲,m从1开始增长时36抽样调查课件第八章-调查中的复杂样本37要满足需要的精度水平
需要什么样的m和k?估计听取专家意见根据经验判断K增长时费用会增加,因此最优k的选择应该在费用约束下寻找要满足需要的精度水平38总结:randomgroupmethods优点:计算简单,适用面广适于多参数、非参数问题,适于分中位数等非平滑函数,也可用于非抽样误差加权调整后的方差估计。缺点:随机组数目一般较少,方差估计不稳定,一般至少10个随机组。随机组的产生较困难:要求机制与复杂抽样相同,而且限制随机组数目,如每层2个PSU总结:randomgroupmethods优点:39ResamplingandreplicationmethodsSampling:“population”Subsamples(WR):估计方差BanlancedRepeatedReplicationJacknifebootstrapResamplingandreplicationmet40半样本法:50年代末美国普查局的W.N.赫维茨和M.格尼平衡半样本法:麦卡锡BanlancedRepeatedReplication半样本法:50年代末美国普查局的W.N.赫维茨和M.格41第三节平衡半样本方法半样本基本原理每层只抽两个单元的分层抽样随机组方法第三节平衡半样本方法半样本基本原理42随机组缺点?由于仅仅一个自由度,其稳定性比标准估计量差半样本:从每层抽取一个单元形成半样本,总共可能出现?个半样本半样本之间是彼此相关的随机组缺点?由于仅仅一个自由度,其稳定性比标准估计量差43半样本估计量=1,如果第h层中第一个单元被选入第个半样本;=0,否则。半样本估计量44半样本估计量的性质半样本估计量的性质45平衡半样本
一个小的半样本子集(k)尽量保留所有的信息满足该条件的k个半样本为平衡半样本完全正交平衡(fullorthogonalbalance)半样本满足该条件的平衡半样本称为完全正交平衡半样本平衡半样本
一个小的半样本子集(k)尽量保留所有的信息满足46抽样调查课件第八章-调查中的复杂样本47完全正交平衡半样本:k的选择应该是大于L的4的最小整数倍半样本层12341+1+1+1-12-1+1-1-13-1-1+1-14+1-1-1-1完全正交平衡半样本:k的选择应该是大于L的4的最小整数倍48部分平衡半样本
假设有L层,采用K组半样本L层可分为G群各群用同样方法构造正交列半样本层12341+1+1+1+12+1-1+1-1部分平衡半样本的方差估计量虽然不如完全平衡半样本精确,但也是无偏的。部分平衡半样本
假设有L层,采用K组半样本半样本层1234149用于多阶段抽样在L层中的每一层初级抽样单元(PSU)都是按放回的抽样抽取的用于多阶段抽样在L层中的每一层初级抽样单元(PSU)都是按放50用于非线性估计对于非线性估计量,一般和是不等的,但多数调查实践中两者非常接近用于非线性估计51推广nh=1nh〉2推广nh=152第四节Jackknife方法Pseudovalue第四节Jackknife方法Pseudovalue53抽样调查课件第八章-调查中的复杂样本54抽样调查课件第八章-调查中的复杂样本55抽样调查课件第八章-调查中的复杂样本56抽样调查课件第八章-调查中的复杂样本57抽样调查课件第八章-调查中的复杂样本58抽样调查课件第八章-调查中的复杂样本59抽样调查课件第八章-调查中的复杂样本60抽样调查课件第八章-调查中的复杂样本61抽样调查课件第八章-调查中的复杂样本62PPS例前面srs+wr例当k=n时,由于第j个虚拟值为平均值中的第j个变量,因此有PPS例前面srs+wr例当k=n时,由于第j个虚拟值为平均63抽样调查课件第八章-调查中的复杂样本64抽样调查课件第八章-调查中的复杂样本65抽样调查课件第八章-调查中的复杂样本66抽样调查课件第八章-调查中的复杂样本67抽样调查课件第八章-调查中的复杂样本68抽样调查课件第八章-调查中的复杂样本69
Jackknife的虚拟值为Jackknife的估计量为在非线性估计条件下,
70抽样调查课件第八章-调查中的复杂样本71抽样调查课件第八章-调查中的复杂样本72抽样调查课件第八章-调查中的复杂样本73抽样调查课件第八章-调查中的复杂样本74抽样调查课件第八章-调查中的复杂样本75拒答率案例拒答率案例76第五节其他方法简介第五节其他方法简介77一、bootstrap(Efron,1979)SRS,n,”population”,resamples,假设S是一个容量为n的简单随机样本;将S视为总体,从中再抽取重复样本。如果样本与总体确实相似——如果样本的经验概率密度函数(epmf)与总体的概率密度函数相似——那么从经验概率密度函数中产生的样本应该与从总体中抽取的样本表现出相同的特性。WR,WOR优势:非平滑函数,方便的构造置信区间一、bootstrap(Efron,1979)SRS,n,78抽样调查课件第八章-调查中的复杂样本79例利用文件ht.srs中的样本,用bootstrap方法估计身高中位数的方差。总体中身高的中位数是168;而ht.srs中样本中位数是169。总体概率密度函数与样本柱状图有相同的形状,因此预期从S中放回地抽取容量为n的简单随机样本,与从总体中放回地抽取的简单随机样本是类似的。从S中抽取的重复样本可能与S并不完全一致,因为重复样本是放回的——S中的有些观测值可能在重复样本中多次出现,有些观测值却从未被抽到过。例利用文件ht.srs中的样本,用bootstrap方法估计80一共从S中抽取R=2000个重复样本(n=200),分别计算每个样本的中位数,得到2000个样本中位数的频数表:这2000个值的样本均值为169.3,样本方差为0.9148(方差的bootstrap估计量)。中位数的95%置信区间为[167.5,171]。直接利用bootstrap估计出的抽样分布,确定bootstrap分布的2.5百分位数和97.5百分位数,就可以得到95%的置信区间。中位数165166166.5167167.5168168.5169169.5170170.5171171.5172频数1524015268877391114914418854一共从S中抽取R=2000个重复样本(n=200),分别81初始简单随机样本是无放回Gross(1980)建议生成个样本的复制,以此作为“虚拟的总体”,再从虚拟总体中无放回地抽取R个简单随机样本。如果很小,那么放回与无放回的bootstrap分布应该相差不大。初始简单随机样本是无放回Gross(1980)建议生成82复杂抽样中bootstrap方法,Rao和Wu(1988)从第h层的样本中放回地抽取一个容量为的简单随机样本。各层的抽样独立进行。对于每个重复样本r,生成一个新的权数变量其中是观测单元i被选入重复样本的次数。利用新的权数来计算。将第1、2步重复R次,R应该是一个很大的数。计算复杂抽样中bootstrap方法,Rao和Wu(1988)从83二、Generalizedvariancefunction(GVFs)1990,NCVS,估计某种犯罪受害者人数t20-24岁二、Generalizedvariancefunctio841990年抢劫总次数的估计值为800510次;该估计的标准差是如果对于不同的估计量有近似的设计效应(deff),1990年抢劫总次数的估计值为800510次;该估计的标准差85构建广义方差函数的一般步骤:
使用复制或其他方法,估计感兴趣的k个总体总量()的方差。令相对方差=构建一个模型。=利用回归技术估计和。Valliant(1987)建议采用加权最小二乘方法估计这两个参数,并为较小的项目赋予较大的权数。构建广义方差函数的一般步骤:
使用复制或其他方法,估计感兴86优点
在公布信息不充分的情况下可以用GVF来直接计算标准差。广义方差函数节省了大量时间,加速了年度报告的产生。GVF对于将来类似调查的设计也很有借鉴意义。缺点
模型可能并不适用,因此得出的方差估计是不可靠的。对计算回归参数时未采用的那些量的方差进行估计时,应用GVF必须谨慎。如果子总体中的群deff非常高时,GVF会严重低估方差。优点87三、泰勒级数法(线性化方法)
例如犯罪损失调查是抢劫受害者报告的被抢金额,是受害者因此耽误的工作日,是抢劫受害者支付的医疗费用,假设每工作日损失150美元,对抢劫经济损失的可能是。
更简便的办法:在观测单元水平上定义新的变量,三、泰勒级数法(线性化方法)
例如犯罪损失调查是抢劫受害者报88总体总量的平滑非线性函数总体总量的平滑非线性函数89例例90将均值和总量的非线性函数的方差估计量线性化的一般步骤:将目标量表示成样本中测量或计算变量的均值或总量的函数。通常的形式为计算关于各个自变量的偏导数。以形成线性化步骤中的常数。应用Taylor定理将估计量线性化:定义新的变量q计算的方差,将其作为方差的近似。将均值和总量的非线性函数的方差估计量线性化的一般步骤:将目91例如比估计应用Taylor定理:例如比估计应用Taylor定理:92抽样调查课件第八章-调查中的复杂样本93优点:如果偏导数已知,应用线性化方法可以给出统计量的方差估计、并可以应用于一般的抽样设计中。线性化方法在统计学中有长期的应用,相关理论得到了很好的发展。现在有很多计算比率、回归系数等非线性函数的线性化方差估计的软件。缺点计算过于繁琐,在包含权数的复杂函数中这一方法难于应用。需要确定h的偏导数的分析表达式,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年职位能力测试题及答案
- 2026年亳州科四测试题及答案
- 2026年mmpi人格测试题目及答案
- 2026年异地恋心理测试题及答案
- 2026年自闭症机械测试题及答案
- 2026年银行授权体系测试题及答案
- 第7课《不甘屈辱奋勇抗争》(第2课时)(教学设计)-部编版道德与法治五年级下册
- 2026年铜川市中医医院医护人员招聘考试备考试题及答案详解
- 2026年度宴会服务供应合同
- 2026年度深度合作热处理加工协议
- 游泳馆卫生管理制度
- 外研版(三起)四年级英语下册期末知能达标提优卷
- 2026中国医药研发外包服务市场现状供需分析及投资评估规划分析研究报告
- 心脏介入护理新进展与分享
- 2026年青年情绪白皮书-
- 2026年高考作文备考之一材多用:张雪机车夺冠-二十年铸就“飞驰人生”
- 《物联网设备安装与调试》课程标准
- 2026年天津市南开区中考一模历史试卷和答案
- 继电保护试验室规章制度
- 《建设项目对风景名胜区影响评价报告编制大纲(试行)》
- 流通经济学赵娴习题答案
评论
0/150
提交评论