其他抽样、复杂样本及方差估计和非抽样误差.ppt

上传人：y*** IP属地：四川上传时间：2020-03-26 格式：PPT 页数：52 大小：643KB 积分：15 举报 版权申诉

已阅读5页，还剩47页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

非概率抽样非抽样误差五种经典概率抽样方法其他抽样方法复杂抽样等其他抽样方法估计湖中之鱼的数量N 捕获和再捕获估计例假如我们想估计湖中之鱼的数量N 一个方法是从湖中捕获200条鱼做上标记后放回湖中让它们与湖中未作标记的鱼混合然后从湖中再捕获100条鱼这次与第一次捕获是相互独立的假设第二次捕获的鱼中有20条是已经做了标记的假定两次捕获中间湖中鱼的总体没有发生变化且每次从湖中捕鱼都是简单随机抽样那么就可以得到这样的估计湖中的鱼有20 做了标记这样就相当于那200条作了标记的鱼近似代表了湖中鱼总体的20 因此N的估计值就近似等于1000 假定总体是封闭的两次抽样间没有鱼进入或离开该湖即对每次抽样而言 N是相同的每个样本都是来自总体的简单随机抽样即湖中每条鱼都有同样的机会被捕获有时并不是这样比如那些小鱼或健康状况稍差的鱼比较容易被捕获并且湖中没有不会被捕获的隐藏的鱼两个样本是独立的鱼不会丢失其标记从而有标记的鱼可以被识别 n1 200 n2 100 m 20 v美国统计学家的数量从美国统计协会 ASA 和数理统计学会 IMS 得到了他们的会员名册每位统计学家都可能是ASA的会员也可能不是同样也可能是IMS的会员也可能不是则n1为ASA会员数 n2为IMS会员数 m是同时出现在两个组织会员名册上人的数量估计统计学家的数量二重抽样先从总体中抽取一个大的初始样本从而获得总体的辅助信息然后再从初始样本或从总体中再抽一个子样本这种方法就是二重抽样作用有助于筛选主调查对象节约调查费用提高抽样效率于研究样本轮换中的某些问题降低无回答偏差未分层的二重抽样二重抽样对估计量的调整若子样本中每个人都作出回答则二重抽样不仅消除了无回答偏差而且还在方差估计中对原有无回答部分进行了解释应该尝试多获取一些无回答者的信息以用于调整单位无回答多包括进一些相关项目以用于调整项目无回答从无回答者中随机抽选100v 的子样本假设访问到了所有的目标无回答者如果有限总体修正系数可忽略二重分层抽样样本量的最优分配复杂调查设计的简化在抽样设计时必须确保你所使用的复杂设计被先验或以前研究者证明是更有效操作性更强的一个复杂设计要在估计所有的变量时都有效在单位成本上获得同样多的信息的情况下应该优先选择简单设计而非复杂的设计抽样权重对于一个观测单元抽样权重往往是被抽中概率的倒数每个样本单元都代表了总体中一定数目的单元所以样本代表了整个总体抽样权重包含了构造点估计所需的全部信息方差的估计需要除抽样权重以外更多抽样设计的信息抽样权重对于分层抽样等概率整群抽样中不等概整群抽样中三阶段整群抽样中自加权样本自加权调查中各样本单元的抽样权重相等在不考虑非抽样误差的情况下自加权样本可以看成完全反映了总体因为每个样本单元都反映了总体中相同数目的单元自加权样本往往方差较小估计更精确在自加权的复杂调查中标准的统计软件在假定观测单元是独立同分布的条件下编写数据分析程序的软件可以给出均值分位数及其他统计量的正确估计而标准误差假设检验以及置信区间却往往是错误的对于非自加权的样本用抽样权重来构造empiricalprobabilitymassfunction及其分布函数在分层样本中每名女性的抽样权重为6 25 每名男性的抽样权重为25 权重修正了图中较高人群对总体的代表性被降低的部分总体f y 样本f y ST样本均值及中位数偏低样本中的男性代表性被降低 200的SRS 自加权样本单元的直方图与总体的相似总体F y 样本F y EPMF 利用EPMF 设计效应对于抽样设计的效率 Cornfield 1951 建议采用SRS获得的k个观测单元的估计方差与复杂抽样获得的相同数目观测单元的估计方差的比值来衡量 Kish 1965 将该比值的倒数命名为设计效应 designeffect 简记为deff 若设计效应已知可以计算复杂样本的方差估算样本量设计效应比例分配下分层抽样的设计效应近似为群大小相等时整群抽样的设计效应设计效应与置信区间 p的95 置信区间为假定有限总体修正系数近似为1 在估计均值时若样本足够大由中心极限定理可得均值估计的95 置信区间为 Kish及其他作者有时采用设计效应与样本量例在海关某业务出错率的调查中抽样样本单元为报关单允许的最大估计误差为真值的20 假定出错率的真值为0 01 那么SRS所需样本量为估计抽取报关单的设计效应为2 平均一份报关单包括两条商品记录那么一共需要抽取多少报关单案例全国犯罪受害者调查 theNationalCrimeVictimizationSurvey NCVS 全国统一犯罪报告 UniformCrimeReport 该报告由FBI根据各执法部门提交的报告汇编而成往往低估了美国犯罪的总数美国司法统计局 theBureauofJusticeStatistics 组织全国普查局实施访问的全国性大型调查与现时人口调查 theCurrentPopulationSurvey CPS 类似 NCVS也采用分层和多阶段整群抽样 NCVS的调查范围为全国所有家庭中年龄在12岁及以上的成员主要调查他们在过去的6个月的犯罪受害经历第一阶段 NCVS中的psu为县 county 一组相邻的县或者是大型城市统计区 metropolitanstatisticalarea 简记为MSA 一个MSA包括一个大型城市及其周围与其在经济和社会方面关系密切的地区所有人口在550 000及以上的psu都作为自我代表样本单元 self representing SR 被抽中的概率为1 对其他psu进行分层保证每一层内的人口大约为650 000 psu的分层主要按照1980年普查获得的地理位置及人口统计信息以及全国统一犯罪报告提供的犯罪率各层的受害率差异较大在每一层中按照与psu的人口总数成比例的概率抽取一个psu 这个psu是非自我代表的 non self representing NSR 在1990年的NCVS中共抽取84个SR的psu和153个NSR的psu 第二阶段抽样的第二阶段是抽取地区清单 enumerationdistrict ED 1990年普查中称为addressregisterarea ARAs 一个ED包含300至400户家庭但各个ED所包含的人口规模及覆盖的土地面积差异较大按照与人口总数成比例的概率抽取ED 为保证由ED组成的样本近似自加权列表中所有ED是按照地理位置排列的采用系统抽样抽取ED 可以保证被抽中的ED在地理位置上分布均衡假设所有ED的总抽样比为1 x 对于SR的psu 在每个psu中每隔x个ED抽取一个ED 对于NSR的psu 系统抽样间隔为 psu的入样概率 x 第三阶段在抽样的第三阶段对每个ED进行分群每个群基本都包含4个住房单元 housingunits 普查中按照地理顺序列出了每个Ed中的住房单元在可能的情况下会使用该清单进行抽样一旦抽中某个群则该群中的4个住房单元全部入样访问对象为每个家庭中所有年龄在12岁及以上的成员如果仅仅使用普查每十年一次获得的住房单元清单由于清单内没有记录新建的住房单元那么有可能存在总体的覆盖不足 undercoverage 1990年NCVS的抽样过程 1990年NCVS共抽取62 600个住房单元包括普查清单中没有的住宅区其中采用主问卷的56 800个住房单元中新搬入的住户则采用另一套问卷有8200个不合格原因有住房单元无人居住或者拆除或者不再作为居民住房等等有1600个住房单元完全无回答原因可能是住户无法访问到或者拒绝访问 1990年NCVS的无回答率为1600 48 600 即3 3 这样共有95 000个人回答了问卷 NCVS是采用了复杂调查设计该调查被设计成是近似自加权的 1980年以后的NCVS基本权重 baseweight 为1658 1 住户单元被抽中的概率权数调整加权控制因子 weighting controlfactor WCF 有可能原来ED中的独立单元被一座公寓所取代只有从该群抽取子样本进行访问若该群只有1 3的住房单元被抽中那么该子样本中的住房单元的WCF为3 每个入样的住房单元代表总体中的住房单元数为 baseweight WCF 无回答权重调整增加每一组回答者的权重是为了使它们除了代表原先设计的那些单元还代表样本中的无回答者以及这些无回答者所代表的总体中未入样的单元 WHHNAF within householdnon interviewadjustmentfactor 补偿家庭中部分无回者在每个区域内来自至少有一个人回答的家庭成员按照指定参照人的种族家庭中无回答成员的年龄和性别以及无回答者与参照人的关系分成24组对于访问案例少于30个或者WHHNAF大于或等于2的组将被合并 HHNAF householdnon interviewadjustmentfactor 补偿整个家庭都无回答的家庭按照MSA级别城镇农村以及参照人的种族将所有家庭分组对于HHNAF大于或等于2的组会合并直到所有组的HHNAF小于2 每个人的权重为 baseweight WCF WHHNAF HHNAF每个回答者的权重被增加了这样使得他们可以代表与其在背景信息上类似的无回答者两阶段比估计第一阶段只针对NSR的psu 将所有psu按照区域 MSA级别以及种族进行分组分别赋予不同的权重调整入样的NSR的psu与所有psu在普查信息上的差异最大值 1 3 比估计第二阶段因子 second stagefactor SSF 样本中的每个人按照其年龄种族及性别被分成72个组要求每个组至少有30个回答者并且计算出的SSF在0 5和2 0之间 SSF是一种事后分层目的在于使估计总体的样本在年龄种族及性别的分布上更真实比如样本中年龄较大的白人女性的权重之和比最近的普查资料要大那么对于样本中所有年龄较大的白人女性 SSF小于1 最终样本中第i个人的权重为 baseweight WCF WHHNAF HHNAF FSF SSF在1990年的NCVS中每个人的权重最小值为1100 最大值为9000 大多数权重分布在1500至2500之间为了估计白人女性所报告的恶性袭击案件的总数作如下定义使用权重比不使用权重的估计结果要高比如调查中年轻黑人男性的回答者有可能是犯罪的受害者然而黑人男性的无覆盖及无回答现象却往往较多 NCVS的抽样设计对方差估计的影响 1 在NSR层每一层只抽出1个psu 所以在这些层中存在psu间方差 between psuvariance 2 在每个ED内进行整群抽样每个群中包含4个住房单元这些住房单元有可能是正相关的 3 入样家庭中的所有符合要求的成员都会被访问这带来clusteringeffect 4 抽取ED时采用的是系统抽样而非简单随机抽样在进行系统抽样时样本单元要求在样本框中分布均匀所以系统抽样方差往往比简单随机抽样要小但具体结果很难量化 5 权重的调整尤其是SSF 同样影响估计的方差如人们期望的那样 SSF作为一种事后分层可以降低估计的方差 NCVS以及类似的美国政府调查的设计效应一般大约为2 复杂样本的方差估计随机组方法平衡半方法刀切法自助法泰勒级数法广义函数方差重抽样随机组方法 BanlancedRepeatedReplication 半样本法 50年代末美国普查局的W N 赫维茨和M 格尼平衡半样本法麦卡锡半样本估计量的性质平衡半样本一个小的半样本子集 k 尽量保留所有的信息满足该条件的k个半样本为平衡半样本完全正交平衡 fullorthogonalbalance 半样本满足该条件的平衡半样本称为完全正交平衡半样本用于多阶段抽样在L层中的每一层初级抽样单元 PSU 都是按放回的抽样抽取的用于非线性估计对于非线性估计量一般和是不等的但多数调查实践中两者非常接近 Jackknife方法 bootstrap Efron 1979 SRS n population resamples 假设S是一个容量为n的简单随机样本将S视为总体从中再抽取重复样本如果样本与总体确实相似如果样本的经验概率密度函数 epmf 与总体的概率密度函数相似那么从经验概率密度函数中产生的样本应该与从总体中抽取的样本表现出相同的特性 WR WOR优势非平滑函数方便的构造置信区间泰勒线性化的一般步骤将目标量表示成样本中测量或计算变量的均值或总量的函数通常的形式为计算关于各个自变量的偏导数以形成线性化步骤中的常数应用Taylor定理将估计量线性化定义新的变量q计算的方差将其作为方差的近似总结线性化方法理论特性被研究得最为透彻的也是最常采用的方法但方差估计过程过于复杂随机组方法易于解释和计算它可以应用于几乎所有的统计量缺点是如果要得到一个稳健的方差估计量需要有足够多的随机组在分层多阶段抽样

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

其他抽样、复杂样本及方差估计和非抽样误差.ppt

文档简介

温馨提示

最新文档

评论

其他抽样、复杂样本及方差估计和非抽样误差.ppt

文档简介

温馨提示

最新文档

评论

相关文档