其他抽样、复杂样本及方差估计和非抽样误差.ppt_第1页
其他抽样、复杂样本及方差估计和非抽样误差.ppt_第2页
其他抽样、复杂样本及方差估计和非抽样误差.ppt_第3页
其他抽样、复杂样本及方差估计和非抽样误差.ppt_第4页
其他抽样、复杂样本及方差估计和非抽样误差.ppt_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

非概率抽样 非抽样误差 五种经典概率抽样方法 其他抽样方法 复杂抽样等 其他抽样方法 估计湖中之鱼的数量N 捕获和再捕获估计 例假如我们想估计湖中之鱼的数量N 一个方法是 从湖中捕获200条鱼做上标记后放回湖中 让它们与湖中未作标记的鱼混合 然后 从湖中再捕获100条鱼 这次与第一次捕获是相互独立的 假设第二次捕获的鱼中有20条是已经做了标记的 假定两次捕获中间湖中鱼的总体没有发生变化 且每次从湖中捕鱼都是简单随机抽样 那么就可以得到这样的估计 湖中的鱼有20 做了标记 这样就相当于那200条作了标记的鱼近似代表了湖中鱼总体的20 因此N的估计值就近似等于1000 假定 总体是封闭的 两次抽样间没有鱼进入或离开该湖 即对每次抽样而言 N是相同的 每个样本都是来自总体的简单随机抽样 即 湖中每条鱼都有同样的机会被捕获 有时并不是这样 比如那些小鱼或健康状况稍差的鱼比较容易被捕获 并且 湖中没有不会被捕获的 隐藏的鱼 两个样本是独立的 鱼不会丢失其标记 从而有标记的鱼可以被识别 n1 200 n2 100 m 20 v美国统计学家的数量从美国统计协会 ASA 和数理统计学会 IMS 得到了他们的会员名册 每位统计学家都可能是ASA的会员也可能不是 同样也可能是IMS的会员也可能不是 则n1为ASA会员数 n2为IMS会员数 m是同时出现在两个组织会员名册上人的数量 估计统计学家的数量 二重抽样 先从总体中抽取一个大的初始样本 从而获得总体的辅助信息 然后再从初始样本或从总体中再抽一个子样本 这种方法就是二重抽样 作用 有助于筛选主调查对象 节约调查费用提高抽样效率于研究样本轮换中的某些问题降低无回答偏差 未分层的二重抽样 二重抽样对估计量的调整 若子样本中每个人都作出回答 则二重抽样不仅消除了无回答偏差 而且还在方差估计中对原有无回答部分进行了解释 应该尝试多获取一些无回答者的信息 以用于调整单位无回答 多包括进一些相关项目 以用于调整项目无回答 从无回答者中随机抽选100v 的子样本 假设访问到了所有的目标无回答者 如果有限总体修正系数可忽略 二重分层抽样样本量的最优分配 复杂调查设计的简化 在抽样设计时 必须确保你所使用的复杂设计被先验或以前研究者证明是更有效 操作性更强的 一个复杂设计要在估计所有的变量时都有效 在单位成本上获得同样多的信息的情况下 应该优先选择简单设计 而非复杂的设计 抽样权重 对于一个观测单元 抽样权重往往是被抽中概率的倒数 每个样本单元都 代表 了总体中一定数目的单元 所以样本 代表 了整个总体 抽样权重包含了构造点估计所需的全部信息方差的估计需要除抽样权重以外更多抽样设计的信息 抽样权重 对于分层抽样等概率整群抽样中不等概整群抽样中三阶段整群抽样中 自加权样本 自加权调查中 各样本单元的抽样权重相等 在不考虑非抽样误差的情况下 自加权样本可以看成完全反映了总体 因为每个样本单元都反映了总体中相同数目的单元 自加权样本往往方差较小 估计更精确 在自加权的复杂调查中 标准的统计软件 在假定观测单元是独立同分布的条件下编写数据分析程序的软件 可以给出均值 分位数及其他统计量的正确估计 而标准误差 假设检验以及置信区间却往往是错误的 对于非自加权的样本 用抽样权重来构造empiricalprobabilitymassfunction及其分布函数 在分层样本中 每名女性的抽样权重为6 25 每名男性的抽样权重为25 权重修正了图中较高人群对总体的代表性被降低的部分 总体f y 样本f y ST样本 均值及中位数偏低 样本中的男性代表性被降低 200的SRS 自加权 样本单元的直方图与总体的相似 总体F y 样本F y EPMF 利用EPMF 设计效应 对于抽样设计的效率 Cornfield 1951 建议采用SRS获得的k个观测单元的估计方差与复杂抽样获得的相同数目观测单元的估计方差的比值来衡量 Kish 1965 将该比值的倒数命名为设计效应 designeffect 简记为deff 若设计效应已知 可以计算复杂样本的方差 估算样本量 设计效应 比例分配下分层抽样的设计效应近似为 群大小相等时整群抽样的设计效应 设计效应与置信区间 p的95 置信区间为 假定有限总体修正系数近似为1 在估计均值时 若样本足够大 由中心极限定理可得 均值估计的95 置信区间为 Kish及其他作者有时采用 设计效应与样本量 例 在海关某业务出错率的调查中 抽样样本单元为报关单 允许的最大估计误差为真值的20 假定出错率的真值为0 01 那么SRS所需样本量为 估计抽取报关单的设计效应为2 平均一份报关单包括两条商品记录 那么一共需要抽取多少报关单 案例 全国犯罪受害者调查 theNationalCrimeVictimizationSurvey NCVS 全国统一犯罪报告 UniformCrimeReport 该报告由FBI根据各执法部门提交的报告汇编而成 往往低估了美国犯罪的总数 美国司法统计局 theBureauofJusticeStatistics 组织 全国普查局实施访问的全国性大型调查 与现时人口调查 theCurrentPopulationSurvey CPS 类似 NCVS也采用分层和多阶段整群抽样 NCVS的调查范围为全国所有家庭中年龄在12岁及以上的成员 主要调查他们在过去的6个月的犯罪受害经历 第一阶段 NCVS中的psu为县 county 一组相邻的县或者是大型城市统计区 metropolitanstatisticalarea 简记为MSA 一个MSA包括一个大型城市及其周围与其在经济和社会方面关系密切的地区 所有人口在550 000及以上的psu都作为自我代表样本单元 self representing SR 被抽中的概率为1 对其他psu进行分层 保证每一层内的人口大约为650 000 psu的分层主要按照1980年普查获得的地理位置及人口统计信息 以及全国统一犯罪报告提供的犯罪率 各层的受害率差异较大 在每一层中按照与psu的人口总数成比例的概率抽取一个psu 这个psu是非自我代表的 non self representing NSR 在1990年的NCVS中 共抽取84个SR的psu和153个NSR的psu 第二阶段 抽样的第二阶段是抽取地区清单 enumerationdistrict ED 1990年普查中称为addressregisterarea ARAs 一个ED包含300至400户家庭 但各个ED所包含的人口规模及覆盖的土地面积差异较大 按照与人口总数成比例的概率抽取ED 为保证由ED组成的样本近似自加权 列表中所有ED是按照地理位置排列的 采用系统抽样抽取ED 可以保证被抽中的ED在地理位置上分布均衡 假设所有ED的总抽样比为1 x 对于SR的psu 在每个psu中每隔x个ED抽取一个ED 对于NSR的psu 系统抽样间隔为 psu的入样概率 x 第三阶段 在抽样的第三阶段 对每个ED进行分群 每个群基本都包含4个住房单元 housingunits 普查中按照地理顺序列出了每个Ed中的住房单元 在可能的情况下会使用该清单进行抽样 一旦抽中某个群 则该群中的4个住房单元全部入样 访问对象为每个家庭中所有年龄在12岁及以上的成员 如果仅仅使用普查 每十年一次 获得的住房单元清单 由于清单内没有记录新建的住房单元 那么有可能存在总体的覆盖不足 undercoverage 1990年NCVS的抽样过程 1990年NCVS共抽取62 600个住房单元 包括普查清单中没有的住宅区 其中 采用主问卷的56 800个住房单元中 新搬入的住户则采用另一套问卷 有8200个不合格 原因有住房单元无人居住 或者拆除 或者不再作为居民住房等等 有1600个住房单元完全无回答 原因可能是住户无法访问到或者拒绝访问 1990年NCVS的无回答率为1600 48 600 即3 3 这样共有95 000个人回答了问卷 NCVS是采用了复杂调查设计 该调查被设计成是近似自加权的 1980年以后的NCVS基本权重 baseweight 为1658 1 住户单元被抽中的概率 权数调整 加权控制因子 weighting controlfactor WCF 有可能原来ED中的独立单元被一座公寓所取代 只有从该群抽取子样本进行访问 若该群只有1 3的住房单元被抽中 那么该子样本中的住房单元的WCF为3 每个入样的住房单元代表总体中的住房单元数为 baseweight WCF 无回答权重调整 增加每一组回答者的权重是为了使它们除了代表原先设计的那些单元 还代表样本中的无回答者 以及这些无回答者所代表的总体中未入样的单元 WHHNAF within householdnon interviewadjustmentfactor 补偿家庭中部分无回者 在每个区域内 来自至少有一个人回答的家庭成员 按照指定参照人的种族 家庭中无回答成员的年龄和性别 以及无回答者与参照人的关系 分成24组 对于访问案例少于30个或者WHHNAF大于或等于2的组将被合并 HHNAF householdnon interviewadjustmentfactor 补偿整个家庭都无回答的家庭 按照MSA级别 城镇 农村 以及参照人的种族 将所有家庭分组 对于HHNAF大于或等于2的组 会合并 直到所有组的HHNAF小于2 每个人的权重为 baseweight WCF WHHNAF HHNAF每个回答者的权重被增加了 这样使得他们可以代表与其在背景信息上类似的无回答者 两阶段比估计 第一阶段只针对NSR的psu 将所有psu按照区域 MSA级别以及种族进行分组 分别赋予不同的权重 调整入样的NSR的psu与所有psu在普查信息上的差异最大值 1 3 比估计第二阶段因子 second stagefactor SSF 样本中的每个人按照其年龄 种族及性别被分成72个组 要求每个组至少有30个回答者 并且计算出的SSF在0 5和2 0之间 SSF是一种事后分层 目的在于使估计总体的样本在年龄 种族及性别的分布上更真实 比如样本中年龄较大的白人女性的权重之和比最近的普查资料要大 那么对于样本中所有年龄较大的白人女性 SSF小于1 最终样本中第i个人的权重为 baseweight WCF WHHNAF HHNAF FSF SSF在1990年的NCVS中 每个人的权重最小值为1100 最大值为9000 大多数权重分布在1500至2500之间 为了估计白人女性所报告的恶性袭击案件的总数 作如下定义 使用权重比不使用权重的估计结果要高 比如 调查中年轻黑人男性的回答者有可能是犯罪的受害者 然而黑人男性的无覆盖及无回答现象却往往较多 NCVS的抽样设计对方差估计的影响 1 在NSR层 每一层只抽出1个psu 所以在这些层中存在psu间方差 between psuvariance 2 在每个ED内进行整群抽样 每个群中包含4个住房单元 这些住房单元有可能是正相关的 3 入样家庭中的所有符合要求的成员都会被访问 这带来clusteringeffect 4 抽取ED时采用的是系统抽样而非简单随机抽样 在进行系统抽样时 样本单元要求在样本框中分布均匀 所以系统抽样方差往往比简单随机抽样要小 但具体结果很难量化 5 权重的调整 尤其是SSF 同样影响估计的方差 如人们期望的那样 SSF作为一种事后分层 可以降低估计的方差 NCVS以及类似的美国政府调查的设计效应一般大约为2 复杂样本的方差估计 随机组方法平衡半方法刀切法自助法泰勒级数法广义函数方差 重抽样 随机组方法 BanlancedRepeatedReplication 半样本法 50年代末美国普查局的W N 赫维茨和M 格尼平衡半样本法 麦卡锡 半样本估计量的性质 平衡半样本 一个小的半样本子集 k 尽量保留所有的信息 满足该条件的k个半样本为平衡半样本 完全正交平衡 fullorthogonalbalance 半样本 满足该条件的平衡半样本称为完全正交平衡半样本 用于多阶段抽样 在L层中的每一层初级抽样单元 PSU 都是按放回的抽样抽取的 用于非线性估计 对于非线性估计量 一般和是不等的 但多数调查实践中两者非常接近 Jackknife方法 bootstrap Efron 1979 SRS n population resamples 假设S是一个容量为n的简单随机样本 将S视为总体 从中再抽取重复样本 如果样本与总体确实相似 如果样本的经验概率密度函数 epmf 与总体的概率密度函数相似 那么从经验概率密度函数中产生的样本应该与从总体中抽取的样本表现出相同的特性 WR WOR优势 非平滑函数 方便的构造置信区间 泰勒线性化的一般步骤 将目标量表示成样本中测量或计算变量的均值或总量的函数 通常的形式为计算关于各个自变量的偏导数 以形成线性化步骤中的常数 应用Taylor定理将估计量线性化 定义新的变量q计算的方差 将其作为方差的近似 总结 线性化方法 理论特性被研究得最为透彻的 也是最常采用的方法 但方差估计过程过于复杂 随机组方法 易于解释和计算 它可以应用于几乎所有的统计量 缺点是 如果要得到一个稳健的方差估计量 需要有足够多的随机组 在分层多阶段抽样

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论