抽样及样本含量估计_20110315.ppt_第1页
抽样及样本含量估计_20110315.ppt_第2页
抽样及样本含量估计_20110315.ppt_第3页
抽样及样本含量估计_20110315.ppt_第4页
抽样及样本含量估计_20110315.ppt_第5页
已阅读5页,还剩102页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

抽样及样本含量估计 北京协和医学院基础学院流行病学系王丽 主要内容 概述抽样样本含量估计 抽样 抽样是通过抽取总体中的部分单元 收集这些单元的信息 用来对总体进行推断的一种手段 流行病学研究中涉及到的抽样 抽样通常会在横断面研究中讨论 其他研究中也会涉及抽样的问题 队列研究 研究对象的选择病例对照研究 病例和对照的选择 尤其是对照临床试验 将研究对象随机分配到不同的处理组 为什么要抽样 为什么不能对每个研究对象都进行调查 抽样的优点 节约费用时效性强可以承担全面调查无法胜任的工作有助于提高调查数据的质量 普查vs抽样 抽样调查不能代替普查普查能提供研究对象的总体情况 还可以提供各区域 各类别的统计信息普查是构建抽样框的基础抽样调查作为普查的补充我国每10年进行一次全国性的人口普查 中间每年进行一次人口变动量的抽样调查 对当年的人口出生 死亡 迁移等情况进行估计 全国第六次人口普查工作 普查标准时点 普查年度 2010年的11月1日零日零时普查对象 普查标准时点在中华人民共和国境内的自然人 以及在中华人民共和国境外但未定居的中国公民 不包括在中华人民共和国境内短期停留的境外人员 调查内容 人口和住户的基本情况 包括姓名 性别 年龄 民族 国籍 受教育程度 行业 职业 迁移流动 社会保障 婚姻 生育 死亡 住房情况等 普查VS抽样 用抽样调查对全面统计资料进行评估和修正在普查结束后 采用抽查对随机抽取的部分单位进行自己复核 计算误差率 对普查结果进行质量评估和数据修正利用抽样调查进行深层次的分析利用抽样调查 提前获得总体目标量的估计 抽样 抽样被广泛的应用于各个领域政治方面 美国总统大选投票 盖洛普公司 经济方面 消费者对整个国家的经济形势以及个人的消费能力等有关消费信心的调查由于不太可能对目标人群中的所有的人进行调查 因此在大多数调查中都可能会涉及到抽样 抽样在公共卫生中的应用 卫生机构想评价全国的卫生现状 如 一些重要的慢性病的患病情况 保险的覆盖率 医疗保健的可获得性等 从而指导卫生资源的分配 并评价卫生政策的效果 在美国 NationalCenterforHealthStatistics NCHS 是主要的卫生统计机构 http www cdc gov nchs about htm 先后主持了一系列的调查 如全国卫生及营养状况调查全国家庭增长的调查在中国 近几年来 也先后开展了一系列的全国性健康调查 如 全国慢性乙型肝炎感染状态调查结核病患病率调查 GeographicDistributionandDemographicCharacteristicsofthestudypopulationfrom160DSPsintheSeroepidemiologicalSurveyin2006 aged1 4years n 16376 aged5 14years n 23753 aged15 59years n 41646 Male 38895Female 42880 SampleSize 81775 SamplingDesign MultistageSampling LabTest ELISA Datasource fromXiaofengLiangandFuqiangCuiofChinaCDC GlobalDistributionofHBVInfectionbyHBsAgendemicity 2 Lowendemicareas 12 HBVCarriage 9 75 in1992 HBVCarriage 7 18 in2006 你所知道的抽样中可能存在什么问题 有关抽样的基本概念 总体 目标总体 所要研究对象的理想的总体 即研究对象的全体 抽样总体 目标总体中选择的有代表性的 限定具体时间和地域范围的可以获得的群体 目标总体和抽样总体的差别 抽样框 抽样总体的具体表现是抽样框 抽样框应包含所有抽样单元的名单 抽样框中应该有抽样单元名称和地理位置的信息 以便研究人员能找到被选中的单元 好的抽样框不仅与目标总体保持一致 而且还尽可能的提供与研究的目标量有关的辅助信息 年龄 性别等举例 居委会住户名单 抽样的类型 概率抽样按一定的概率以随机原则抽取样本概率抽样中抽样框是关键抽中的概率已知当用样本对总体目标进行估计时 要考虑到该样本被抽中的概率 概率抽样 不等于 等概率抽样 非概率抽样 如 方便方便 判断样本 目的抽样等 不是按照随机原则 而是根据主观判断有目的 有意识的进行 但则不可能从样本外推到总体或进行统计推断首选概率抽样 概率抽样的类型 单纯随机抽样 Simplerandomsampling 分层抽样 Samplingwithstratification 整群抽样 Clustersampling 系统抽样 Systematicsampling 多阶段抽样 Multistagesampling 单纯随机抽样 单纯随机抽样 从含有N个单元的总体中抽取n个单元组成样本 总体中的每个观察单位都有同等机会被抽取进入样本 1 CNn 最简单的抽样方法 是其他抽样方法的基础 抽样方法 先将调查总体的全部观察单位统一编号 再用随机数字表或抽签等方法随机抽取部分观察单位组成样本举例 假如你想从ID号为1236789101117的10人中随机抽取三人抽签随机数字 随机数字法 使用EXCEL中的RAND 样本估计和总体参数 对于简单随机抽样 可以用样本均数来估计总体均数 24 简单随机抽样的特点 优点 1 比较容易理解和掌握 2 抽样框不需要其他辅助信息 缺点 1 没有利用辅助信息 2 样本分散 面访费用较高 3 有可能抽到较差的样本 4 抽选大样本比较费时 简单随机抽样样本量估计 总体参数为p 例 估计的老年痴呆患病率为P 2 定a 0 05 则 1 96 定 0 1P时 n 1 96X 0 02X0 98 1 2 0 1X0 02 2 18824或采用下述简化的公式估计 n 400 x 1 p p 400X 1 0 02 0 02 19600 简单随机抽样样本量估计 总体参数为均数 举例 抽样调查时估计总体均数时 为调查某一镇静药的某有效成分的含量 采用单纯随机抽样的方法 据报道 一个镇静药中某有效成分含量为2 25 标准差为0 85以 0 05 估计有效成分含量的均值在真值的 0 10范围内 需要调查多少样本 以95 的可信度 估计有效成分含量的均值在真值的10 范围内 需要多大的样本 n1 1 962 0 852 0 102 277 56 278N2 1 962 0 852 2 25 10 2 54 38 55 简单随机抽样样本量估计是其他概率抽样方法样本量估计的基础其他概率抽样样本量估计可以用简单随机抽样样本量乘以设计效应deff如多阶段抽样deff范围约在1 3 3之间 分层随机抽样 分层抽样的必要性 简单随机抽样适用条件 调查的总体的N较小倘若N较大 如总体是全国13亿人口 要从中抽取10万人的样本 则变得很困难 表现在 实施的困难样本的代表性 定义 在抽样前 先将总体N个单元划分成L个互不重复的子总体 每个子总体称为层 其大小分别为N1 N2 NL 这L个层合起来就是整个总体 然后 在每个层中分别独立地进行抽样 分层的原则 调查目的 如某指标在不同地区 不同民族的分布特征 层内单元具有相同性质层间单元的差异尽可能大抽样组织实施的方便 分层抽样的抽样过程 按总体某一特征 如年龄 性别或职业暴露等 将总体N分为若干类 组 即分层 该分类 组 数即层数确定每层抽样比例 若在各层采用相同的抽样比例 Pi 总样本人数 总体人数 n N 即样本中各层抽取人数占总体中各层人数的比例相同时 称比例抽样 适用于各层的率在0 1 0 9之间总体人群的抽样 相反 各层抽样比例不同时称非比例抽样 适用于各层的率相差较大时 如在0 001 0 500或0 950 0 999之间 分层抽样的过程 续 确定每层抽样人数ni比例抽样 ni 总体第i层人数X 总样本数 总体人数 Ni n N 非比例抽样 在每一层对抽样单位进行编号 制作每层的抽样框按单纯随机抽样方法 根据每层的抽样人数抽取研究对象 某研究者计划在某工厂50000名中调查高血压患病率 该厂不同工种的工人分布于11个车间 比例抽样实例 1 总样本数 n 1000人 2 分层 按工种即车间将总体人数50000人分为11层 3 确定每层抽样比例和抽样人数 第一车间抽样比例 P1 总样本人数1000 全厂总人数50000 0 02第一车间抽样人数 n1 1400X0 02 28 第二车间抽样比例 P2 总样本人数1000 全厂总人数50000 0 02第二车间抽样人数 n2 7000X0 02 140 依次确定每车间的抽样人数 4 按简单随机抽样方法 从每一层 车间 内抽出相应样本数量的样本 各层样本数量之和即等于样本数n 共1000人 分层抽样的作用 抽样效率高 估计精度高能同时对总体指标和各层指标进行估计各层内抽样方法可不同 整群抽样 ClusterSampling 定义 先将总体分成若干群体 形成一个抽样框 从中随机抽取几个群体组成样本 对抽样群体中的全部个体进行调查 整群抽样过程 将总体中的个体按其某一属性 如行政区或机构等 分为若干个群 按群作为抽样单位编号制作抽样框用简单随机抽样方法抽出调查样本再对每一群内所有个体均进行调查 整群抽样的优点整群抽样的缺点 1 能大大减低收集数据的费用 2 当总体单元自然形成群时 容易取得抽样框 抽样也更容易 3 当群内单元差异大 而不同群之间的差异小时 可以提高效率 1 若群内个单元有趋同性 效率将会降低 2 通常无法预先知道总样本量 因为不知道群内有多少单元 3 方差估计比简单随机抽样更为复杂 分层 和 整群 之间的区别 均为分组的因素在分层抽样中 所有层都将包含在最终的样本中 同时在分层时 我们期望层间差异尽可能的大 层内的差异尽可能的小 而在整群抽样中 只有 群 中的一个样本被包含在最终的样本中 我们期望不同群之间差异尽可能的小 而群内单元之间的差异尽可能的大 在群间差异较小且群内个体变异与总体变异相近时 整群抽样的调查结果对总体有很好的代表性 整群抽样常和分层抽样结合 称分层整群抽样 整群抽样的精确性 相同样本下 整群抽样通常精确性要低于简单随机抽样若想达到相同的精确性 整群抽样与简单随机抽样的样本量之比应近似为 1 群内相关系数 群的大小 1 当群内同质 即群内相关系数大时 或者各个群的样本量太大时 精确性会更差 因此 群 的大小对精确度会有很大的影响 系统抽样 定义 是按照某种顺序给总体中的每个个体编号 然后随机抽取一个编号作为第一个调查个体 其他的调查个体按照某种确定的规则抽取最简单同时也最常用的是等间隔抽取 又称 等距抽样 又称 机械抽样 系统抽样 总体的编号随机 系统抽样等同于简单随机抽样非完全随机 而是带有一定的规律性 则系统抽样后的样本代表性差 系统抽样时总体单元的排序 按无关标志排列 各单元的排列顺序与所研究的内容无关 此种排队抽样类似简单随机抽样如 调查学生的视力 将学生按学号排序按有关标志排序 各单元的排列顺序与所研究的内容有关 此种排队抽样为有序系统抽样 代表性更好 减少抽样误差 提高估计的效率如 调查学生的身高 将全部学生按入校体检时的身高由高到低排序处于两者之间 根据各单元原有的自然位置进行排序 如 入户调查根据街道门牌号码按一定间隔抽样 系统抽样的优点 实施方便能保证样本有一定程度的代表性有时系统抽样不必重新编制抽样框 尤其是在被调查单元具有自然顺序排列时 如 流水线上生产的产品每隔k各抽查一次 系统抽样的缺点 样本代表性不好 总体中单元的排列呈现一定的规律性甚至周期性时在实际中被认为行之有效的系统抽样一般不是严格的概率抽样 此时要估算估计量的方差会遇到很大的问题 系统抽样 整群抽样和分层抽样的关系 系统抽样的特点 一旦起始单元确定 整个样本就确定了系统抽样可以看成是一种特殊的整群抽样 也可以看成是一种特殊的分层抽样 但不是分层随机抽样 四种抽样方法的比较 多阶段抽样 multi stagesampling 问题的提出 整群抽样具有样本比较集中的特点 因此便于组织实施 回答率也很高 但由于群内通常具有相似性 尤其是当群比较大时 此时没有必要对群内所有单元都进行调查 而是对群内进行再抽样 对部分被抽中的单元进行调查 即实际工作中的多阶段抽样 总体 多阶段抽样的定义由两个或更多个连续的阶段抽取样本的方法 多阶抽样示意图 第一阶样本 最终样本 多阶段抽样常用于大规模的抽样调查 基本原理是将总体按行政区 如省 县 乡 村等 或机构 如中央 地方机构等 分级 每级均制作各自的抽样框 然后逐级随机抽取一定的抽样单位组成样本 实例 全国农村脑卒中患病率调查抽样设计 将省作为第一级抽样单位 假定全部的省均进行调查 因而全部抽出将每一省的县作为第二级抽样单位 从每省随机抽取一定的县依次将乡 村和村民定为第三 四 五级抽样单位 逐一抽取相应的样本全国调查的样本为各省抽中的县 乡 村中的全部村民 在实际使用多阶段抽样时 各阶段的定义可以根据行政管理级别确定 如 街道 居委会 居民户 但也可根据组织的管理的方便和实际的可能跳过某些行政机构 多阶段抽样抽样方法与推断原理 多阶段抽样每一个阶段的抽样方法可以相同 也可以不同通常与分层抽样 整群抽样 系统抽样结合使用 多阶段抽样举例 某调查公司接受了一项关于全国城市居民人均奶制品消费支出及每天至少喝一杯鲜奶的人数的比例情况的调查 确定抽样范围为全国地级以上城市中的成年居民 成年居民指年满18周岁以上的居民 第一步 确定抽样方法多阶段抽样方法进行方案设计 调查的最小单元 成年居民 第二步 样本量的确定按简单随机抽样 在95 置信度下 绝对误差为5 取使方差达到最大的 消费奶制品的居民 比例50 样本量为 n0 t2 P Q d2 22 0 5 0 5 0 052 400 人 根据以往的调查经验 估计应答率 80 则调整样本量为 400 0 8 500 人 多阶段抽样的效率比简单随机抽样的效率低 设设计效应deff 3 2 则在全国调查的样本量为 500 3 2 1600 人 各阶段的样本量配置为 初级单元 20个城市二级单元 80个街道 每个样本市内抽4个街道三级单元 160个居委会 每个样本街道内抽2个居委会四级单元 1600个居民户 每个样本居委会内抽10个居民户在样本居民户内 利用随机表抽1名成年居民 第三步 确定抽样方法第一阶段 在全国城市中按与人口数成比例的放回的不等概率抽样 即PPS抽样第二阶段和第三阶段分别按与人口数成比例的不等概率等距抽样以第二阶段为例 在某个被抽中的样本城市中 将其所属的街道编号 搜集各街道的人口数 赋予每个街道与其人口相同的代码数 根据该市总人口数除以样本量4 确定抽样间距 然后对代码进行随机起点的等距抽样 则被抽中代码所在的街道为样本街道 不等概率抽样的提出 PPS抽样 samplingwithprobabilityproportionaltosize 出现总体单元差异大时 将总体单元按规模 大小 分层 较大单元的层抽样比高 甚至为100 而小单元的抽样比低 赋予每个单元与其规模 或辅助变量 成比例的入样概率推算时对入样概率较大的单元则赋予其一个较小的权重 反之 入样概率较小 推算时 赋予其一个较大的权重 PPS抽样举例 不放回按抽样单位规模大小成比例的概率抽样 PPS 方法简介 链接 第三步 确定抽样方法 续 第四阶段 分别在每个样本居委会中 按等距抽样抽出10个居民户 即根据居委会拥有的居民户数除以样本量10得到抽样间距 然后随机起点等距抽样 在每个居民户中 按二维随机表抽取1名成年居民 第四步 推算牛奶消费量 多阶段抽样小结 对于大规模的抽样调查项目 通常采用多阶段抽样 此方法可以看作是对样本群内的单元进行再抽样的一种方法 和整群抽样一样 当各级单元大小相同时 各阶的抽样采用等概率抽样的方法 但是实际中 大多数是各级单元大小不同的情形 此时最简单的就是构造自加权的样本 即前几阶采用PPS抽样 最后一阶采用等概率抽样 并且从第二阶开始 每一阶的样本量都相同 多阶段抽样的优点 当群具有同质性时 多阶抽样的效率高于整群抽样样本的分布比简单随机抽样集中 调查可以节约时间和费用不需要整个总体单元的名录框 只要群的名录框和抽中群的单元名单 多阶段抽样的缺点 效率不如简单随机抽样调查的组织较整群抽样复杂估计值与抽样方差的计算较为复杂 抽样调查的基本步骤和准备 首先要确定调查的目的和要求了解哪些指标准备估计哪些参数参数估计的精度目的确定了 被抽样的总体也就完全确定 非概率抽样 方便抽样目的抽样滚雪球抽样志愿者抽样 方便抽样 研究者根据现实情况 以自己方便的形式抽取偶然遇到的人作为调查对象 或者仅仅选择那些离得最近的 最容易找到的人作为调查对象 目的抽样 调查者根据研究的目标和自己主观的分析 来选择和确定调查对象的方法 研究者依据主观判断选取可以代表总体的个体作为样本 样本的代表性取决于研究者对总体的了解程度和判断能力 滚雪球抽样 当我们无法了解总体情况时 可以从总体中的少数成员入手 对他们进行调查 向他们询问还知道哪些符合条件的人 再去找那些人并询问他们知道的人 如同滚雪球一样 我们可以找到越来越多具有相同性质的群体成员 非概率抽样的优缺点 缺点 不能推论总体优点 有时严格的概率抽样无法实现可用于只是为了进行探索性研究而不是推论总体操作方便 省钱省力注意 非概率抽样也必须评价代表性 试验设计中样本含量估计 一 率的估计与假设检验的样本量 1 估计总体率 为调查北京地区肠易激综合症的患病率 某卫生部门在北京市居民中按简单随机抽样的方法进行抽样调查 根据文献资料 人群患病率为15 若要求在可信度为95 下 将容许误差控制在3 则应抽出多少居民进行调查 如果人群患病率为45 则样本量为多少 1 估计总体率 续 N1 1 962 0 15 0 85 0 032 544人N2 2 单个总体率的假设检验 在新生儿的某种病毒暴发期间 某地区发现1000名活婴儿中有150名感染 现经过一段时间治疗 卫生工作者希望知道目前感染率是否降至 0 10 取 0 05 0 10 问需要抽多大的样本 n 378 2 单个总体率的假设检验 续 即样本率和总体率比较 假设已知总体率为 0 HO 0 单侧H1 0或 0 则单个总体率假设检验时样本量的估计公式为 如果为双侧检验 即H1 0则将公式中的u 改为u 2即可 1 645 0 15 1 0 15 1 2 1 282 0 1 1 0 1 1 2 2N 0 052 377 9 378 2 单个总体率的假设检验 续 当P0 7时 正态性较差 此时样本量计算公式为 3 完全随机设计的两个总体率的假设检验 例 某单位研究甲 乙两药对某病的疗效 预试验得甲药有效率为60 乙药为85 现拟进一步作治疗试验 设 0 05 0 10 问每组最少需要观察多少病例 设两总体率为 1 2 两样本率为p1 p2 当假设检验为单侧时 用pearson卡方检验进行检验的样本量为 当假设检验为双侧时 用pearson卡方检验进行检验的样本量为 P1 60 p2 0 85 U0 05 2 1 96 U0 10 1 282 1 96 2 0 725 0 275 0 5 1 282 0 60 0 40 0 85 0 15 0 5 2N1 n2 0 60 0 85 2 64 96 65 而当两个率都很小的时候 则样本量为 4 完全随机设计的多个总体率的假设检验 某单位拟观察3种疗法治疗消化性溃疡的效果 预试验结果为 甲法有效率为40 乙法为50 丙法为65 设 0 05 0 10 试估计所需样本量 Pmax 0 65 pmin 0 40 df 3 1 2 0 05 0 10查附表 值 多个样本率比较时样本量估计用 0 05 0 10 2 12 65N 2 12 65 2sin 1 0 65 0 5 2sin 1 0 40 0 5 2 98 8每组需要99例 3组共297例 二 均数估计与假设检验的样本量估计 1 抽样调查时估计总体均数时 为调查某一镇静药的某有效成分的含量 采用单纯随机抽样的方法 据报道 一个镇

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论