抽样及样本含量估计_第1页
抽样及样本含量估计_第2页
抽样及样本含量估计_第3页
抽样及样本含量估计_第4页
抽样及样本含量估计_第5页
已阅读5页,还剩102页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、整理课件抽样及样本含量估计抽样及样本含量估计北京协和医学院基础学院流行病学系王 丽整理课件主要内容主要内容l概述l抽样l样本含量估计整理课件抽样抽样l抽样是通过抽取总体中的部分单元,收集这些单元的信息,用来对总体进行推断的一种手段总体抽取样本推断总体样本整理课件流行病学研究中涉及到的抽样流行病学研究中涉及到的抽样l抽样通常会在横断面研究中讨论.l其他研究中也会涉及抽样的问题. l队列研究:研究对象的选择l病例对照研究:病例和对照的选择,尤其是对照l临床试验:将研究对象随机分配到不同的处理组整理课件为什么要抽样?为什么要抽样?l为什么不能对每个研究对象都进行调查(抽样的优点)?l节约费用l时效性

2、强l可以承担全面调查无法胜任的工作l有助于提高调查数据的质量整理课件普查普查 vs 抽样抽样l抽样调查不能代替普查l普查能提供研究对象的总体情况,还可以提供各区域、各类别的统计信息l普查是构建抽样框的基础l抽样调查作为普查的补充l我国每10年进行一次全国性的人口普查,中间每年进行一次人口变动量的抽样调查,对当年的人口出生、死亡、迁移等情况进行估计整理课件全国第六次人口普查工作全国第六次人口普查工作l普查标准时点:普查年度(2010年的11月1日零日零时l 普查对象:“普查标准时点在中华人民共和国境内的自然人,以及在中华人民共和国境外但未定居的中国公民,不包括在中华人民共和国境内短期停留的境外人

3、员”l调查内容:人口和住户的基本情况,包括姓名、性别、年龄、民族、国籍、受教育程度、行业、职业、迁移流动、社会保障、婚姻、生育、死亡、住房情况等。整理课件普查普查 VS 抽样抽样l用抽样调查对全面统计资料进行评估和修正l在普查结束后,采用抽查对随机抽取的部分单位进行自己复核,计算误差率,对普查结果进行质量评估和数据修正l利用抽样调查进行深层次的分析l利用抽样调查,提前获得总体目标量的估计整理课件抽样抽样 l抽样被广泛的应用于各个领域l政治方面: 美国总统大选投票(盖洛普公司)l经济方面: 消费者对整个国家的经济形势以及个人的消费能力等有关消费信心的调查 l由于不太可能对目标人群中的所有的人进行

4、调查,因此在大多数调查中都可能会涉及到抽样 整理课件抽样在公共卫生中的应用抽样在公共卫生中的应用l卫生机构想评价全国的卫生现状(如:一些重要的慢性病的患病情况、保险的覆盖率、医疗保健的可获得性等),从而指导卫生资源的分配,并评价卫生政策的效果。 l在美国,National Center for Health Statistics (NCHS)是主要的卫生统计机构 (/nchs/about.htm),先后主持了一系列的调查,如 l全国卫生及营养状况调查 l全国家庭增长的调查l在中国,近几年来,也先后开展了一系列的全国性健康调查,如:l全国慢性乙型肝炎感染状态调查

5、l结核病患病率调查整理课件Geographic Distribution and Demographic Characteristics of the study population from 160 DSPs in the Seroepidemiological Survey in 2006 aged 1-4 years ( n = 16376 ) aged 5-14 years ( n = 23753 ) aged 15-59 years ( n =41646 )Male:38895Female:42880Sample Size: 81775Sampling Design: Multis

6、tage SamplingLab Test: ELISAData source:from Xiaofeng Liang and Fuqiang Cui of China CDC整理课件Global Distribution of HBV Infection by HBsAg endemicity HBsAg endemicity 8% - High endemic areas (45%)27% - moderate endemic areas(43%) 2% - Low endemic areas (12%)Data Source: (1) Dai ZC, Qi GM. Seroepidemi

7、ological Survey in Chinese population (part one), 1992-1995. Beijing. Sci Tech Exp 1996:3959. (2) Liang XF et al. Vaccine 2009 27:6550-6557HBV Carriage: 9.75% in 1992HBV Carriage: 7.18% in 2006整理课件你所知道的抽样中可能你所知道的抽样中可能存在什么问题?存在什么问题?整理课件有关抽样的基本概念有关抽样的基本概念整理课件总体总体l目标总体:所要研究对象的理想的总体,即研究对象的全体。 l抽样总体:目标总体

8、中选择的有代表性的、限定具体时间和地域范围的可以获得的群体。 目标总体和抽样总体的差别整理课件抽样框抽样框l抽样总体的具体表现是抽样框,抽样框应包含所有抽样单元的名单.l抽样框中应该有抽样单元名称和地理位置的信息,以便研究人员能找到被选中的单元.l好的抽样框不仅与目标总体保持一致,而且还尽可能的提供与研究的目标量有关的辅助信息。l年龄、性别等l举例:l居委会住户名单整理课件抽样的类型抽样的类型 l概率抽样l按一定的概率以随机原则抽取样本l概率抽样中抽样框是关键l抽中的概率已知l当用样本对总体目标进行估计时,要考虑到该样本被抽中的概率l“概率抽样”不等于“等概率抽样”l非概率抽样(如:方便方便,

9、 判断样本,目的抽样等):不是按照随机原则,而是根据主观判断有目的,有意识的进行。但则不可能从样本外推到总体或进行统计推断l首选概率抽样整理课件概率抽样的类型概率抽样的类型l单纯随机抽样(Simple random sampling)l分层抽样(Sampling with stratification)l整群抽样(Cluster sampling)l系统抽样(Systematic sampling)l多阶段抽样(Multistage sampling )整理课件单纯随机抽样单纯随机抽样整理课件单纯随机抽样单纯随机抽样l从含有N个单元的总体中抽取n个单元组成样本,l总体中的每个观察单位都有同等机

10、会被抽取进入样本(1/CNn )l最简单的抽样方法,是其他抽样方法的基础整理课件抽样方法抽样方法l先将调查总体的全部观察单位统一编号,再用随机数字表或抽签等方法随机抽取部分观察单位组成样本 l举例:假如你想从ID号为1 2 3 6 7 8 9 10 11 17的10人中随机抽取三人l抽签l随机数字整理课件随机数字法随机数字法l使用EXCEL中的RAND()10.70444620.56682930.00925360.25185470.29714580.70899690.818349100.792495110.358031170.944461170.94446190.818349100.79249

11、580.70899610.70444620.566829110.35803170.29714560.25185430.009253整理课件样本估计和总体参数样本估计和总体参数l对于简单随机抽样,可以用样本均数来估计总体均数整理课件24简单随机抽样的特点简单随机抽样的特点l优点: (1)比较容易理解和掌握;(2)抽样框不需要其他辅助信息;l缺点: (1)没有利用辅助信息;(2)样本分散,面访费用较高;(3)有可能抽到较差的样本;(4)抽选大样本比较费时整理课件简单随机抽样样本量估计(总体参数简单随机抽样样本量估计(总体参数为为p )2/ 222(1)n:0 . 7/ 2n15 7 . 3s i

12、n(1)uu文献估计人群患病率:容许控制误差但当 0 . 3 或时整理课件例:估计的老年痴呆患病率为例:估计的老年痴呆患病率为 P = 2; 定定 0.05 0.05,则,则 = 1.96;定;定 = 0.1P时:时: n= 1.96 X (0.02 X 0.98)1/2 / (0.1 X 0.02)2 = 18824 或采用下述简化的公式估计:或采用下述简化的公式估计: n = 400 x (1- p)/p = 400 X (1-0.02)/0.02 = 19600整理课件简单随机抽样样本量估计(总体参数简单随机抽样样本量估计(总体参数为均数为均数)22/222=%=nxu :总体的方差,根

13、据预试验估计当用相对容许误差(与总体均数相差不超过真值的( )表示时,则整理课件举例:抽样调查时估计总体均数时举例:抽样调查时估计总体均数时l为调查某一镇静药的某有效成分的含量,采用单纯随机抽样的方法。据报道,一个镇静药中某有效成分含量为2.25,标准差为0.85l以=0.05,估计有效成分含量的均值在真值的 0.10范围内,需要调查多少样本?l以95%的可信度,估计有效成分含量的均值在真值的10%范围内,需要多大的样本?整理课件ln1=1.962*0.852/0.102=277.56278lN2=1.962*0.852/(2.25*10%)2=54.3855整理课件l简单随机抽样样本量估计是

14、其他概率抽样方法样本量估计的基础l其他概率抽样样本量估计可以用简单随机抽样样本量乘以设计效应deffl如多阶段抽样deff范围约在1.33之间整理课件分层随机抽样分层随机抽样整理课件分层抽样的必要性分层抽样的必要性l简单随机抽样适用条件:调查的总体的N较小l倘若N较大,如总体是全国13亿人口,要从中抽取10万人的样本,则变得很困难。表现在:l实施的困难l样本的代表性整理课件定义定义l在抽样前,先将总体N个单元划分成L个互不重复的子总体,每个子总体称为层,其大小分别为N1,N2,NL,这L个层合起来就是整个总体。然后,在每个层中分别独立地进行抽样。 整理课件分层分层 的原则的原则l调查目的:l如

15、某指标在不同地区、不同民族的分布特征。l层内单元具有相同性质 l层间单元的差异尽可能大 l抽样组织实施的方便 整理课件分层抽样的抽样过程分层抽样的抽样过程l按总体某一特征按总体某一特征(如年龄、性别或职业暴露等如年龄、性别或职业暴露等)将总体将总体N分为若干类分为若干类(组组),即分层。该分类,即分层。该分类(组组)数即层数数即层数l确定每层抽样比例。确定每层抽样比例。l若在各层采用相同的抽样比例若在各层采用相同的抽样比例(Pi=总样本人数总样本人数 / 总体人数总体人数= n / N),即样本中各层抽取人数占总体中各层人数的比例相同时,即样本中各层抽取人数占总体中各层人数的比例相同时,称比例

16、抽样,适用于各层的率在,称比例抽样,适用于各层的率在0.10.9 之间总体人群的抽之间总体人群的抽样。样。l相反,各层抽样比例不同时称非比例抽样,适用于各层的率相反,各层抽样比例不同时称非比例抽样,适用于各层的率相差较大时,如在相差较大时,如在0.0010.500或或0.9500.999之间之间整理课件分层抽样的过程(续)分层抽样的过程(续)l确定每层抽样人数确定每层抽样人数 nil比例抽样:比例抽样: ni =总体第总体第i层人数层人数X (总样本数总样本数 / 总体人数总体人数) = Ni (n / N)l非比例抽样:非比例抽样:l在每一层对抽样单位进行编号,制作每层的抽样框在每一层对抽样

17、单位进行编号,制作每层的抽样框l按单纯随机抽样方法,根据每层的抽样人数抽取研究按单纯随机抽样方法,根据每层的抽样人数抽取研究对象对象整理课件 某研究者计划在某工厂某研究者计划在某工厂5000050000名中调查高血压患名中调查高血压患病率。该厂不同工种的工人分布于病率。该厂不同工种的工人分布于1111个车间。个车间。比例抽样实例比例抽样实例整理课件 (1) 总样本数:总样本数:n = 1000人;人; (2) 分层:按工种即车间将总体人数分层:按工种即车间将总体人数50000人分人分为为11层;层; (3) 确定每层抽样比例和抽样人数:确定每层抽样比例和抽样人数: 第一车间抽样比例:第一车间抽

18、样比例: P1 = 总样本人数总样本人数1000/全厂总人数全厂总人数50000 = 0.02 第一车间抽样人数:第一车间抽样人数:n1= 1400 X 0.02 =28 整理课件 第二车间抽样比例:第二车间抽样比例: P2 = 总样本人数总样本人数1000/全厂总人数全厂总人数50000 = 0.02 第二车间抽样人数:第二车间抽样人数:n2= 7000 X 0.02 =140; 依次确定每车间的抽样人数。依次确定每车间的抽样人数。 (4) 按简单随机抽样方法按简单随机抽样方法, 从每一层从每一层(车间车间)内抽内抽出相应样本数量的样本,各层样本数量之和即等出相应样本数量的样本,各层样本数量

19、之和即等于样本数于样本数n,共,共1000人。人。 整理课件分层抽样的作用分层抽样的作用 l抽样效率高,估计精度高l能同时对总体指标和各层指标进行估计l各层内抽样方法可不同整理课件整群抽样整群抽样(Cluster Sampling)整理课件定义定义l先将总体分成若干群体,形成一个抽样框;l从中随机抽取几个群体组成样本;l对抽样群体中的全部个体进行调查整理课件整群抽样过程整群抽样过程l将总体中的个体按其某一属性将总体中的个体按其某一属性(如行政区或机构等如行政区或机构等)分为分为若干个群,若干个群, 按群作为抽样单位编号制作抽样框按群作为抽样单位编号制作抽样框l用简单随机抽样方法抽出调查样本用简

20、单随机抽样方法抽出调查样本l再对每一群内所有个体均进行调查再对每一群内所有个体均进行调查整理课件整群抽样的优点整群抽样的优点 整群抽样的缺点整群抽样的缺点(1)能大大减低收集数据的费用;(2)当总体单元自然形成群时,容易取得抽样框,抽样也更容易;(3)当群内单元差异大,而不同群之间的差异小时,可以提高效率。 (1)若群内个单元有趋同性,效率将会降低; (2)通常无法预先知道总样本量,因为不知道群内有多少单元; (3)方差估计比简单随机抽样更为复杂 整理课件“分层分层”和和“整群整群”之间的区别之间的区别l均为分组的因素l在分层抽样中,所有层都将包含在最终的样本中。 同时在分层时,我们期望层间差

21、异尽可能的大,层内的差异尽可能的小。l而在整群抽样中,只有“群”中的一个样本被包含在最终的样本中,我们期望不同群之间 差异尽可能的小,而群内单元之间的差异尽可能的大。整理课件 在群间差异较小且群内个体变异与总体变异在群间差异较小且群内个体变异与总体变异相近时,整群抽样的调查结果对总体有很好的代相近时,整群抽样的调查结果对总体有很好的代表性。表性。 整群抽样常和分层抽样结合,称分层整群抽整群抽样常和分层抽样结合,称分层整群抽样。样。整理课件整群抽样的精确性整群抽样的精确性l相同样本下,整群抽样通常精确性要低于简单随机抽样l若想达到相同的精确性,整群抽样与简单随机抽样的样本量之比应近似为: 1 +

22、 (群内相关系数)*(群的大小 -1) l当群内同质(即群内相关系数大时)或者各个群的样本量太大时,精确性会更差。因此,“群”的大小对精确度会有很大的影响。 整理课件系统抽样系统抽样整理课件定义定义l是按照某种顺序给总体中的每个个体编号,然后随机抽取一个编号作为第一个调查个体,其他的调查个体按照某种确定的规则抽取l最简单同时也最常用的是等间隔抽取,又称“等距抽样”l又称“机械抽样”整理课件系统抽样系统抽样l总体的编号l随机,系统抽样等同于简单随机抽样l非完全随机,而是带有一定的规律性,则系统抽样后的样本代表性差整理课件系统抽样时总体单元的排序系统抽样时总体单元的排序l按无关标志排列:各单元的排

23、列顺序与所研究的内容无关。此种排队抽样类似简单随机抽样l如:调查学生的视力,将学生按学号排序l按有关标志排序:各单元的排列顺序与所研究的内容有关。此种排队抽样为有序系统抽样,代表性更好,减少抽样误差,提高估计的效率l如:调查学生的身高,将全部学生按入校体检时的身高由高到低排序l处于两者之间,根据各单元原有的自然位置进行排序。l如:入户调查根据街道门牌号码按一定间隔抽样整理课件系统抽样的优点系统抽样的优点l实施方便l能保证样本有一定程度的代表性l有时系统抽样不必重新编制抽样框,尤其是在被调查单元具有自然顺序排列时。如:流水线上生产的产品每隔k各抽查一次系统抽样的缺点系统抽样的缺点l样本代表性不好

24、:总体中单元的排列呈现一定的规律性甚至周期性时l在实际中被认为行之有效的系统抽样一般不是严格的概率抽样,此时要估算估计量的方差会遇到很大的问题整理课件系统抽样、系统抽样、整群抽样和分层抽样的关系整群抽样和分层抽样的关系l系统抽样的特点:l一旦起始单元确定,整个样本就确定了l系统抽样可以看成是一种特殊的整群抽样,也可以看成是一种特殊的分层抽样(但不是分层随机抽样)整理课件四种抽样方法的比较四种抽样方法的比较简单随机抽样系统抽样整群抽样分层抽样优点简单直观,是其他抽样的基础;均数(或比率)及标准误计算简便简便易行;易得到按比例分配的样本便于组织;节省经费;容易控制调查质量抽样误差小;对不同层可采用

25、不同抽样方法;可对不同层独立进行分析缺点不适合从例数较多的总体抽样;样本分散,难以组织调查如果抽样间隔与抽样对象的某些特征分布吻合,容易产生偏差抽样误差较大;群间变异越大,抽样误差越大需要掌握对抽样对象的分层特征。抽样工作量大适用范围主要用于小样本的情形适合抽样对象有某种顺序的情形适合抽样总体很大的情况主要用于控制重要混杂因素的影响整理课件多阶段抽样多阶段抽样(multi-stage sampling)整理课件问题的提出问题的提出l整群抽样具有样本比较集中的特点,因此便于组织实施,回答率也很高。l但由于群内通常具有相似性,尤其是当群比较大时,此时没有必要对群内所有单元都进行调查,而是对群内进行

26、再抽样,对部分被抽中的单元进行调查,即实际工作中的多阶段抽样。整理课件总体多阶段抽样的定义多阶段抽样的定义 由两个或更多个连续的阶段抽取样本的方法。由两个或更多个连续的阶段抽取样本的方法。 多阶抽样示意图:多阶抽样示意图:第一阶样本最终样本整理课件多阶段抽样多阶段抽样 常用于大规模的抽样调查。基本原理是将总常用于大规模的抽样调查。基本原理是将总体按行政区体按行政区(如省、县、乡、村等如省、县、乡、村等)或机构或机构(如中央如中央、地方机构等、地方机构等)分级,每级均制作各自的抽样框,分级,每级均制作各自的抽样框,然后逐级随机抽取一定的抽样单位组成样本。然后逐级随机抽取一定的抽样单位组成样本。

27、整理课件实例:实例:全国农村脑卒中患病率调查全国农村脑卒中患病率调查抽样设计抽样设计l将省作为第一级抽样单位,假定全部的省均进行调查,因而全部抽出l将每一省的县作为第二级抽样单位,从每省随机抽取一定的县l依次将乡、村和村民定为第三、四、五级抽样单位,逐一抽取相应的样本l全国调查的样本为各省抽中的县、乡、村中的全部村民整理课件l在实际使用多阶段抽样时,各阶段的定义可以根据行政管理级别确定,如:街道、居委会、居民户。l但也可根据组织的管理的方便和实际的可能跳过某些行政机构整理课件多阶段抽样抽样方法与推断原理多阶段抽样抽样方法与推断原理l多阶段抽样每一个阶段的抽样方法可以相同,也可多阶段抽样每一个阶

28、段的抽样方法可以相同,也可以不同以不同l通常与分层抽样、整群抽样、系统抽样结合使用通常与分层抽样、整群抽样、系统抽样结合使用整理课件多阶段抽样举例多阶段抽样举例l某调查公司接受了一项关于全国城市居民人均奶制某调查公司接受了一项关于全国城市居民人均奶制品消费支出及每天至少喝一杯鲜奶的人数的比例情品消费支出及每天至少喝一杯鲜奶的人数的比例情况的调查。确定抽样范围为全国地级以上城市中的况的调查。确定抽样范围为全国地级以上城市中的成年居民。成年居民指年满成年居民。成年居民指年满18周岁以上的居民。周岁以上的居民。整理课件l第一步:确定抽样方法第一步:确定抽样方法l多阶段抽样方法进行方案设计。多阶段抽样

29、方法进行方案设计。l调查的最小单元:成年居民调查的最小单元:成年居民整理课件l第二步:样本量的确定第二步:样本量的确定l按简单随机抽样,在按简单随机抽样,在95%置信度下,绝对误差为置信度下,绝对误差为5%,取使方差达,取使方差达到最大的(消费奶制品的居民)比例到最大的(消费奶制品的居民)比例50%,样本量为:,样本量为:n0=t2*P*Q/d2= 22*0.5*0.5/0.052=400(人)人)l根据以往的调查经验,估计应答率根据以往的调查经验,估计应答率=80%,则调整样本量为,则调整样本量为“400/0.8=500(人)(人)l多阶段抽样的效率比简单随机抽样的效率低,设设计效应多阶段抽

30、样的效率比简单随机抽样的效率低,设设计效应deff=3.2,则在全国调查的样本量为:则在全国调查的样本量为:5003.2=1600(人)(人)整理课件l各阶段的样本量配置为:各阶段的样本量配置为:l初级单元:初级单元:20个城市个城市l二级单元:二级单元:80个街道,每个样本市内抽个街道,每个样本市内抽4个街道个街道l三级单元:三级单元:160个居委会,每个样本街道内抽个居委会,每个样本街道内抽2个居委会个居委会l四级单元:四级单元:1600个居民户,每个样本居委会内抽个居民户,每个样本居委会内抽10个居个居民户民户l在样本居民户内,利用随机表抽在样本居民户内,利用随机表抽1名成年居民名成年居

31、民整理课件l第三步:确定抽样方法第三步:确定抽样方法l第一阶段:在全国城市中按与人口数成比例的放回的不第一阶段:在全国城市中按与人口数成比例的放回的不等概率抽样,即等概率抽样,即PPS抽样抽样l第二阶段和第三阶段分别按与人口数成比例的第二阶段和第三阶段分别按与人口数成比例的不等概率不等概率等距抽样等距抽样l以第二阶段为例:在某个被抽中的样本城市中,将其所属的以第二阶段为例:在某个被抽中的样本城市中,将其所属的街道编号,搜集各街道的人口数,赋予每个街道与其人口相街道编号,搜集各街道的人口数,赋予每个街道与其人口相同的代码数;根据该市总人口数除以样本量同的代码数;根据该市总人口数除以样本量4,确定

32、抽样间距;,确定抽样间距;然后对代码进行随机起点的等距抽样,则被抽中代码所在的然后对代码进行随机起点的等距抽样,则被抽中代码所在的街道为样本街道。街道为样本街道。整理课件不等概率抽样的提出:不等概率抽样的提出:PPS抽样抽样(sampling with probability proportional to size)l出现总体单元差异大时,将总体单元按规模(大小)出现总体单元差异大时,将总体单元按规模(大小)分层,较大单元的层抽样比高(甚至为分层,较大单元的层抽样比高(甚至为100%),),而小单元的抽样比低;而小单元的抽样比低;l赋予每个单元与其规模(或辅助变量)成比例的入赋予每个单元与其

33、规模(或辅助变量)成比例的入样概率样概率l推算时对入样概率较大的单元则赋予其一个较小的推算时对入样概率较大的单元则赋予其一个较小的权重;反之,入样概率较小,推算时,赋予其一个权重;反之,入样概率较小,推算时,赋予其一个较大的权重。较大的权重。整理课件PPS抽样举例抽样举例l不放回按抽样单位规模大小成比例的概率抽样不放回按抽样单位规模大小成比例的概率抽样(PPS)方法简介)方法简介(链接)(链接)整理课件l第三步:确定抽样方法(续)第三步:确定抽样方法(续)l第四阶段:分别在每个样本居委会中,按等距抽样抽出第四阶段:分别在每个样本居委会中,按等距抽样抽出10个居民户。即根据居委会拥有的居民户数除

34、以样本量个居民户。即根据居委会拥有的居民户数除以样本量10得到抽样间距,然后随机起点等距抽样。得到抽样间距,然后随机起点等距抽样。l在每个居民户中:按二维随机表抽取在每个居民户中:按二维随机表抽取1名成年居民。名成年居民。整理课件l第四步:推算牛奶消费量第四步:推算牛奶消费量整理课件多阶段抽样小结多阶段抽样小结l对于大规模的抽样调查项目,通常采用多阶段抽样。对于大规模的抽样调查项目,通常采用多阶段抽样。此方法可以看作是对样本群内的单元进行再抽样的此方法可以看作是对样本群内的单元进行再抽样的一种方法。一种方法。l和整群抽样一样,当各级单元大小相同时,各阶的和整群抽样一样,当各级单元大小相同时,各

35、阶的抽样采用等概率抽样的方法。抽样采用等概率抽样的方法。l但是实际中,大多数是各级单元大小不同的情形,但是实际中,大多数是各级单元大小不同的情形,此时最简单的就是构造自加权的样本。即前几阶采此时最简单的就是构造自加权的样本。即前几阶采用用PPS抽样,最后一阶采用等概率抽样,并且从第抽样,最后一阶采用等概率抽样,并且从第二阶开始,每一阶的样本量都相同。二阶开始,每一阶的样本量都相同。整理课件多阶段抽样的优点多阶段抽样的优点l当群具有同质性时,多阶抽样的效率高于整群抽样l样本的分布比简单随机抽样集中,调查可以节约时间和费用l不需要整个总体单元的名录框,只要群的名录框和抽中群的单元名单整理课件多阶段

36、抽样的缺点多阶段抽样的缺点l效率不如简单随机抽样l调查的组织较整群抽样复杂l估计值与抽样方差的计算较为复杂整理课件抽样调查的基本步骤和准备抽样调查的基本步骤和准备l首先要确定调查的目的和要求首先要确定调查的目的和要求l了解哪些指标了解哪些指标l准备估计哪些参数准备估计哪些参数l参数估计的精度参数估计的精度l目的确定了,被抽样的总体也就完全确定目的确定了,被抽样的总体也就完全确定整理课件非概率抽样非概率抽样l方便抽样l目的抽样l滚雪球抽样l志愿者抽样整理课件方便抽样方便抽样l研究者根据现实情况,以自己方便的形式抽取偶然遇到的人作为调查对象,或者仅仅选择那些离得最近的、最容易找到的人作为调查对象整

37、理课件目的抽样目的抽样l调查者根据研究的目标和自己主观的分析,来选择和确定调查对象的方法。l研究者依据主观判断选取可以代表总体的个体作为样本。样本的代表性取决于研究者对总体的了解程度和判断能力。整理课件滚雪球抽样滚雪球抽样l当我们无法了解总体情况时,可以从总体中的少数成员入手,对他们进行调查,向他们询问还知道哪些符合条件的人;再去找那些人并询问他们知道的人。如同滚雪球一样,我们可以找到越来越多具有相同性质的群体成员。整理课件非概率抽样的优缺点非概率抽样的优缺点l缺点:l不能推论总体l优点:l有时严格的概率抽样无法实现l可用于只是为了进行探索性研究而不是推论总体l操作方便,省钱省力l注意:非概率

38、抽样也必须评价代表性整理课件试验设计中样本含量估计试验设计中样本含量估计整理课件(一)率的估计与(一)率的估计与假设检验的样本量假设检验的样本量整理课件1.估计总体率估计总体率l为调查北京地区肠易激综合症的患病率,某卫生部门在北京市居民中按简单随机抽样的方法进行抽样调查。根据文献资料,人群患病率为15%。若要求在可信度为95%下,将容许误差控制在3%,则应抽出多少居民进行调查? l如果人群患病率为45%,则样本量为多少?整理课件1.估计总体率(续)估计总体率(续)2/ 222(1)n:0 .7/ 2n15 7 .3s in(1)uu文 献 估 计 人 群 患 病 率: 容 许 控 制 误 差但

39、 当0或(0)则单个总体率假设检验时样本量的估计公式为:l如果为双侧检验,即H1:0则将公式中的u改为u/2即可 2200n11uu整理课件 1.645*(0.15*(1-0.15)1/2+1.282*(0.1*(1-0.1)1/22 N= - 0.052 = 377.9 378 整理课件2.单个总体率的假设检验单个总体率的假设检验(续)续)l当P0.7时,正态性较差,此时样本量计算公式为: 110n2usinsinu整理课件3.完全随机设计的两个总体率的假设完全随机设计的两个总体率的假设检验检验l例:某单位研究甲、乙两药对某病的疗效,预试验得甲药有效率为60%,乙药为85%。现拟进一步作治疗

40、试验,设=0.05, =0.10,问每组最少需要观察多少病例?整理课件l设两总体率为1、2,两样本率为p1,p2。当假设检验为单侧时,用pearson 卡方检验进行检验的样本量为l 221211221212:/22111nnwherepppppppuuppppuu和分别为单侧标准正态离差整理课件当假设检验为双侧时,用当假设检验为双侧时,用pearson pearson 卡卡方检验进行检验的样本量为方检验进行检验的样本量为2212/211221212:/22 111nnwherepppppppuup pp p整理课件P1=.60, p2=0.85, U0.05/2=1.96, U0.10=1.2

41、82 1.96*(2*0.725*0.275)0.5+1.282*(0.60*0.40+0.85*0.15)0.52N1=n2=- (0.60-0.85)2 =64.96 65整理课件l而当两个率都很小的时候,则样本量为:21121n2+upsinsinup()整理课件4.完全随机设计的多个总体率的假设完全随机设计的多个总体率的假设检验检验 l某单位拟观察3种疗法治疗消化性溃疡的效果,预试验结果为:甲法有效率为40%,乙法为50%,丙法为65%,设=0.05, =0.10,试估计所需样本量。 整理课件2minmaxminmaxminmax2n11maxmin:=k1=0.5-/ 2=0.5+/ 222sinsinwhereppppppppddd为自由度时的界值(查表:值:多个样本率比较时样本量的计算)k:组数和为所有总体率估计值(样本率)中的最大率和最效率,通过预试验获得也可以估计最大率和最小率之差,然后计算和ppp整理课件Pmax=0.65, pmin=0.40, df=3-1=2, =0.05, =0.10查附表值(多个样本率比较时样本量估计用)0.05,0.10(2)=12.65N=2*12.65/(2sin-1(0.65)0.5 2sin-1(0.40)0.5)2 =98.8每组需要99例,3组

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论