版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、抽样方法和样本量估计,报告人:常 捷,关于抽样的概念,研究对象(unit of analysis) 根据研究目的确定研究对象。 总体(population) 在明确研究对象的基础上,确定其同质范围。 调查对象(sampling element)被抽中的研究对象。 抽样单位(sampling unit) (如县、乡、村、医疗机构等等) 观察对象(observation unit) 如调查户主,户主填写户中各个家庭成员情况 抽样表(sampling frame)列出所有抽样单位的名册 抽样方法(sampling design) 抽样误差(sampling error)只是因为抽样个体差异产生的随机
2、误差 抽样偏移(sampling bias)造成系统误差,样本层面的系统的偏差,对总体的代表性偏差,抽样方法可分为概率抽样法与非概率抽样法两类 概率抽样法(probability sampling ) 总体中每个个体被抽中的概率是已知且不为零的,可以计算抽样误差并在此基础上做统计推断。 主要包括:简单随机抽样;系统抽样;整群抽样;分层抽样 非概率抽样法(non-probability sampling) 不知道总体中每个个体被抽中的概率,选择样本的过程往往不是随机的。抽样误差无法计算,选择偏移无法控制。 主要包括:方便抽样;配额抽样;目的抽样;滚雪球抽样,单纯随机抽样 simple rando
3、m sampling,单纯随机抽样就是在总体中以完全随机的方法抽取一部分观察单位组成样本。常见的办法是先对总体中全部观察单位编号,然后用抽签、随机数字表或计算机产生的随机数字的方法从中抽取一部分观察单位组成样本。但是当总体例数较多时,这种方法不太适用。 单纯随机抽样法是其他概率抽样法的基础。 Random Number Generator ,系统抽样 systematic sampling,系统抽样又称机械抽样或等距抽样,先将总体的观察单位按某一顺序分成n个部分,再从第一部分随机抽取k号观察单位,一次用相等间隔,从每一部分各抽取一个观察单位。 系统抽样常作为单纯随机抽样的替代。,整群抽样 cl
4、uster sampling,整群抽样是先将总体按照某种与主要研究指标无关的特征划分为K个群,每个群包含若干观察单位,然后再随机抽取k个群,由抽取的各个群的全部观察单位组成样本。 与前两种方法不同在于抽样单位不同,不是直接抽取个体,而是抽群。 单层整群抽样single-stage cluster sampling 多层整群抽样multi-stage cluster sampling 群的变异越小,群越多,抽样误差越小 样本量一定情况下,增加群、减少每群中样本数,能提高总样本的代表性 成本低 代表性差,分层抽样 stratified sampling,分层抽样是先按照对研究指标影响较大的某个特征
5、将总体分成若干类别(即“层”),再从每一层内抽取观察单位,合起来组成样本。 优点1)相同样本量,抽样误差最小 优点2)不同的层中,根据实际情况可以选择不同的抽样方法 各层观察单位数的分配:等比例分配;最优分配 1) 2) ;,非概率抽样法(non-probability sampling) 虽然在对总体的代表性上很差,在此基础上做统计推断也不科学,但在很多情况下,也是适用的。,方便抽样 Convenience Sampling,方便获得的个体即选为样本,样本中每个个体的获得都是偶然性的。最终,样本不能够代表总体。不能在此基础上做统计推断。可以用于研究的初始阶段,目的可以是为了发现了解相关信息,
6、发现值得研究的问题,为下一步提出假设准备信息。,配额抽样 Quota Sampling,配额抽样为保证样本的代表性,其样本中具有某种特征的比例几乎和母体中具有此种特征的比例相等。譬如某大学有10000名学生,我们要抽取1000名。将学生依年级分成如下四个子母体。 年级 学生数 在母体之百分比 样本人数 一 3200 32% 320 二 2600 26% 260 三 2200 22% 220 四 2000 20% 200 与分层抽样区别在于,分层抽样是按随机原则在层内抽选样本,而配额抽样则是由调查人员在配额内主观判断选定样本。,目的抽样 Purposive Sampling,总体量很小时,比如总
7、体中只有三个个体,此时,随机抽样并不一定能抽到具有代表性的样本。这种情况下,还不如根据自己的专业知识或者通过咨询专家借助他们的专业知识人为选出最有代表性的样本。,滚雪球抽样 Snowball Sampling,通过总体中的一个个体提供的线索找到其他的几个个体,再通过其他几个个体提供的线索找到更多的个体。 适用于难以找寻、获得的研究对象 如 HIV/AIDS 其抽样的代表性也局限于被调查者的提供的社会网络。,第四次卫生服务总调查家庭健康询问调查样本住户的抽取方法,将样本村(居委会)内全部住户(包括非本地户口住户)按名单顺序编号(Sampling Frame) ; 根据本村(居委会)应抽取的样本户
8、数确定抽样间隔。 国家样本点抽样间隔 = 本村(居委会)内户数 / 60(四舍五入,取整数) 西部扩点抽样间隔 = 本村(居委会)内户数 / 33 (四舍五入,取整数) 确定抽样住户:首先随机抽一张人民币,取其末四位数,该数除以抽样间隔后的余数确定为K值,则K抽样间隔。K值为被抽第1个住户编号,K 值加抽样间隔为被抽中的第2个住户编号,K值加两个抽样间隔为第3个被抽住户编号,以此类推。 (Systematic Sampling),第四次卫生服务总调查医务人员调查样本抽取方法,一、调查对象 调查对象为被抽中的临床医生和护理人员。被调查人员将在家庭健康询问调查的样本县(市、区)中抽取,涉及到的机构
9、包括样本县(市、区)中的所有三级综合医院、部分二级综合医院及样本乡镇及街道中的所有社区卫生服务中心和乡镇卫生院。 二、调查对象的选取 (一)综合医院 1、开展家庭健康调查的样本县(市、区)中的所有三级综合医院及部分县(市、区)医院参与调查,参与调查的机构名单见培训光盘; 2、每所医院选取临床医务人员30名,其中医生20名,护理人员10名。 (二)社区卫生服务中心及乡镇卫生院 样本街道、样本乡镇中所有的社区卫生服务中心和乡镇卫生院均参与调查; 每所社区卫生服务中心和乡镇卫生院选取临床医务人员10名,其中医生7名,护理人员3名。如机构内人员数量不满足样本需求时,按实际人数进行调查。 三、样本个体选
10、取原则(Quota Sampling) 1、全院所有临床科室均要抽到; 2、样本选取要求职称分布均匀,兼顾高、中、初级职称。,中国健康与养老追踪调查抽样设计,2008预调查抽样介绍 CHARLS预调查抽样程序:县级单位的选取是按区域以及城乡分层,然后依照PPS(Probability Proportional to Size)方法随机选取的。在每个县级单位中,CHARLS再依照PPS方法随机抽取3个村级单位(或是一个城镇社区),在每一个村或社区中,再从地图上随机抽取25-36处住所;然后决定每个住所中家庭户的样本个数。CHARLS随机选取其中一个符合年龄条件的家庭,然后确定该家庭中符合年龄条件
11、的家庭成员个数并随机抽取一人作为主要受访者。基于这样的随机抽样过程,每个村或社区会产生25-36个样本家庭,每户家庭产生的受访者有1名(单身、离婚或丧偶)或2名(主要受访者及其配偶)。,中国健康与养老最总调查抽样方法,2011年全国基线调查抽样介绍 CHARLS 抽样以保证样本的无偏和代表性为宗旨,通过四个阶段,分别在县(区)-村(居)-家户-个人层面上进行抽样。具体而言,在县(区)-村(居)两级抽样中,CHARLS均采用按人口规模成比例的概率抽样,简称为PPS抽样(probabilities proportional to size)。在县级抽样阶段,按照PPS方法,以每个区县2009年人口
12、数量为基础,使用地区、城乡和GDP为分层指标,直接从全国30个省级行政单位(不包括西藏自治区、台湾省以及香港和澳门特别行政区)范围内随机抽取150个区县;在村级抽样阶段,按照PPS方法,以每个村或社区2009年常住人口为基础,从上述150个区县中各随机抽取3个村或社区,最后得到450个村/社区。以上抽样过程均在STATA软件环境中进行,不允许换样本。 为了避免人口信息的偏差,抽样时我们对450个村级单位的2009年常住人口数据与2007年数据进行了比对。对于两年人口数据差别超过一定限度的村或社区,向统计局进行了核实。同时,对于抽中的村或社区,通过中国疾控中心发文到全国进行核实,进一步保证了抽样
13、的质量。 在村/社区抽样完成后,为得到准确的家户样本抽样框,中国健康与养老追踪调查项目设计并开发了专用的绘图软件(简称CHARLS-GIS)以进行实地绘图并搜集住户信息。该软件利用清晰的Google Earth影像图或者其它途径的图片作为底图。在实地工作中,绘图员首先携带GPS在村的边界外走一圈来确定样本村/居委会的边界;其次,根据实地情况依次在底图上勾画建筑物,导入建筑物GPS位置并进行拍照;之后,填写建筑物内住户信息列表。在绘图和列表工作完成后,CHARLS北京总部与每个村(居)联络人联系,并对以下三方面进行审核:(1)边界是否准确;(2)是否所有建筑物都包括在内;(3)住户列表是否准确(
14、通过随机抽取住户核对他们的地址进行)。 通过审核后,从每个样本村/居委会的所有住户信息列表中随机抽取80户样本家户,并对这80户进行入户询问、核实家里最长家户成员的年龄、户主的姓名、联系方式、家户状态(是否空户、无法联系)。之后,根据2008年CHARLS甘肃和浙江试调查的拒访率,按照每个村(居)24户有效家户估算需要抽中的样本户数量并在80户内进行相应数量的样本抽取。最终在450个村、居抽取的样本户为23590户。抽样完成后,抽中的住户会在地图上自动显示,绘图员会重新访问这些户,对住户门口拍照,取GPS位置,送致居民的一封信。 在个人层面,我们利用过滤问卷进行调查,在每个样本户中随机选择一位
15、年龄大于45岁的家庭成员作为主要受访者,对他(她)及其配偶进行访问。,样本含量(sample size),为了保证研究结论的可靠性,确定的实验研究或调查研究所需要的最低观察对象的数量。 样本含量少,研究结论不可靠(accuracy) 样本含量过多,造成人财物的不必要浪费(efficiency)还有可能引入不必要的混杂因素。,影响所需样本量的因素,总体特征 (, the size of population) 分析方法 (比较和同时分析的变量) 对估计精度的要求 ( ) 财力、时间和人力 研究设计 (如实验研究;准实验研究) 回应率 (1回应率;2问卷合格率),样本量估计时考虑的因素,第一类错误概率大小(或置信度1-),越小,所需要的样本含量越大,根据研究问题的性质和研究目的决定I型错误的概率值,通常情况下,取0.05,可取单侧或双侧。 第二类错误概率大小,越小,检验效能1-越大,所需样本量也越大,一般要求检验效能不低于0.80。一般只取单侧。在参数估计的样本量估计中不涉及,在假设检验的样本量估计中涉及。,样本量估计时考虑的因素,容许误差,是指研究者要求的或客观实际存在的样本统计量与总体参数间或样本统计量间的差值,容许误
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 江苏省淮安市市级名校2025-2026学年初三模拟卷(一)英语试题试卷含解析
- 河北省石家庄市正定县市级名校2026届初三第一轮复习质量检测试题语文试题含解析
- 安徽省蚌埠局属校2026年初三下学期实战考试语文试题含解析
- 陕西省宝鸡市凤翔县达标名校2026届初三中考仿真模拟冲刺考试(六)语文试题含解析
- 2026届江苏省盐城市射阳外国语校初三下学期期末学业质量监测英语试题含解析
- 浙江省台州市椒江区市级名校2025-2026学年初三下学期3月抽测英语试题含解析
- 2026年苏省南京市联合体重点达标名校初三语文试题5月29日第9周测试题含解析
- 跨部门协作沟通会议组织与记录模板
- 跨部门协作沟通会议纪要撰写指南
- 稀有动植物摄影保护承诺书3篇
- 疫苗冷链管理培训课件
- DRG付费下医院肾内科运营策略
- T-CECA 20011-2021 含铁含锰地下水接触氧化法给水处理技术规程
- 商铺销售协议书模板
- 2026年安阳职业技术学院单招职业适应性测试必刷测试卷及答案解析(名师系列)
- 中国古代识人方法
- 中烟机械技术中心笔试试题2025
- 基于儿童心理健康发展的智能产品设计
- GB/T 6730.11-2025铁矿石铝含量的测定EDTA滴定法
- 医院污水处理知识培训课件
- 2025届四川省绵阳市高三下学期第一次诊断考-生物试题(含答案)
评论
0/150
提交评论