版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第二章抽样(第二),概率抽样的各种方法用简单的随机抽样系统分层抽样,对整个组进行抽样,第五节概率抽样,概率抽样:整体内所有个体都有机会提取相同的抽样。 1 .简单随机采样,1 .特征简单随机采样以完全符合全部个体的特定方式提取样本。 也就是说,在采样时不进行任何分组,进行排列,整体的任何个体都有同样被提取的平等的机会。 为了保证样品框的充分性,如果漏了部分个体,就失去了进入样品的机会,随机的原则被损害。 2 .方法,整体小时抽签,从抽选法3000整体中抽出100个的情况下,抽选法怎么样,整体大时的随机数字表,随机数法的步骤:1.决定整体n,编号(n的位数决定所有号码的位数,例如N=1000 0
2、0021000)2.任选地,当确定选择规则(上、下、左、右、其他规则)来指代列表上的奇偶校验编号的起点(0556) 3之一时,如果已经选择并确定了足够的样本规则,则在不变的情况下遇到了重复的随机数(即,大于整个随机数)。 缺点:1.需要整体的要素编号,整体包含的个体数量太多的情况下,采用该方法很费事2 .整体分类很清楚的情况下,该样本无法根据类的特征自动分配样本数。 为了保证样品的代表性,必须增加样品量,增加工作量。 2 .系统采样(Systematic Sampling ) (等尺采样),(1)直线等尺采样(采样间距k为整数)1.将总量的所有个体按一定顺序排列。 2 .计算采样间距。 采样间
3、隔由总数量和采样数量决定。设总体数为n,采样数为n,采样间隔在nk=n3.1k的范围内,随机从始点数r4.r中,按每k个单位抽出一个单位,依次抽出的单位号为r、r k、r 2k、r (n-1)k的特征:按列选择的概率为为了了解有直线等间距采样练习问题:的大学有12000名学生的生活态度,决定用系统采样的方法提取200名学生,用简单随机采样的方法提取第一个学生号码为12。 第10人、第15人的学生号码请计算多少(2)循环等间距采样(k不是整数)方法1. 1 .前后连接整体的n,N K=、 取接近k整数的2 .随机起点r从1-N随机地提取n的方法2 .调整直线等间距采样将1.k的小数点移位为整数K
4、 2.确定整数的随机起点r,从10-K到3 .确定非整数的随机起点r,即r的小数点从4.r移位抽出的所有号码的省略小数点的特征:所有单位都具有相同的当选概率1/K。 (3)根据整体单位的排列差异的不同的样本1 .无序的样本整体按与调查项目无关的指标排列的住户调查按显示号码来评价,容易无视整体的现有信息(与简单的随机采样相同)2.规则的采样整体上按与调查项目有关的指标并住户调查按平均收入来评价的话,样本单位容易变大或变小(3)根据整体的单位排列的不同而不同的采样3 .整体的周期排列-采样间距K=周期倍数的代表性的差,从整体中提取出一个单位-采样间距k 相当于重复提取的高低差-相当于采样间距k (
5、半)的周期倍数的代表性整体的大部分指标值被选择为解决方法:1.掌握整体的周期排列,选择适当的采样间距2 .扰乱整体排列的周期性,放弃系统的采样, 注意,等间隔采样比简单的随机采样样本分布更均匀,且采样误差更小。等间隔采样以整体随机排列为前提,在整体排列中出现规则分布的情况下,等间距采样产生较大的误差, 样品的代表性等间距采样最适合同质性高的整体,整体内的个体类别之间的数量过大,样品的代表性可能会变差。 在这种情况下,需要采用另一种分层采样方法。 系统采样练习,有杂志对其读者进行邮寄访问,更好地了解读者的市场。 N=150万,n=1500。 如何提取样品? 练习从编号1到900的整体中通过系统采
6、样提取出9个样品的产品2563分,产品按发货顺序编号,编号从1到1563,检查员从其中提取15分产品进行检查。 请提出系统抽样方案。 考察某百货公司2006年的日销售额,要把一年到52天的销售额作为样品提取,提出你的系统抽样方案,提出你的抽样方案的优点和不足,三.分层抽样(Stratified Sampling ), 另一方面,分层采样的内包:分层采样基于特定特征或某些特征将整体n分成几个子整体(层),并且通过从每层中进行简单随机采样或等间隔采样来提取一个子采样n-1,其中n-2是使用哪个层次变量? 一般来说,选择与调查目标变量的高度相关的变量。 要调整的层的数量和每层的样本量层次样本的总数较
7、大,且是异质的,一个或一个以上变量可影响调查结果的情形,并且有详细的研究总体列表。 分层后,每层同质,层间异质,按层成比例提取。、,分类,随机采样,N 10000,N1 1800,N2 3500,N3 3000,N4 1700 确定了阶层的特征, 2 .分层采样的种类:划分标准:各层的子采样容量的确定方式(1)比例分层采样比例分层采样请求:各子采样在全部样本中所占的比例=各层占整体的比例简单方便,常用(2)非比例分层采样(最佳分层采样)除此之外各子样本在所有样本中所占的比例各层在整体中所占的比例,不同层的单位进入样本的概率不同,是不均匀概率样本。 对整体中规模太小的层进行比较研究的不均匀概率采
8、样的后期统计一般要进行特殊处理。 20000户居民根据经济收入的高低来分类,高收入居民有4000户,占整体20%的中等收入有12000户,占整体60%的低收入家庭有4000户,占整体20%,其中提取了200户,购买力调整比例分层抽样高收入层样本数: 200 20%=40户中收入层样本数: 200 60%=120户低收入层样本数: 200 20%=40户,非比例抽样(最佳抽样法)上位示例:各层样本的标准偏差为高收入300元官方高收入层样本数: 200 1200000/4000000=60户中收入层样本数: 200 2400000/4000000=120户低收入层样本数: 200 400000/4
9、000000=20户,层次样本的适用性,1整体内部层次为两层取样可以提高整体参数估计的精度. 3有些研究不仅要理解总体情况,还要理解一些类别的情况。 4行政管理容易。 因为同一层可以看作整体,所以各层可以由负责人管理。 有高中学生500人,喜欢数学的学生占全体学生30人,不喜欢数学的学生40人,两者之间的学生占30人。 为了考察学生中考试的数学成绩,如何通过分层采样提取容量为50个样本的公司有500人,其中35岁以下的125人、3549人的280人、50人以上的95人。 为了调查员工的健康状况,从其中提取100人,如何进行分级提取? 一所大学食堂为了了解新生的饮食习惯,从1500名新生中分阶段
10、抽样调查了200人,新生中如何抽样南方学生500人、北方学生800人、西部学生200人?某市电视台网上招募和应征节目现场观众通过分层抽样提取60人参加,如何提取? 另外,全群随机采样(Cluster Sampling ),P31把整体按照某个基准分成I个组(互不重叠),把各组作为一个采样单位,以随机的方式提取几个组,把提取出的组中的所有个体合起来,成为整体的采样整个组的样本与分层样本相似,第一步骤是按照一定标准将整个组分成多个子组。 但是,分层采样在所有子组中提取一个子样本,整体样本提取几个子组,提取出的子组的所有个体作为样本,整体样本仅分布于几个组。 因此,整组抽样的组标准要求组间异质性低,
11、组内异质性高。 适合定义模糊的整体。 对、,子群进行了分割,随机取样,N 5000,R1 53,R2 50,R3 58,R4 48,R1 53,R4 48,R33 52,R98 50,n 250,整体,群(互不重叠),子群确定了、集团的特征,r10,47,r30,集团整体采样评价的优点:节约人力物资; 可以在不存在作为整体列表的样本框的条件下进行,从而可以扩大样本的范围。 缺点:样品代表性差,与其他方法相比样品数量相同时,样品误差大。对分层抽样和整个群体抽样进行了比较和讨论,调查了北京市现住人口,由于流动人口的不确定性,很难得到现住人口的居民名单。 1 .应该在这样的条件下采用那个概率采样方法
12、吗? 2 .大致的想法应该怎么做?练习,调查城市居民的状况,打算抽取1000个样本。 这个城市有500个居民委员会,每个居民委员会平均有100户居民。 如何使用整个样品进行操作? 5 .多阶段采样是组整体采样,在子组数量与子组内部的个体数多,彼此差异不太大的情况下,采用更经济的方法,对样本子组中的所有个体进行采样由于最终样本的获取被两次采样,所以我们称为两阶段采样,同样可以进行三阶段或四阶段,即多阶段采样。 通常,在第一阶段使用严格的随机采样方法,而在第二阶段使用概率比例采样,并基于各组中的个体数来分配样本金额。 某市23区,714万人,其中提取1000人的样品,以区为一次样品单位,列出每区人
13、数的号码范围,东区从1-120000号,西区从120001-270000号到7140000号,从这些号码中提取340000号,南区为调查区从这10个调查区中随机提取100人构成最终样本,多阶段采样例子、多阶段采样例子,优点:不需要整体列表为:的调查范围大,单位多,情况复杂例如,某市2.4万教师,分布在10区的200所学校,要抽出1200名教师来构成样品。 三阶段抽样,选择标准,1 .各抽样阶段子整体同质性程度高的抽样规模小2 .人力和经费,方案9中最节省的3 .抽样误差是一般的,样品的复盖面越大,代表性越高,就增加开头阶段的抽样数,适当地最终减少误差,室内抽样以within-household
14、为单位,另一方面,如果室内抽样以家庭为单位,则从入选家庭中提取成人为采访对象的抽样方法。 (1)方法:喀什选择法(kish ),第6节的样品尺寸,样品尺寸:样品容量,样品中包含的个体的合适样品尺寸:不仅有较好的代表性,而且还考虑成本。 统计学和社会调查的样品,统计学通常以30为界,把样品分成大样品和小样品。 这种区分是因为,如果样本的规模超过30,则其平均值的分布接近正态分布,所以可以运用许多统计学的公式,使用样本的资料将整体推论为社会研究样本的规模至少100个以下,确定应该考虑样本规模的要素。 (1)研究精度要求;(2)包括整体性质、整体规模和整体异质度;(3)采样方法;(4)可用于调查的人
15、才、财力、物资。 抽样误差和抽样规模、抽样误差:用抽样值(统计值)推定总体(参数值)时发生的误差调查误差(登记误差或工作误差):调查中,由于记录、整理了资料,被实验者回答问题不符合事实。 问题本身模糊等错误代表误差:样品不能代表总体而引起的误差,2种代表误差随机误差(采样误差):由于样品范围和整体范围的不同而发生,样品规模、整体变异程度等受影响的系统误差:由于采样方法不科学,所以是严格的在这种情况下,误差的主要原因是采样误差。 样本规模与采样误差密切相关,样本越小则整体差异越大,误差大的样本的大小取决于研究所要求的精度,样本的精度要求越高则可接受的误差越小,样本越大,反之亦然。在一定精度的要求下
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年高职(医学检验技术)临床免疫学检验综合测试题及答案
- 2026宁波北仑区图书馆编外招聘2人笔试备考试题及答案解析
- 2026年光刻机行业分析报告及未来发展趋势报告
- 2026年鲤鱼养殖行业分析报告及未来发展趋势报告
- 2026青岛城投金融控股集团有限公司招聘1人笔试参考试题及答案解析
- 2026年化工工程师安全考试重点
- 2026年金属围护行业分析报告及未来发展趋势报告
- 2026年睫毛膏行业分析报告及未来发展趋势报告
- 2026年海关通关岗招考模拟试题
- 2026年含磷萃取剂行业分析报告及未来发展趋势报告
- 全科医学科常见急救操作培训
- 机械技术报告
- 木材科学与技术
- 抖音直播电商培训课件
- 中石化作业许可培训课件
- 骨盆骨折专科学习课件
- 检验科专业知识培训
- 2025年北京市建华实验亦庄学校公开招聘聘任制教师(第三批)笔试历年典型考题(历年真题考点)解题思路附带答案详解
- GB/T 18280.2-2025医疗产品灭菌辐射第2部分:建立灭菌剂量
- 代打战神协议书
- 2025广东佛山顺德农商银行秋季招聘参考试题附答案解析
评论
0/150
提交评论