抽样(sampling).doc_第1页
抽样(sampling).doc_第2页
抽样(sampling).doc_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

l 抽样(sampling) 概述 抽样就是从较大的总体中选出一些样本,以便进行提问、调查和检测等工作,最后归纳出关于总体的结论。 适用场合 当需要获得关于总体的一些结论时; 当考察总体需要很高的成本,存在一定困难,或占用大量的时间时; 例如: 当在产品生产过程中或完成之后监测产品质量时; 当审查文档与生产过程的一致性时; 当收集员工或顾客的偏好或反馈时; 当在大范围生产测试新产品时。 实施步骤 如果是刚接触抽样的方法,可以先查看下页的重要定义,给出了抽样方法的一些相关概念的解释,然后再回到抽样的实施步骤: 1确定研究的总体,提出抽样的计划。 2允许的极限误差以及置信水平,具体使用数据的相关人员应该参与设定。 3选择抽样的方法和样本容量n,要在成本和精度的要求之间作出权衡。可以在互联网上完成简单随机抽样的样本容量的计算。对于其他的抽样方法,请统计学 家帮助确定合适的样本容量。 4将抽样的计划文档化。包括何时以及如何进行抽样。如果是持续的抽样过程,准备类似核算单形式的工具协助进行抽样。 5实施抽样。 示例 案例是描述各种抽样方法的最好方式。假设一个公司希望对遍布在世界各地的10458名员工进行一次调查。员工集体就是研究的总体,项目小组已经确定了要提问的问题,然后他们聚集到一起计划采取的抽样方法。 简单随机抽样(Simple Random Sample)。冈侯(Gung Ho)发起了讨论:“我已经利用互联网的样本容量计算器计算出,对于误差范围为5,置信区间为95%的指标,我们需要371个样本。我们可以再利用互联网的随机数生成器在110458之间随机的产生371个数字,并且已经给每个员工分配了一个惟一的数字,这样拥有那些数字的员工就形成了样本。” 系统抽样(Systematic Sample)。艾玛辛克尔(Ima Thinker)说:“员工名单是把不同地区、不同部门、不同性别的员工完全随机排序形成的。我们为什么不这样做:随机地取一个起始点,可以投骰子决定,如出现的是4点,我们就从名单的上第4个开始,每隔28人抽取一个样本,因为10458被371除等于28。” 方便抽样(Convenience Sample)。曼尼玛尼柏格斯(Manny Moneybags)说:“为什么要浪费时间,我们这幢大楼里就不止371名员工,只要对每个人进行凋查,今天下午就能得到我们需要的答案。”幸运的是,工作组的其他成员指出并说服了他,因为只有完全随机抽取的371个样本才是有效的。而且即使调查了这幢大楼里的所有员工,得到的样本也,不能代表所有的员工。(曼尼玛尼柏格斯曾经领导开展了一次顾客调查,只调查了打进呼叫中心电话的前10名顾客。在这个存在偏倚的方便样本中,东海岸地区的顾客以及早起的人占据了过大的比重,而完全忽略了互联网上的用户。) 整群抽样(Cluster Sample)。维拉普拉克提克(Vera Practical)说:“你还是没有完全明白抽样。使用你所说的方法,固然可以减少访谈员的旅费,但我们想要获得更多、更好的信息必须由经过培训的访谈员作面对面的访谈调查。我有一个主意:将所在的每个地区看作一个群,从24个群中随机选取几个,然后在这些地区群中随机抽样。虽然需要的样本容量更大了,但是由于节省了旅费总成本反而降低了。可以请统计学家帮助确定样本的容量。” 分层抽样( Proportional Stratified Sample)。威尔普莱危(Will Prevail)大声地说道:样本必须来自不同经历的人群,从而确保获得的是具有代表性的反馈。简单随机抽样和系统抽样都不是最直接的方法,分群的抽样也不能达到要求。应该将全部员工分成四组:5年以下工作经验的员工;510年工作经验的;1020年工作经爱的;20年以上工作经验的。从每组中按相同比例随机抽取样本。由统计学家确定样本容量,不能少于371。而且,维拉玛丽(Vera Marie),我们也可以使用电话访谈;” 重要定义 总体(population or universe)研究的个体或项目的全体。 抽样范围(sampling frame)用来代表总体的列表,样本要在该总体中抽取。 样本( sample)从总体中抽取的包含相对较少的个体或项目的集合。 抽样( sample)从总体中抽取一组个体或信息以进行分析、检验。 随机样本( random sample)使用让每个个体都有同等的机会被抽到的方法获得的样本。 典型样本(representative sample)由能反映总体的全部特征的个体或信息组成的样本。例如,从浏览网页的客户中抽取的样本就不具备典型性,因为它不能反映没有电脑或不使用电脑购物的客户的信息。 抽样误差(sampling error)由样本估计的结果与如果进行全数检验会得到的结果之间的差距。由样本估计的结果几乎不可能正好等于未知的真值。真实的抽样误差通常也无法得知,但是可以计算出极大值。 误差范围( margin of error)或置信区间(confidence interval)或容差要求(tolerance specification)真值的估计区间。可以由统计公式求得。例如,一个候选人在接受调查的选民中的支持率是38%,误差范围为4%,这就意味着他的实际支率很可能是在34%42%这个范围内。但是没有其他信息,你就无法得知这个可能性到底有多高,因此还需要用到置信水平。 置信水平(confidence level)重复抽样的真值落在算出的置信区间内的可能性。在上面选举的例子中,假设置信水平是95%。如果选举重复进行很多次,那么就有95%的选举(或20次中的19次)的真值会落在置信区间内。对置信区间的另一种理解是犯错误的概率,在这个例子中是5%。在使用“置信区间”描述范围时,应该同时说明置信水平。本例中误差范围为4%就意味着置信水平为95%的置信区间。 准确度(accuracy)由样本得到的估计值与真值的接近程度。 精确度(precision)由样本得到的估计值与如果进行全数检验会得到的结果的相近程度。 偏倚( bias)因抽样方法导致的样本与总体的差异。 注意事项 抽样的一个优点是比对总体进行调查的结果更准确。这似乎不合逻辑因为存在抽样误差,所以100%检验好像应该更精确一些。但其他类型误差同样会导致100%检验的结果与真值的偏离,如报告误差和无响应误差。这几类误差带来的影响通常要大于抽样误差,而且无法测量或估算。调查较少的样品,就可以更仔细地计划、培训和实行,以减少这几类误差。 选取合适的抽样范围是抽样成功的关键。理想的抽样范围应该包括预期的整个总体,排除那些预期总体之外的样品,避免重复,以及最新、最准确的样品数据。假设预期的总体是即将到来的一次选举的所有投票者。众所周知的一次错误的民意调查是预测杜威( Dewey)将击败杜鲁门(Truman),就是因为选择了不恰当的抽样范围:电话簿。1948年,很多生活在乡村的选民还没有电话机,更合适的抽样范围应该是官方登记的投票者名单。但是调查怎么才能包括从现在到最后截止期限这段时间登记的人呢?还有虽然登记了但是没有选举目标的人所以确定合适的抽样范围就要靠对抽样这项工作相当熟悉的人的洞察力了。 样本容量增大,抽样误差刚开始是随之减小,当达到一个极限点,增加样本容量就不能再减小抽样误差了。同样,随着总体的扩大,所需样本容量增加的幅度变得相当的缓慢,样本在总体中占据的比重也就越来越小,直到样本容量的选取完全不取决于总体的数目。例如,一个容量为1000的样本无论对50000还是200000 000的总体,误差范围都是3.1%。这就是为什么只要对1000名投票者进行调查就可以估测出整个美国的选举倾向。 确定样本容量一定要注意:它是根据反馈的概率p计算出来的。当然一般情况下p是事先无法得知的,因此,大部分样本容量的计算工具假设p=50%,这是最差的情况,即得到的是需要的最大样本容量。如果能预测出p值,就可以输入具体的p值来计算样本容量了。或者经过分析得到比假设更小的p值,再重新计算数据更小的置信区间。 不能凭想像产生随机数。因为人脑存在思维定势,所以用这种方法产生的数据一般都不能通过随机性测试。可以使用统计软件或互联网提供的随机数产生器。 如上例所述,方便抽样是不可取的。但如果不可避免要使用这种方法,如要测试一种新的培训方法而不得不选取登记参加这项课程的所有学员作为样本,则至少要进行一些检验以观察样本是否存在偏倚。 当各层内的样品几乎一致而层和层之间存在差异时,分层抽样的效果最好:分组抽样与之相反,当每组内都存在和整体相似的差异时能达到最优的效果,这样所有组群都很相像。现实中,整群抽样一般是用来消除由地理位置带来的差异,群内的样品相似而群间存在差异。对于同样的样本容量,分层抽样的结果比随机抽样的结果精确,而整群抽样结果的精确度则要低于随机抽样。因此,应尽量避免根据地理位置进行整群抽样。但如果考虑到成本和效率而必须采用整群抽样时,则要请统计专家帮助去除所有非随机性因素。当按生产批次分组时可以使用整群抽样,这时不同的批次都很近似。 当采取系统

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论