抽样及样本容量概论_第1页
抽样及样本容量概论_第2页
抽样及样本容量概论_第3页
抽样及样本容量概论_第4页
抽样及样本容量概论_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、抽样及样本容量(Sampling & Sample Size)什么是抽抽样及为为何要进进行抽样样?抽样是收集所有数据的一一部分。使用该部部分数据据得出结结论(进进行推论论)。为什么要要进行抽抽样?因因为查看看所有数据可能能成本太高高。费时太长长。造成破坏坏(例如如、品尝尝测试)。一般可从从比较少少量的数数据得出出可靠的的结论。总体情况:在在操作上上您可以以定义现现存的总总体的边边界、以以便可以以认出总体的每每个个体体、在理理论上还还可以进进行编号号。抽样目的的:描述该总总体的特特征。示例:抽抽样调查查(8月月31日日以前毕毕业的)大学校校友、以以确定在今后两两年中他他们至少少将一个个小孩送送进

2、大学学的百分分比。总体和过过程样本使用样本对总体进行推论:例如。平均值 = X、比例 = p过程情况:过过程是动动态的且且不断变变化的;过程中中的个体体并不是是全可以以鉴定的的、因为某些些个体尚尚不存在在(如明明天制造造的那些些个体)。目的:了了解过程程、以便便采取行行动改进进或预测测过程未未来的行行为。示例:我我们估计计下月发发票中有有5%至20%有错误(除非更更改该过过程)。总体和过过程(续续)使用样本对过程未来的行为进行推论昨天保存时间顺序!今天明天?20%5%10%15%抽样数据的时间曲线图?以时间顺序排列的过程输出抽样和改改进项目目确定过程程周期和和缺陷比比率的基基准性能能;(例如:

3、在控制图图上绘出出样本数数据)估计过程程能力;(例如:计算一件件样本中中的缺陷陷)确定造成成性能低低下或数数据变动动的因素素(X);(利用样本本数据绘绘制图表表、进行行假设测测试或回回归分析析)验证建议议的改进进工作;(比较从过过程中抽抽取的新新数据与与从该过过程抽取取的旧数数据)监视过程程性能、必要时时采取补补救措施施、并预预测未来来的性能能;(在控制图图上绘出出新过程程的样本本数据)改进项目目一般是是对过程程情况进进行抽样样:为什么要要区别总总体抽样样和过程程抽样?样本容量量公式是是为定义义明确的的静态(而且常常常是理理论上的的)总体情况况设计的的。但是大多多数抽样样应用是是针对动动态的、

4、尚未知知的过程程情况。将样本容容量公式式应用于于过程抽抽样情况况可能得得出错误误的结论论、除非满足足一定的的条件。要使推论论有效、样本必必须真实实地代表表总体或或过程。总体所需需的抽样样策略不不同于过过程所需需的抽样样策略、以确保样样本具有有代表性性(在下下一节中中讨论)。从稳定的的过程中中抽样如果过程是稳稳定的、样本容容量公式式可应用用于过程程情况。可获得具具有特定定精度的的可靠估估计值。当进行比比较时、如果存存在的差差异具有有一定功功效、便便可找出出它们。(稳定的、可预测的过程)4045505560651357911131517192123252729313335373941从不稳定定的过

5、程程中抽样样然而许多多过程是是不稳定定的。无论如何何总要收收集数据据、并绘绘制控制制图或时时间曲线线图。识别特殊殊原因并并清除之之。使用样本本容量公公式求出出的值是是您应认认为最小小的数字字;可能的话话,需要要收集更更多的数数据。存在特殊殊原因时时,需要要更大的的样本容容量,因因为长期期变动大大于短期期变异。使用公式式时,您您必须估估计s(或p);您必须判判断特殊殊原因如如何影响该估估计值,并根据据您认为为过程将将会是什什么情况况来调整整它。从不稳定定的过程程中抽样样(续)当进行组组之间的的比较时时:尽量在相相同时间间内获取取每组的的样本。当作结论论或报告告结论时时、会存存在这样样一个风风险、

6、即即这些结结论可能能不适用于于将来。如果过程程是不稳稳定的,可能的的话,将将一段很长的时间里里得到的的数据绘制于一一张控制制图上,并圈出出或特别别标示您您的样本本所代表表的数据据点或时间区区间。允许您和和他人可可直接从从曲线观观察过程程的行为为。帮助您判判断这些些结论在在未来的的可靠性性。从过程中中抽样对于过程程情况,我们希希望确保保能够理理解过程程的行为为。因此此我们:在一段时时间内进进行系统统或整群群(非随随机)抽抽样。即使随机机抽样能能适用于于稳定过过程,我我们仍采采用系统统或整群群抽样,并保持持时间顺顺序以便能更更好地表表示过程程行为。尽量从足足够长的的时间段段中进行行抽样,以便真真实

7、地表表示过程程中的变变化源。运用您自自己的判判断和有有关变化化源的过过程知识识来确定定多长时时间进行行一次抽抽样(每隔10个个个体体、每隔隔 7个个个体体、每天天、每月月等)。一般情况况下、更更加频繁繁地收集集小样本本、可确确保随着着时间的的过去能能真实地地表示过过程行为为。绘制控制制图或时时间曲线线图,以以确定该该过程是是稳定的的还是不不稳定的的(寻找找非正常常值、偏偏移、趋趋势或其其它模式式)。抽样方法法代表性样样本要使结论论有效,样本必必须具有有代表性性。数据应真真实地表表示总体体或过程程收集的数数据与未未收集的的数据之之间不应应存在有有系统性性的差异异。每个单元元具有相相同被选选中的机

8、机会从每个组组随机抽抽样一个个成比例例的数字字随机 抽样分层随机抽样样本总体样本总体AABBBBCDDDAAAABBBBBBBCCDDDDDDB概率抽样样每隔n个抽样(如每隔隔三个抽抽样)每经过时时间t抽样n个单元(例如,每小时时抽样三三个单元元);然后计算算每个小小组的平平均值(比例例)系统抽样整群抽样样本总体或过程保持时间顺序样本过程9:009:3010:3010:00保持时间顺序统计调查查的误差差(抽样样误差):是指指调查所所得结果果与总体体真实数数值之间间的差异异。可分1、登记性性误差:指在调调查和汇汇总过程程中,由由于观察察、测量量、登记记、计算算等方面的差差错或被被调查者者提供虚虚

9、假资料料而造成成的误差差。(不是抽抽样调查查独有的的)尽量避免免2、代表性性误差:指用样样本指标标推断总总体指标标时,由由于样本本结构与与总体结结构不一致、样本不不能完全全代表总总体而产产生的误误差。它它又分-2-1、系统误误差:指指由于非非随机因因素引起起的样本本代表性性不足而而产生的的误差,表现为样样本估计计量的值值系统性性偏高或或偏低,故也称称偏差,尽量避免免如抽样框框与目标标总体不不一致、有意多多选较好好或较差差的单位位等;-2-2、随机误误差:又又称偶然然性误差差,指遵遵循随机机抽样原原则,由由于随机机因素(偶然性性因素)引起的的代表性性误差。不可避免免,但需需加以计计算与控控制抽样

10、估计计中所谓谓的抽样样误差,就是指指这种随随机误差差,即由于抽抽样的随随机性而而产生的的样本估估计量与与总体参参数之间间的代表表性误差差。抽样误差差抽样误差差的3个概念1、实际抽抽样误差差:-实际上总总体参数数是未知数数,不可可计算2、抽样平平均误差差:3、抽样极极限误差差:是指指在一定定的概率率下抽样样误差的的可能范范围,也称为允允许误差差。用表示抽抽样极限限误差,即在一一定概率率下,抽样误差差率=(抽样极极限误差差/估计量)*100%抽样估计计精度=100%-抽样误差差率如|xxbar-X|xbar抽样总结结本单元包包括:抽样是查查看所有有数据的的一种有有效率和和效果的的方法。总体抽样样与

11、过程程抽样有有不同的的目的和和方法。代表性是是抽样最最重要的的一方面面。正确抽样样使您对对结论有有信心。总体抽样样的样本本容量公公式可适适用于稳稳定过程程。样本容量量(Sample Size)样本容量量介绍人们常问问的第一一个问题题是“我我需要多多少个样样本?”该问题的的答案由由下列四四个因素素确定:1.数据类型型离散数据据和连续续数据2.您想做什什么描述整组组的某个个特征(平均值值或比例例)在特定的的精度内内( _单位)比较组的的特征(找出组组平均值值或比例例之间的的差异)以什么功功效:希希望检测测到特定定差异的的概率3.您估计的的标准偏偏差(或或比例)为多大大4.您希望的的置信度度为多高高

12、(通常常为95%)假设检验验中样本本容量的的重要性性当样本容容量太小小不能检验验出差异异n = 1n = 5过程A过程A过程 B过程 B假设检验验中样本本容量的的重要性性当样本容容量太大大对平均值值的漂移移过于敏敏感资源浪费费样本容量量的选取取过程第一步:明明确研究究过程中中的响应应变量第二步:选选择合适适的统计计检验第三步:决决定可接接受的风风险和第四步:定定出漂移移敏感度度第五步:建建立或估估计当前前过程中中的参数数第六步:决决定合适适的样本本容量抽样风险险是H0成立,但但结果果却否定定它的风风险.1-是H0的置信系系数.观察值1抽样风险险是H0不成立, 但结结果却肯肯定它的的风险.(1-

13、)称为检验验的功效,它表示H0不成立, 而结结果也否否定它的的概率, 即当当H0不成立时时,作出出正确结结论的概概率.观 察值值12漂移抽样风险险抽样风险险H0:无差异H1:有明显差差异零假设成立不成立决策接受 H0拒绝 H0正确1 正确1 第一类错误 第二类错误 漂移敏感感性实验之前前需要预预先指定定反映明明显差异异的量.与标准差差之比 /称为漂移移敏感度度(driftsensitivity).关于均值值的比较较的检验验单样本检检验(1-SampleTests)StatPower andSampleSize 1-SampleZStatPower andSampleSize1-Sample t

14、双样本检检验(2-SampleTests)StatPower andSampleSize2-Sample t样本容量量公式取取决于您您的目的的抽样目的的公式*Minitab命令估计平均均值(例如、确确定基准准周期)(其中d =精度: _单位)估计比例例(例如、确确定缺陷陷基准百百分比)(其中d =精度: _单位)精度(d)精度是允允许某个个特征的的估计值值波动的的范围。估计上下下不超过过两天的的周期。估计上下下不超过过3%的缺陷百百分比。使用符号号d表示精度度。传统的统统计学称称它为“delta”、因此以d表示。精度等于于置信区区间(CI)的一半。周期(单单位为天天)为95% 时CI= (48

15、、52)意味着我我们有95% 的确确信平均均周期在在 48 天至至 52 天之之间。CI的宽度=4 天。精度=d =2天(=估计值上上下不超超过2天)。精度(d)(续)决定您需需要多大大的精度度。精度与样样本容量量的平方方根成反反比。精度和样样本容量量要提高精精度、必必须增加加样本容容量(但但会增加加成本)。对于需要要多大的的精度没没有明确确的答案案;该答案取取决于使使用该估估计值对对业务产产生多大大的影响响。每种情况况都是独独特的;不要效效仿别人人的决定定。估计平均均值所需需的样本本容量95%的的置信信度*意味着因因子为2标准偏差差的估计计您希望的的精度不重复抽抽样重复抽样样目的:练练习使用

16、用样本容容量公式式估计平平均值。时间:3分钟。要求:使用样本本容量公公式计算算平均值值,以便回答答下列问问题。1.假设您想想估计呼入电话话的平均均通话时时间1 分钟钟。您需需要多少少样本?(历史数据据显示典典型的标标准偏差差=3分钟。)2.您需要对对多少次次呼入抽抽样、以以获得1/8 分钟钟的精度度?练习:估计计平均值值所需的的样本容容量练习:答答案问题1.问题2.如何估计计标准偏偏差困难的选选择:要估计样样本容量量,您需需要知道道标准偏偏差。您需对数数据的变变化量有有一定了了解,因因为数据据可变性性加大,需要的样样本容量量也要相相应增加加。但是,如如果您还还没有进进行抽样样,如何何知道偏偏差

17、呢?如何估计计标准偏偏差(续续)估计标准准偏差的的选择查找现存存的数据据并计算算s。使用类似似过程的的控制图图(针对对个体的的)。采集一个个小的样样本并计计算s。根据您对对过程的的认识和和记得的的类似数数据猜一一猜(大多数人人不擅长长这样做做)。估计比例例所需的的样本容容量95%的的置信信度意味着因因子为2猜p的值(样样本大小随P变动较大大、从P=0.1到到 0.5,变变化甚剧剧)您希望的的精度使用精度度调整样样本容量量您可使用用确定样样本容量量的公式式,来确确定是否否需要花花更多的的资金收收集更多多的样本本来得到到更高的的精度。在收集集数据之之前这样样做可以以帮助您您决定多多少样本本可以符符

18、合您的的项目和和预算。1.确定您可可以提供供多少个个样本(n)。2.然后问:该样本提提供多高高的精度度?即、精度度的平均均值在d单位之内内还是精度度的比例例在d%之内使用精度度调整样样本容量量(续)3.该该精度足足够精确确吗?4.如果不够够精确:为各种样样本容量量绘制一一个精度度和成本本表,以以确定在在样本上上每花一一美元在在精度上上提高了了多少。然后选择择一个样样本容量量,再根根据所提提高的精精度或您您需要的的精度来来证明这这是正确确的选择择。从有限的的总体中中进行抽抽样样本容量量公式假假设样本本容量(n)小于总体体 (N)。如果 .05您抽取的的样本占占总体的的5%以以上您可以使使用“有有

19、限总体体”公式式调整样样本容量量:使用样本本容量公公式使用样本本容量公公式:在置信度度为95%的的情况况下,根根据给定定的期望望精度以以及S或P的估计值,确定估计计整组的的某个特特征(平平均值或或比例)所需的的样本容容量。在收集数数据之前,确定各种种样本容容量其估估计值的的精度。确定估计值的的精度与增加样本本容量的的成本之间的得得失。在收集数数据之后,确定估计计值的精精度。状态:样样本容量量命令和和公式抽样目的的公式*/Minitab命令估计平均均值(例如、确确定基准准周期)(其中d =精度: _单位)估计比例例(例如、确确定缺陷陷基准百百分比)(其中d =精度: _单位)比较两组组平均值值、

20、找出出差异(2 个样样本的t测试)统计功效和样样本容量量 2个样本的的t比较两个个以上的的组的平平均值、找出差差异(ANOVA)统计功效和样样本容量量单向ANOVA比较两个个(或更更多)组组的比例、找出出差异(卡方测试)统计功效和样样本容量量 2个比例样本容量量大经验验法则统计值或图表 建议应采采用的最最小样本容容量(n) 平均值比例频率分布布图(直方图)Pareto排列图散布图控制图505024245个变量、和N之间的关关系可写写出下面面是公式式:注意如果果我们知知道了5个变量量中的任任意4个个变量,就可以以通过上上式计算算出第5个变量量利用Minitab,我们现在在将说明明如何计计算样本本

21、容量和和检验功功效:样本容量量 =N检验功效效 =1-计算样本本容量一种新型型的焊接接机已经经研制出出来,出出于对经经济价值值的考虑虑,新型型焊接机机的合格率必须要比现有类类型的焊焊接机大大5个百百分点,现有设设备的合格率约为80%为了比较较这两种种设备,要使用用日常的的数据,现有设设备的历历史日合合格率的的标准差差为3%,要求求新的焊焊接机有有相同的的日合格格率散布布。我们可接接受的风险是0.01(指两台设设备有差差异而实实际上并并没有差差异的机机会)我们可接接受的风险是0.20(说两台设设备合格格率相同同而实际际上并不不同的机机会)例题1:1-样本t-检验时的样本容量量的计算算零假设(Ho

22、):新设备的的合格率率并不比现有的设设备好备择假设设 (Ha):新设备的的日合格格率比现有的设设备高焊接机: 假设设在这两个假假设之间间需要选选择多大大的样本本容量呢呢?从所给的的信息,我们得得到显著水平平,a= 0.01检验功效效= 1-b= 0.80.平均值间间的差异异,d= 85-80= 5.标准差,s= 3备择假设设(Ha)为新设备备的日合合格率比比现有的的设备高高焊接机: 需要要的样本本容量选择Stat PowerandSample Size1-Samplet.5.输入alpha,a2.输入检验验功效,1-b1.输入delta,d4.选择备择择假设3.输入sigma,s填选项1-3;

23、然后点“Options”再填选项项4和 5;最后, 在所所有打开开的窗口口中点OK焊接机: 利用用MinitabMinitab告诉我们们,至少少要抽取取7个样样本,才才能保证证在我们们的检验验功效为为0.80的情况下下,把新新焊接机机是否比比现有的的设备高高5个百百分点准准确检测测出来(注:N=7时,实际际的检验验功效为为0.8512)焊接机:Minitab输出PowerandSample Size1-Samplet TestTesting mean=null (versusnull)Calculatingpowerformean= null+differenceAlpha= 0.01Assu

24、medstandarddeviation =3SampleTargetDifferenceSizePowerActualPower570.80.851212某工程师师想通过过实施一一个全阶阶乘DOE(3因子,8运行),来研研究恒温温箱对温温度、流流体密度度和液罐罐变化的的动作灵灵敏度;0.001英寸的动动作就影影响功能能表现。设计队队想探测测这样或或更高幅幅度的影影响;必须考虑虑恒温箱箱动作中中的工程程散布,SPC数据显示示标准偏偏差约为为0.001英寸;可以接受受的风险(说说一个因因子的两两个水平平不同,而实际际上相同同的风险险)是0.03;由于时间间的限制制,只能能作两次次再现(共16次运

25、行行),有关该DOE计划的报报告必须须上报给给工程主主管。例题2-检验功效效计算:恒温箱箱DOE零假设(Ho):实验因子子对恒温温箱动作作没有影响响备择假设设 (Ha):实验因子子对恒温温箱动作作有影响恒温箱DOE:假设观察到0.001英寸尺度度影响(当此影影响存在在时)的的概率是是多少?(即此此计划完完的DOE的检验功功效是多多少?)从所给的的信息,我们知知道显著水平平,a= 0.03再现数=2.影响差异异,d= 0.001英寸标准偏差差,s= 0.001英寸备择假设设 (Ha)是,因子子对恒温温箱的动动作有影影响恒温箱DOE:检验功效效选择Stat PowerandSample Size2

26、 Level FactorialDesign6.输入alpha,a2.输入循环数填写选项项1-5。然后点“Options”并填选项项6。最后,在在所有打打开的窗窗口中点点OK1.输入因子子数4.输入影响响尺度,d5.输入sigma,s3.输入再现现数恒温箱DOE:利用MinitabMinitab告诉我们们,两次次再现时时的检验验功效只只有0.3234,这意味着着我们很很可能不不能看到到0.001英寸尺度度的影响响,显然需要要更多的的再现数数.恒温箱DOE: Minitab输出PowerandSample Size2-Level FactorialDesignAlpha= 0.03Assumed

27、standarddeviation =0.001Factors:3BaseDesign: 3, 8Blocks:noneCenterTotalPointsEffectRepsRunsPower00.0012160.323375某公司正正在考虑虑决定是是否变更更供应商商;供应商X是当前的的供应商商,其不不良率约约为10%;而供应商Y是一个新新供应商商,其许许诺提供供部品的的不良率率将小于于10%;顾客认为为如果供供应商Y比供应商商X的不良率率小1个个百分点点,则更更换供应应商就有有经济利利益;用来决定定是否值值得采用用供应商商Y的样本容容量是多多少?为了比较较,分别别计算获获得检验验功效为为0.

28、6、0.7、0.8和0.9所需要的的样本容容量;假设a= 0.05例题3-样本本容量计计算:拒绝部品品比例零假设(Ho):供应商之之间部品品的不良良率没有有差异备择假设设 (Ha):供应商X的部品不不良率要要大于供供应商Y的拒绝部件件的比例例:假设设在检验功功效分别别为0.6、0.7、0.8和0.9时,能能计算并并比较两两个观察察的不良率率所需样样本容量量是多少少?从所给的的信息,我们知知道显著水平平,a= 0.05如果供应应商Y的部品不不良率要要比供应应商X低一个百百分点,顾客将选选择供应应商Y比例的差差异, d=0.01备择假设设 (Ha)是供应商商X的不良率率大于供供应商Y的不良率率拒绝

29、部品品比例: 样本本容量选择Stat PowerandSample Size2 Proportions5.输入alpha, a4.指定供应商X大于供应应商Y先填选项项1-3;然后点“Options”并填选项项4和5;最最后,在在所有打打开的窗窗口中点点OK2.输入检验验功效3.输入供应应商Y的比例拒绝部品品比例: 利用用Minitab1.输入供应应商X的不良率率PowerandSample SizeTest forTwoProportionsTesting proportion1= proportion2(versus )Calculatingpowerforproportion2 =0.09Alpha= 0.05SampleTargetProportion 1Size

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论