




已阅读5页,还剩46页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第6部分:,离散数据的置信区间和假设检验,目的:,目标:用Pareto图确定少数几个关键类型的缺陷。强调离散数据分析图的使用。理解缺陷比例的置信区间的用法,并计算单样本和双样本的置信区间。理解多个X变量卡方分析的用法(双向表)。使用Minitab绘图并进行分析。,在上一部分,我们借助图形、置信区间和假设检验对连续数据的分析进行了讨论。下面,我们将运用图形、置信区间和几种比例的统计检验方法对离散数据进行分析。,第6部分:离散数据的置信区间和假设检验,工具用途1.Pareto-找出少数关键的缺陷类型2.图形-找出变化规律以确定哪些X影响缺陷3.比例的置信区间-量化变差,以确定变化是和假设检验否具有统计显著性四种类型:单样本,p接近.5双样本,p接近.5单样本,pParetoChart,在pareto对话框中,有两种数据格式选项:ChartDefectsdatain:(用于原始缺陷数据,栏C4和C5)ChartDefectsTable:(用于汇总的缺陷数据栏C1和C5),Minitab可生成Pareto图,累计缺陷%,Pareto图形左边显示最大频数的缺陷,右边显示较小频数的缺陷。,Pareto图形,Pareto图形左边显示最大频数的缺陷,右边显示较小频数的缺陷。图中的曲线显示了累计的缺陷百分比。图形应该可以说明:查找造成80%缺陷的缺陷类型。在上例中,15种缺陷类型中的4种占总缺陷数量的66%,剩余35%的缺陷分别由其余的11种类型的缺陷产生。查找栏高度出现较大差异的位置。如果次品数量之间存在很小的差异,那么,就不能缩小您项目的重点范围。(尝试换一种方式考虑问题,即,考虑财务上的影响,而不是缺陷的数量。),Pareto图形,可以使用对话设置将原始数据对几种不同的因数进行分析。,在图形中保留缺陷的常规顺序。考虑累积缺陷线的高度,它表示特定因素总缺陷数量。在这种情况下,缺陷大多发生在“夜间”。在被分析的因素(周期)之间,查找缺陷水平的差异。在这本例中,傍晚和周末很少产生划痕。,原始数据的Pareto图表,问题:降低客户培训服务电话的比例(百分比)。处理离散的响应变量时,您想知道的是缺陷比例如何随潜在X变量的变化而变化。注释:,n是样本容量k是样本的缺陷数量p=k/n是样本中的缺陷比例p总体的缺陷比例(未知),离散数据的指引图,正态泊松(Poisson)近似法近似法,1个比例比较2个比例多于2个比例(及双向表格),大n(样本容量)p不太接近0或1np10和n(1-p)10,大n(样本容量)比例较小(p,z*p(1-p)*,(p1-p2)+,11n1n2,+,2(卡方),精确二项式检验,Poisson置信区间,正态泊松(Poisson)近似法近似法,大n(样本容量)p不接近0或1np10和n(1-p)10,大n(样本容量)比例较小(p,下表总结了我们将在这一部分使用的方法。,Z值得自正态分布表,取决于所要求的置信度。,离散数据分析的统计方法,1个比例比较2个比例多于2个比例(及双向表格),下图显示何时使用正态法、何时使用泊松(Poisson)法。合理方法的选择取决于样本容量和缺陷比例。,注:使用卡方检验法比较两个以上的比例,或2个X变量。,0n=2050100150200250,离散数据指引图,另外,我们将使用以下重要的Z-值(来自正态表):,正态分布值,(大n,np10,n(1-p)10),例:保险索赔的精度不准确比例最可能的估计值是:p=缺陷数量/样本容量=k/n=600/2000=.30或30%在总共80,000个记录中,不准确比例置信度为95%的双边置信区间为:解释:(28%,32%)是在整个80,000个记录这个总体中缺陷(不准确)比例的取值范围。,80,000保险数据库中的记录2,000为分析数据准确度而抽样的样本记录(n)1,400(70%)是准确的600(30%)是不准确的(缺陷数量,k),p+z*p(1-p)/n.300+1.96*.3(1-.3)/2000.300+.020(.280,.320)or28%to32%,=,正态近似法:1个比例,假设我们希望上页的置信区间为+.010,而不是+.020,我们需要多大的样本容量?,激发想法,(大n,np10,n(1-p)10),课堂练习:抛币掷币50次。记录头面在上的次数。计算头面在上的比例的90%(双边)置信区间。,p是什么?应使用什么Z?置信区间是多少?p=.50是否位于置信区间内?,正态近似法:单比例,GE商品质量举例:服务质量某厂商提供与GE相同的服务,其客户不满意的比例比GE的要高。该厂商声称造成这种现象的原因是样本容量太小,而并不承认是由于自己的服务质量低于GE。确定对该厂商的服务不满意的客户比例是否显著地高于GE,或者说,分析这种差异是否是由于偶然因素产生的。,缺陷数量k1=3281k2=48k1+k2=_样本容量n1=36054n2=214n1+n2=_缺陷比例p1=k1/n1p2=k2/n2p=(k1+k2)=_=_(n1+n2)=_,GE(1)其它提供商(2)总计,比较2个比例(差异的取值范围是什么),GE商品质量举例:服务质量,缺陷数量k1=3281k2=48样本容量n1=36054n2=214缺陷比例p1=k1/n1p2=k2/n2=.091=.224,GE(1)其它供应商(2),计算置信区间:,1.96*,z*,(p1-p2)+,=.133+.056=(.077,.189)(7.7%,18.9%),(.224-.091)+,.091(1-.091).224(1-.224)36054214,+,p1(1-p1)p2(1-p2)n1n2,+,解释:最可能的估计是GE客户的满意率比另一厂商的高出13%。我们有95%的把握认为,对GE的服务满意的客户比例比对另一厂商的要高出8%-19%。该区间不包括0%,因此我们有95%以上的把握认为,差异的产生是确实存在的,而不是偶然出现的。,比较2个比例(差异的取值范围是什么),例:延迟付款的供应商比例n=42个样本(被审计的发票数量)k=1个缺陷(延迟付款)缺陷比例的最可能估算值是:p=k/n=1/42=.024,或2.4%在缺陷率很低的情况下,正态近似是不准确的。使用Poisson近似法计算一个比例的置信区间。,Poisson近似法:1个比例(大n,缺陷次数少),要计算缺限比例的90%、双边置信区间:1.从表中查找1个缺陷的上限和下限值(.355和4.744).2.除以样本容量:下限=.355/42=.0085,或.85%上限=4.744/42=.113,或11.3%延迟付款的供应商的比例取值范围是(.85%,11.3%)。,Poisson近似法:1个比例,假设您抽取10倍多的样本,发现10倍多的缺陷。现在的置信区间是:下限=6.169/420=.0147or1.47%上限=16.96/420=.0404or4.04%比较两个置信区间:最可90%2-边样本故障能的置信容量(n)数量(k)(k/n)估算值区间4212.4%(.85,11.3)420102.4%(1.4,4.04)样本容量的增加导致新的置信区间(1.4%,4.04%)比原来的小得多。,较大样本容量的影响,课堂练习:现场检验发动机故障一年中现场检验300台发动机,发现两个缺陷。计算这个总体中存在缺陷的发动机比例95%的双边置信区间。n是什么?K是什么?表格中的缺陷下限是多少?缺陷上限是多少?,Poisson近似法:1个比例(大n,失败次数较少),例:涂漆表层的黑斑涂漆部门希望通过变更油漆供应商,来减少由于黑斑导致的缺陷数量。确定是否有足够的证据证明,在置信度为95的情况下,供应商1比供应商2生产的次品少(单边检验)。由于涉及到的是大样本容量、小缺陷次数的两个比例之间的比较,我们需要使用“精确二项式”方法。此方法请详见附录。,精确二项式检验:比较2个小比例(大n,失败次数很少),StatBasicStatistics1Proportion,成功次数在此例中指缺陷。,输入,一个比例的检验和置信区间p=0.5与p0.5对比检验精确样本XN样本p95.0%CIP-值160020000.300000(0.279972,0.320616)0.000,用Minitab计算比例,StatBasicStatistics2Proportions,p2,p1,两个样本的检验和置信区间样本XN样本p1482140.22429923281360540.091002p(1)-p(2)估值:0.133297p(1)-p(2)的95%CI:(0.0773320,0.189261)检验p(1)-p(2)=0(或0):Z=4.67P-值=0.000,用Minitab计算比例,StatBasicStatistics1Proportion,一个比例的检验与置信区间p=0.5与p0.5的对比检验精确样本XN样本p90.0%CIP-值1104200.023810(0.012973,0.040052)0.000,Minitab的区间与我们原有的区间(.014,.404)稍有不同,这是因为Minitab使用了不同的近似方法。,用Minitab计算比例,拟合好坏检验(多比例的互等性):Ho:p1=p2=p3=.=pnHa:至少一个等式不相等(此方法可详见附录),拒绝准则:当p.05时,无法拒绝Ho;当pTablesCrossTabulation,列联表,fo,观测频率,df=(3-1)(4-1),“StResid”(标准残差)大的单元不能与其它单元的型式不一致,对总卡方值产生很大的影响。,标准残差标准残差的平方是该单元的2值。.422=(13-11.56)2/11.56,fe,预期频率fe=(总行数)x(总栏数)总计fe=94x38=11.56309,列联表,卡方分布,(r-1)(c-1)=df(自由度)其中r=行数c=栏数,你的任务是减少医院设备的服务呼叫次数。有5个医院都在使用3种型号相同的设备:MR(1),CT(2),和X-Ray(3)。现在设法确定在医院和需要服务的设备类型之间是否有什么关联。在Minitab中输入以下数据:,课堂练习:服务电话减少,列联表,将数据制图,并加以说明计算自由度运行交叉制表得出结论,分析步骤:,p+z*p(1-p)/n,z*p(1-p)*,(p1-p2)+,11n1n2,+,2(Chi-square),精确二项式检验,Poisson置信区间,正态泊松(Poisson)近似法近似法,单比例比较2个比例超过2个比例(及双向表),大n(样本容量)p不太接近0或1np10及n(1-p)10,大n(样本容量)较小的缺陷比例(p,下表总结了本部分中所用的方法。,Z是为满足置信度要求而从正态分布中产生的值。,离散数据分析的统计方法,下图显示何时使用正态法、何时使用Poisson法。合理方法的选择取决于样本容量和缺陷比例。,注:使用卡方检验法比较两个以上的比例,或具有2个变量的情况。,大样本容量缺陷比例不过小也不过大np10和n(1-p)10使用正态近似法,p=10/n,p=.10,UsePoissonApproximation,0n=2050100150200250,1.00.90.80.70.60.50.40.30.20.10.0,比例,样本容量,使用Poisson近似法,p=1-10/n,收集更多的数据,或采用精确二项式方法,棕色和红色为可接受黄色、橙色、蓝色和绿色为缺陷样本1是一包10盎司装的普通M&M样本2是一包10盎司装的花生M&M1.分别画出以上两个样本的4种类型缺陷的Pareto图形(参见第4至7页)。2.计算两个样本缺陷比例间差异置信度为99%的置信区间。先用手算(16页),然后,再借助minitab(24页)进行计算。3.运用卡方检验检查两个样本的所有六种颜色的比例是否相同。切记将数据画图,参见25-35页(将颜色以数值而非文本的形式输入,只有这样Minitab才能将数据绘制成图)。额外练习:计算两种M&M(普通和花生)中每种颜色所占的比例。将不同颜色的比例以图形表示,两种不同的M&M以不同的颜色和符号标识。,以适当的方式处理M&M(或让教师适当处理),课堂练习-M&M,关键概念-第6部分离散数据的置信区间和假设检验,使用Pareto图形确定哪种类型的缺陷出现的频率最高,最应加以重视。对于那些不接近0.0或1.0的比例,可以使用正态近似法计算1个样本和2个样本差值的置信区间和假设检验。对于较小的比例(pRegressionBinaryLogisticRegression3.判别分析(DiscriminanteAnalysis)根据独立变量(Xs)将观测值(Y)分类到两个或多个组中。路径:(InMinitab)StatMultivariateDiscriminateAnalysis4.分类和回归树(CART)-ClassificationandRegressionTrees)根据独立变量(Xs)将观测值(Y)分类到两个或多个组中。参考资料:Breiman,Friedman,Olshen,Stone,ClassificationandRegressionTrees,Chapman&Hall,1984.5.数据采集(DataMining)根据独立变量(Xs)将观测值(Y)分类到两个或多个组中。参考资料:参见SteveDelaney,I.T.,Poisson近似法:1个比例(大n,小缺陷次数),表中的数据为值,它满足:其中可以是置信度,也可以是(1-置信度),精确二项式检验:比较2个小比例(大n,小缺陷次数),例:涂漆表面的黑斑涂漆部门希望通过变更油漆供应商,来减少由于黑斑导致的缺陷数量。确定是否有足够的证据证明,在置信度为95的情况下,供应商1比供应商2生产的次品少(单边检验)。当缺陷比例较低时,使用“精确二项式”方法对两个工序中的缺陷比例进行比较。,精确二项式检验:比较2个小比例(大n,小缺陷次数),例:涂漆表明的黑斑检验逻辑:如果两个工序相同,缺陷应该是随机地分布于两个样本中。对于相等的样本容量(n1=100,n2=100),当缺陷按50/50平均分布时,每个供应商会有6.5次。如果实际的比例远远偏离50/50,就有足够的证据说明这两个工序是不同的。,精确二项式检验:比较2个小比例(大n,小缺陷次数),我们希望确定以3/10划分(相对于6.5/6.5)是否具有统计显著性每个小组的数量将以“二项式”概率分布使用Minitab来计算3/10或更高的比例划分偶然发生的概率,零假设(p=.50)是否为真?重新启动Minitab给C1取名“缺陷数量”,并输入0,1,2,3,,12,13产生一个累积概率:CalcProbabilityDistributionsBinomial,填写如下对话框:,k1+k2=3+10=13,n1/(n1+n2)=100/200=.5,缺陷数量,在对话窗口中显示累积分布:,如果两个总体相同(p=.50),那么,在一个样本中出现的缺陷次数为3或小于3的概率为0.0461,我们得出100(1-.0461)=95.39%置信度(单
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 钢铁行业新一代节能降耗技术分析
- 相反数的题目及答案
- 现场答辩题目及参考答案
- 2025有关电子产品销售合同
- 2025版房屋租赁合同范本
- 物业保洁考试试题及答案
- 2024译林版八年级英语上册Unit 2 课时6 Integration ABC 分层作业(含答案)
- 2025年7月血液学检验考试题(附参考答案)
- 2025年高考化学试题分类汇编:化学实验基础(含解析)
- 2025高考生物试题分类汇编:细胞的物质基础和结构基础(含解析)
- Q3D学习体会课件
- 眼科学教学课件:绪论
- 中医运动养生 中医养生学课件
- GB/T 5563-2013橡胶和塑料软管及软管组合件静液压试验方法
- GB/T 1192-1999农业轮胎
- 人类学-课件精
- DBJ51-T 188-2022 预拌流态固化土工程应用技术标准
- 体育产业经营管理课件第一章导论
- 2023门球竞赛规则电子版图文并茂
- 部编版四年级语文上册第5课《一个豆荚里的五粒豆》优秀PPT课件
- 大班社会《班级规则我遵守》课件
评论
0/150
提交评论