6sigma DMAIC_Measure Basic Statistics.ppt_第1页
6sigma DMAIC_Measure Basic Statistics.ppt_第2页
6sigma DMAIC_Measure Basic Statistics.ppt_第3页
6sigma DMAIC_Measure Basic Statistics.ppt_第4页
6sigma DMAIC_Measure Basic Statistics.ppt_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计基础知识,学习目标通过基本概念的理解来了解数据的特性.理解概率分布的基本概念利用MINITAB求概率的方法,基础统计的必要性,Measure阶段收集的资料对其进行分析的方法.反映流程特性化的X和Y关系式Y=f(X).利用数据与流程状况来推测未来发展趋势作为高级统计问题解决时的基础依据.基本统计具有不直观性,需要找出符合事实的逻辑语言,所谓统计,通过对某组资料数据的分析整理,算出其内容中的特征数值诸如次数,频度,比率等的过程方法即为统计.,统计的必要性,统计术语,样本(Sample):从母集团中取出的用于实际测量的子集合.,母集团(Population):所关心的集合中所有个体值的集合.(投标结果,每日生产量,特征产品不良率),例题)本年度总统选举的参选选民为2500万,某舆论调查机构按各地区各年龄段选民抽选500人对选举结果进行民意测验,此例中母集团与样本各为什么?母集团:所有参选选民约2500万人.样本:被选500人.,母集团和样本,对母集团的特性推论,母集团平均:,母集团分散:2,母集团标准偏差:,样本平均:,样本分散:s2,样本标准偏差:s,母集团参数(Parameter):反映母集团的特征值(平均,标准偏差,比率等),统计参数(Statistic):利用样本计算出的特征值,对母集团进行推论的量(样本平均,样本偏差,样本比率等),抽样(Sampling),A,A,A,A,A,A,A,B,B,B,B,B,B,C,C,C,C,C,C,D,D,D,D,D,D,D,A,A,B,D,D,D,C,C,C,C,B,母集团,样本,母集团参数,统计参数,统计术语,例)成品完成需要AG共7个流程.各流程所需时间测定如下.试求出各流程所需平均时间,极端值30分对平均造成的影响较大,平均(Mean)n个观测值的平均值为观测值总和与观测值数的之比.对极端值(outlier)较为敏感,平均:,22132930,ABCDEFG,(单位:分),测值总和,测值数,=,解),中心倾向的指标,统计术语,组中值(Median)数据按大小(n)排列时的中间位置数值来自于极端值(Outlier)的影响较小.,最频数(Mode)数据出现的频率(Frequency)最高的.来自于极端值(Outlier)的影响较小.,例)上例中的最频数为多少?,2,2,1,3,2,9,30中的2出现的频率为3,为出现最频的,因此最频数为2.,极端值对组中值、最频数的影响较小.,n为奇数的时候:,n为偶数的时候:,12223930,1222391030,2和3的平均,2.5,统计术语,虽然B汽车的平均行程要高于A汽车,但分布的分散度却很大,所以你无法说B汽车一定是最好的!,A汽车,B汽车,以下为对A,B汽车的每公升汽油的所能行使里程进行测试后的数据分布情况。大家会看好A/B哪一种车呢?,A,B,例),在统计分析中,仅考虑平均值来判断会得出错误的结果。应对数据的分散情况也综合考虑进去!,分散性倾向的指标,统计术语,分散和标准偏差显示以平均值为基准的样本的差值情况以及离散的程度.,30,40,50,60,70,如果,从点开始为止的平方值为的话,分散以平均平方值(统计性理由上,分集并非n,而用(n-1)来定义).,标准偏差取分散的平方根.,分散(Variance)和标准偏差(Standarddeviation),例)样本:4875263平均5偏差之和:(-1)+3+2+0+(-3)+1+(-2)=0,样本分散:,样本标准偏差:,平方的理由,统计术语,四分位数(Quartile):对数据集合按四等份进行排列,四分位范围(IQR:InterquartileRange):Q3-Q1,Q1:第一四分位数(FirstQuartile)=25%对应值,Q2:第二四分位数(SecondQuartile:组中值)=50%对应值,Q3:第三四分位数(ThirdQuartile)=75%对应值,例)求出下列数据中的四分位数和IQR,2,8,20,4,9,5,4,3,解)根据顺序排列:,Q1=3.25,Q2(组中值)=4.5,Q3=8.75,234458920,范围(Range):数据集合中的最大值和最小值之差.Range=最大值最小值,统计术语,利用MINITAB进行基础数据分析,例题数据的图表分析-数据如何展现?GraphHistogramGraphBoxplotGraphProbabilityplot统计参数计算-中心位置在哪里?-分散的大小为多少?StatBasicStatisticsDescriptiveStatisticsOption:GraphGraphicalSummary用流程用语解释结果,文件名:Statistics_Normal.MTW,利用MINITAB进行基础数据分析,阶段1:数据的图表分析,GraphsHistogram,利用MINITAB进行基础数据分析,阶段1:数据的图表分析,GraphsBoxplot,Q1,Q2,Q3,Q1-1.5IQR以外的点(Outlier),Q3+1.5IQR以外的点(Outlier),利用MINITAB进行基础数据分析,阶段1:数据的图表分析,GraphsProbabilityplot,利用MINITAB进行基础数据分析,阶段2:统计参数计算,StatBasicStatisticsDisplayDescriptiveStatistics*Option:GraphsGraphicalSummary,利用MINITAB进行基础数据分析,阶段3:用流程用语进行解释,DescriptiveStatistics:NormalVariableNMeanMedianTrMeanStDevSEMeanNormal50070.00069.97770.01410.0000.447VariableMinimumMaximumQ1Q3Normal29.824103.30163.41276.653,确认MINITAB的session窗中出现的数据.,基础统计练习题,如下事例研究分析.,问题,-某公司对客户2005年10月12月的10周应收帐款遵守情况非常不满,特别对于客户(LEEBINGPLAZA、HIGHMART、百货店)强烈要求树立对策.,文件名:statistics_ex.MTW,-经营会的市场部主管部长提供了此3个客户的一系列帐款数据.数据的种类包含10周期间各客户产品的每日数量.,反馈,分析,-客户产品数量用HISTOGRAM/BOXPLOT方式表示.-实施统计,解释各产品的平均值和标准偏差.,概率的理解,掷骰子游戏,让我们想一下掷2个骰子的实验.假设2个骰子之和为3,4,5,11时的结果为客户满意.因此,2个骰子之和为2或者12时看作为缺陷.,假定骰子很公正时,是否能够预测掷完骰子后出现缺陷的概率,掷2个骰子出现的所有组合,和为2的组合有几个?为12的组合呢?总组合数有几个?,继续,概率的理解,即,缺陷出现可能性(概率)为5.6%.,继续,各组合出现可能性,概率的理解,0,1,2,3,4,5,6,0,2,4,6,8,10,12,规格下限,规格上限,通过柱状图所看到的结果,概率的理解,概率的理解,所有可发生的情况中特定事件A发生的可能性.即,无数次的相同实验中最终趋近的比率,例)想一想掷两个骰子时的情况.,P(A)=,事件样本区间,样本区间S=(1,1),(1,2),(6,6):36种所有可能结果的集合事件(事件):样本区间的部分集合E1=第一个骰子为1的组合=(1,1),(1,2),(1,3),(1,4),(1,5),(1,6)两个骰子掷出时有一个骰子为1时的概率P(E1)P(E1)=P(1,1),(1,2),(1,3),(1,4),(1,5),(1,6)=6/36=1/6,概率(Probability),对样本区间的各个值赋予实数的函数,随机变量(RandomVariable),概率的理解,即,将投出骰子出现的值用变量X表示的话,X即为随机变量,此随机变量取1,2,3,4,5,6情况时的值.,可取到的随机变量及取到其值的可能性概率,用表、图表、函数等方式表示出来.,概率分布(ProbabilityDistribution),学习概率分布的理由是:为掌握随机变量在某一区间内出现的可能性,概率分布的种类,离散(计数)型概率分布,为了将采集到的离散型(计数形)数值模型化而使用.离散型概率分布函数用概率质量函数(pmf)进行表示.(例如:良品/不良、0/1性质,或者不良数1,2,3,的个数模型化.)二项分布代表不良型数据的分布.泊松分布代表缺陷型数据的分布.,连续(计量)形概率分布,为了将采集到的连续型(计量形)数值模型化而使用.连续型概率分布函数以概率密度函数(pdf)进行表示.正态分布一般计量形数据所具有的分布.,信赖性数据随指数分布或Y分布情况较多,规定一侧规格或流程异常时,一般而言数据也不随正态分布.,二项分布(BinomialDistribution),例题,扔硬币10次,正面一次也不出现的概率?已知A事业部制造流程平均不良率为3.2%,200个产品中有3个不良出现的概率?,如何进行计算呢?,二项分布,扔硬币一次,正面一次出不出现的概率?扔硬币两次,正面一次也不出现的概率?扔硬币三次,正面一次也不出现的概率?扔硬币四次,正面一次也不出现的概率?扔硬币10次,正面一次也不出现的概率?扔硬币n次,正面一次也不出现的概率?扔硬币n次,正面三次以下出现的概率?,硬币例题,二项分布,结果区分为良品/不良品、成功/失败、通过/未通过等两种。反复进行实验N次时,成功次数X有如下的分布关系时,即为二项分布,n:总进行次数p:进行过程中成功的概率,为0和1之间的值x:n次进行中成功的次数,何谓二项分布?,二项分布,二项分布的形态由n和p值所决定,下图为n=15条件下的二项分布随p值变化的概率情况.,例题)某一生产流程的不良率为1%时,此流程生产的产品中取样n=10样本中不良品为1个或以下的概率为多少?平均值和分散各为多少?,解答)利用计算式的计算方法P(X1)=P(X=0)+P(X=1)=10.0100.9910+100.0110.999=0.9044+0.0914=0.9958平均=np=100.01=0.1分散=np(1-p)=100.010.99=0.099,平均值:np,分散:np(1-p),标准偏差:,二项分布的概率,平均值与分散,二项分布的概率,利用MINITAB的计算方法(1),阶段1.Worksheet输入,阶段2.CalcProbabilityDistributionsBinomial如下输入.,阶段3.结果确认,P(X=0)=0.9044,P(X=1)=0.0914P(X1)=P(X=0)+P(X=1)=0.9044+0.0914=0.9958,二项分布的概率,二项分布的概率,阶段1.CalcProbabilityDistributionsBinomial上如下输入,可知P(X1)=0.9957,利用MINITAB的计算方法(2),某流程生产产品中约40%不良率的时候,任意选出此流程产品6个,试求出如下概率?(a)不良品为4个的概率.(b)至少有一个为不良时的概率(c)4个或以下不良品时的概率提示.利用MINITAB进行计算.calcprobabilitydistributionsBinomial*numberoftrial:6*probabilityofsuccess:0.4正确答案(a)0.138(b)0.953(c)0.959,二项分布的概率计算练习题,2.不良率为0.1(10%)的某一流程,随机抽取了25个样本.(a)求出现7个及以上不良品的概率.(b)求出现7个不良品的概率.提示.利用MINITAB计算.calcprobabilitydistributionsBinomial*numberoftrial:25*probabilityofsuccess:0.1正确答案(a)0.009(b)0.0072,二项分布的概率计算练习题,泊松分布(PoissonDistribution),适用于按时间或空间发生频率低的稀奇事件的每单位发生数等的分布铁板的单位面积斑痕数一定期间的电话接听数一定时间银行窗口的顾客数,Dpu(defectsperunit):单位产品缺陷数平均=分散=(=np)e:自然常数(2.718),何谓泊松分布?,泊松分布,泊松分布的内容:适用于利用每单位缺陷数,求出产出率(Yield),RTY,FTY等的问题.,0,0.2,0.4,0.6,0.8,1,0,5,10,15,20,不良数,dpu=0.1,dpu=1.0,dpu=2.0,dpu=2.5,dpu=4.0,例)单位产品缺陷数(dpu)值相对应的概率图表.,一般来说n较大p较小时适用.,泊松分布的概率计算,例题)为了对信用卡公司的申请书部门错误处理件数进行管理,若申请书错误发生件数为平均值0.01泊松分布,随机选取错误为一个以下的概率为多少?,解),利用计算式的计算方法,泊松分布的概率计算,利用MINITAB计算,阶段1.Worksheet上数据输入,阶段2.CalcProbabilityDistributionsPoisson如下输入,阶段3.结果确认,P(X=0)=0.9900,P(X=1)=0.0099P(X1)=P(X=0)+P(X=1)=0.9900+0.0099=0.9999,泊松分布的概率计算,1.某电信服务台每分钟电话申请次数约为平均2.3次左右某特定的一分钟内:(a)求2个电话申请进入的概率(b)求5个及以上电话申请进入的概率(c)求没有电话申请进入的概率提示.利用MINITAB计算.calcprobabilitydistributionsPoisson*mean:2.3正确答案(a)0.265(b)0.084(c)0.1003,练习例题(2),泊松分布的概率计算,正态分布(NormalDistribution),例题,测100个POINT时,平均值为15.0,标准偏差为0.2,POINT的长度相比15.3cm略长的概率为多少?对20个样品求得平均值为9.2,标准偏差为0.7时,特性满足大于7,并且小于12的概率为多少?,怎样计算呢?,正态分布,“标准的”“自然的”“正常的”等理想状态。正态分布为非常正常的数据分布形态.数据脱离正态分布的话,此流程可判断为需要改善的对象.,正态分布为1)左右对称.2)呈钟型模样.3)也称高斯曲线.,何谓正态分布?,m,68.26%,99.73%,m-1s,m-2s,m-3s,m+1s,m+2s,m+3s,正态分布为计量形概率分布的最重要一种.正态分布可由两个母集团参数表示:平均值和分散(或标准偏差).若X为具有平均和分散2的正态随机变量的话,概率密度函数如下.,正态分布的概率密度曲线,95.45%,正态分布,以下4个正态分布分散相同,平均值不一样.以下4个正态分布平均值相同,分散不一样,正态分布,X1,平均,标准偏差,Z,0,1,?Z,正态分布(平均,分散2)随机变量X可表示为XN(,2),标准正态分布(平均0,分散1)随机变量Z则为ZN(0,1),Z,x,=,-,标准化Z-transformation,标

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论