海尔Unit-2定义 2.4 基本统计_第1页
免费预览已结束,剩余61页可下载查看

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基本统计(Basic Statistics)DefineMeasureAnalyzeImproveControlStep 4- 确定项目Ys Step 5- 确认Y的现水准Step 6-发掘潜在的原因 变量(X) 基础统计学 Minitab简介 测量系统分析 Y的表现水平 及目标 确定改进目标路径位置使用统计的目的 确定工程是否稳定 如果工程不稳定,鉴别并祛除不稳定的要因 确定工程的平均值的位置 - 它在目标线上吗?如果不在,确定影响平均值的变量,并决定最优的设置以达到 目标值 估计总散布的幅度 - 与顾客的要求(规格限)比起来,是可接受的吗? 如果不是, 确定散布源,而后消除或减少他们对工程

2、的影响。 我们现在就将回顾统计学以帮助我们的工程 Data的种类 统计的基础 流程的散布 Graphical Presentation 正态分布 统计量的陈述方法 Data Mining目录Data的种类记数型数据( Attribute Data ) (定性的)种类好 / 坏机器1, 机器2, 机器3班次记数事件 (如文件中的错误数, 装船的部品数,等) 计量型数据( Variable Data ) (定量的) - 连续的数据 (有意义的小数)时间(秒)压力 (psi)传送带速度 (ft/min)Rate (inches)等等.Categorical Data(分类数据)Measurement

3、 Data(测量数据)Nominal(定性数据)Ordinal(顺序数据)Continuous(连续数据)Counting(计数数据)Discrete Data(离散数据)Data的种类问题 判断下面的情况是计数型还是计量型?1) 不同地区顾客的平均消费,电话待机时间2) Zip drive 中发生的 S/W 故障次数3) 雇员 - Tom, Nancy, Howard.4) 顾客别商品保证金5) 没有误差发生的支出6) 输入预定支出完了所用时间Data的种类Data的种类记数型计量型计量型记数型输出输入Chi-square散布分析判别式分析Logistic regression相关分析多重回

4、归统计分析路径图统计的基础同样制作这样代表值是非常重要的.本课程观察统计学者研究出的代表值.在统计调查中可以基于概率论知识,通过观察被调查对象的一部分的结果对总体作以统计性的推测.我们不可能对所有事件(或现象)都进行调查,而且这样会消耗很多时间和费用.所以我们可以从母集团选择sample,并通过求出sample的代表值来推测母集团. 概率的了解通过投骰子游戏了解概率 想象投两个骰子的实验. 如果每次投两个骰子其和为 311时其结果 “满足” 的话 预测投骰子出现缺陷的概率?统计的基础概率的了解(投骰子)1234561234567234567834567894567891056789101167

5、89101112两个股子的和出现2的组合有多少?两个股子的和为12的组合是?总组合数是?统计的基础概率的了解12345610.0280.0280.0280.0280.0280.02820.0280.0280.0280.0280.0280.02830.0280.0280.0280.0280.0280.02840.0280.0280.0280.0280.0280.02850.0280.0280.0280.0280.0280.02860.0280.0280.0280.0280.0280.028即, 出现缺陷的可能性是 %?统计的基础概率的了解用dice 1和2投500次统计的基础规格下限规格上限概率

6、的了解统计的基础概率的了解概率的了解 概率代表可能性, 以个数 或分布开始计算.概率分布的定义 这样的概率的累积叫概率分布.问 : 前页的histogram图是计数型数据的概率分布图 那么如果采用计量型数据的话其图形将会是什么形态?统计的基础Data的中心值测定平均: 一组数据的算术平均 反映所有数据的影响 受极端值影响很大 中心值: 反映50%等级 - 把一组数据由小到大排列后位于中央的值 在计算中不必要包括所有的数值 对极端数值很“稳定” 在工程改进的工作中,为什么我们使用平均值,而不使用中值 ?统计的基础平均值可否经常作为代表值?ex) BMW和 SM3 价格平均不能代表所有车辆的价格.

7、 - 正态分布 平均, - 向一侧倾斜的分布 - median统计的基础Data的扩展性测定范围: 一组数据中极限值间的距离(最高-最低) 方差( ):每个数值点到平均值的平均偏差的平方 标准偏差 ( ): 散布的平方根 和散布相比,范围对逃逸点“outlier”更敏感 对散布最常见且最有用的度量是标准偏差-为什么? 统计的基础统计量 预测(推测) 参数(母集团)s= 样本的标准偏差X= 样本平均= 母集团平均 = 母集团标准偏差母集团和样本统计量关系统计的基础计算公式N : 总体数n : 样本数总体平均样本平均总体标准偏差样本标准偏差统计的基础流程的散布流程的稳定性 (Stability)

8、- 在制造中可预测是很重要的.但前提是工程要稳定. 图A:平均值不随时间的变化而变化, 是可以预测散布的稳定的流程. (可以说是在“管理限以内”) 图B:发生管理异常点,不可预测的不稳定的流程. -散布的大小直接影响工程的稳定性(Stability)AB散布(Variation)的种类所有工序都有散布.有的工序体现正常的管理散布,有的工序体现非正常的管理散布. 正常的管理散布 (Controlled Variation : Noise) - 随着时间的推移显示稳定的正常散布. - 当这种散布与一般原因(Common causes)有关联时,为减少这样的散布,需要对工序进行根本性的改进. 例)

9、原材料,设备,作业标准等在允许范围内变动. 非正常的管理散布 (Uncontrolled Variation : Signal) -随着时间的推移散布发生变化,且不可测定. - 与异常要因 (Special causes)相关联,这需要通过工序管理, monitoring 等进行及时的改善. 例) 工程本身的问题即机械磨损,设备故障,原材不良,没有作业标准等原因导致的散步,必须加以消除.流程的散布分散(Variance)的 要素一个工程输出变量的总的变化 (方差) 可以分割成各工程输入的变化 流程的散布工程中散布的允许水准 (Variability)CostLSLUSLNomUSL可以容忍的水

10、准CostLSLUSLNom老的观点新的观点旧的观点 : 下面的情况可以容忍. - 工序的平均值位于目标值,与规格相比总散布要小,工序随时间的变化呈现稳定状态.新的观点 : - 即便是在管理规格内,随着远离目标所发生的费用将与远离目标的距离的平方成比例增长(Taguchi loss function)流程的散布CostLSLUSLNomCostLSLUSLNom在目标线上; 最小的散布在目标线上; 几乎不可接受的散布 流程的散布CostLSLUSLNomCostLSLUSLNom脱离目标; 最小的散布脱离目标; 几乎不可接受的散布流程的散布Graphical Presentation 图表介绍

11、为了说明工序或系统的运营状态, 需要记录同一变量的很多数据. - 按不同的时间段测定数据 - 对所有产品测定数据 - 对不同设备测定数据.这样数据的累积可以认为是测定值的分布. 这样的分布可用以下几种图表示- Histograms- Dot plot - Box plotGraphical Presentation柱状图观察油漆比率 (Rate)打开PUMPING.MPJ RATE 转换为变量.Graphical Presentation 图表介绍现在设想同样的数据,用次数分成 “间隔”,每一个速率数点落在给定的间隔内,决定间隔条的高度。 Minitab 结果Graphical Present

12、ation 图表介绍产生具有正态曲线的柱状图Graphical Presentation 图表介绍正态 分布的 直方图最后,我们把数据分布连成光滑的曲线。在这个例子中使用了“正态分布”的假设 (我们将稍后讨论),如果我们收集了一组无限多的数据点,它将提供一个近似的数据分析结果 。Graphical Presentation 图表介绍观察油漆比率 (Rate) 打开PUMPING.MPJ 文件RATE 作为变量.点图Graphical Presentation 图表介绍Minitab 结果设想一个泵的运转,按设计被用来以 21 加仑/分 供应 溶剂。 分150次测定了实际的泵抽速,作图如上。每一

13、个点代表一个具有给定值输出的“事件”。随着点的积累,泵运转的实际表现的特性可被看作一个抽速数值的“分布”。 Graphical Presentation 图表介绍箱线图是各分布差异容易把握的数据调查方法. 让我们看一下上漆的速率 打开文件 PUMPING.MPJ用列RATE 作为变量Graphical Presentation 图表介绍Minitab 结果90%75%50%25%10%Outlier箱线图可以体现数据扩散性及中心. 注意 ! 箱线图中的中心线不是 平均 而是 中央值. Graphical Presentation 图表介绍正态分布正态分布是有一贯性的数据的分布.1700年开始统

14、计学者研究通过平均和标准偏差两个值来把握全部母集团的概念.收集这样的数据对理解重要的工序特性很有用. 可以假设自然的或人为的工序大多呈正态分布,但完整的正态分布是不可能的 .分布曲线 1分布曲线 2分布曲线 3这三个正态分布的差异是什么?属性 1: 通过下面两个值可以得出正态分布: 数据平均, 标准偏差正态分布43210-1-2-3-440%30%20%10% 0%95%标准值得概率到平均的距离内可容纳的标准偏差的个数99.73%68%两个值之间可以得到的累积概率属性2: 通过曲线下面的宽度可以推测发生某种 “事件” 的概率. 正态分布为标准偏差的经验规则 前面的累计概率的规则即使在数据不是完

15、美的正态分布时也适用 让我们比较数值的理论正态分布(完美的)和经验正态分布(现实的) 即, 是否正态分布的 6075%的数据在1西格玛内. +/- 1s 68% 65-70% +/- 2 s 95% 92-98% +/- 3 s 99.7% 99-100% 标准偏差数理论正态分布经验正态分布正态分布正态概率图利用正态概率图的数据样式可以判定是否符合“正态分布”分布曲线接近曲线时 正态概率图 将接近直线.Minitab 使 正态概率图 使用方便.利用Distskew.mtw 数据做练习.正态分布画 Normal Probability Plots正态分布 参考事项 - 数据点如果分布在直线周围,

16、则符合正态分布. - Goodness of Fit (AD)值越小,说明数据越符合指定的概率分布. - P值大于0.05,则可以认为是正态分布.此为增添图线正态分布打开文件 DISTRIBUTIONS.MPJ用前三列数据各作一个正态概率图 - 哪个看上去象正态的然后各作一个直方图 - 这显示了什么? 给你5分钟 正态概率图练习-1正态分布正态分布打开DISTRIBUTIONS.MPJ 文件 .用C4中的神秘变量作正态概率图 你的结论是什么?它是正态分布吗?画正态概率图练习(续) 象这样有两个正态分布的例子 - 供应商提供两种品质的材料时正态分布正态分布统计量的陈述方法Descriptive

17、statistics (陈述统计量)打开DISTRIBUTIONS.MPJ 文件 .描述性统计: Normal, Pos Skew, Neg Skew, Mystery 平均值变量 N N* 平均值 标准误 标准差 最小值 下四分位数 中位数Normal 500 0 70.000 0.447 10.000 29.824 63.412 69.977Pos Skew 500 0 70.000 0.447 10.000 62.921 63.647 65.695Neg Skew 500 0 70.000 0.447 10.000 1.866 67.891 73.783Mystery 500 0 100

18、.00 1.45 32.38 41.77 68.69 104.20变量 上四分位数 最大值Normal 76.653 103.301Pos Skew 72.821 130.366Neg Skew 76.290 77.106Mystery 130.81 162.82MTB 从这些数据中我们能得出什么观察结果呢? 着眼于中心,分散,和形状的指标 描述统计量统计量的陈述方法Graphical Descriptive Statistics统计量的陈述方法光看这些数据可能有些迷茫 让我们用数据绘图,然后把数字添加到图上图形化汇总统计量的陈述方法Data Mining核心战略基本前提 - 查找散布的原因并

19、计量化, 把这消除或管理.通过 Data Mining 查找最大的变量.例题 : 刷漆工程的例 - 利用 PUMPING.MPJ 文件- Output : 涂敷比率 (Rate)观察输入 : 日期, 班次(Shift), 形态和喷嘴等Input中哪个 变量的散布影响 Output的散布Data set 分析 工作表上的信息 列 数量 名称C1 150 DayC2 150 ShiftC3 150 Gear StyleC4 150 NozzleC5 150 RATEMinitab 中的此项功能显示出数据集所包含的信息:日,班次,齿轮型号,喷嘴和泵抽速。 每项有150个观测数据面临的挑战是决定哪个(

20、些)输入导致了输出(抽速)的散布 如果你点 MTB 提示下的 INFO 命令,你将看到 Data Mining2.Pumping Rate的总散布调查使用 图形直方图功能我们看泵速的分布。数值范围大约为14:30。描述性统计: Rate 平均值变量 N N* 平均值 标准误 标准差 最小值 下四分位数 中位数 上四分位数Rate 150 0 22.027 0.232 2.841 14.447 20.255 21.947 23.763变量 最大值Rate 28.763Data Mining3.查找有用的数据 (Data Mining) 让我们观察喷嘴对泵速散布的影响。我们可用显示描述性统计 中“

21、按变量(可选)” 的描述来选择变量并观察不同喷嘴对泵速散布的影响。 Data Mining描述性统计这些结果显示,当喷嘴从1变化到10时,平均泵速从19.0 变到 25.2 如果我们把喷嘴置于5,泵速的sigma 将从2.8(总散布)减少到约1.1 描述性统计: Rate 平均值变量 Nozzle N N* 平均值 标准误 标准差 最小值 下四分位数 中位数Rate 1 47 0 19.024 0.241 1.655 14.447 17.660 19.354 5 57 0 21.907 0.143 1.077 19.201 21.267 21.917 10 46 0 25.242 0.232 1.576 22.408 23.722 25.197变量 Nozzle 上四分位数 最大值Rate 1 20.362 22.5

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论