




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、试验设计Design of Experiment模块目标在本模块中,你将学习1 试验设计基本概念介绍( DOE 培训一)2 单因子试验设计及在实际中的应用3 全因子试验设计及在实际中的应用(DOE 培训一)4 部分实施因子试验简介5 响应曲面设计及在实际中的应6 稳健参数设计试验简介课程目标 人类在认识自然界的过程中,持续地进行着多方面的探索。试验是构成学习过程的一个要素。 试验的统计设计方法开始形成在上世纪20年代。在这之前,科技工作者在试验中走了不少弯路。 通过本课程的学习,使学员能理解试验设计的理论并能在实际的工作中运用以解决实际的工程问题。试验设计基本概念介绍 试验设计术语解释 试验设
2、计的基本原则 试验设计的类型 试验设计的基本步骤什么是试验设计?就是研究如何以最有效的方式安排试验以获得含有最大信息量的数据试验设计示例简介:合成氨纯度试验:在提高合成氨纯度(%)的工艺研究中,发现有3个因子?很重要,他们是因子A-温度;因子B-压力;因子C-反应时间。对每个因子都设定了高低两个水平?。我们希望考察这3个因子中,那些因子效应?及交互效应?是显著的。其具体取值如下:A因子:-温度,低水平460度,高水平500度B因子:-压力,低水平250大气压,高水平270大气压C因子:-时间,低水平20分钟,高水平30分钟试验设计基本概念介绍试验设计术语解释?- 因子 factors- 水平
3、levels- 主效应 main effects和交互效应 interaction effects- 模型 Model- 误差 error试验设计基本概念介绍- 因子 factors可控因子和非可控因子过程x1x2x3u1u2u3y1y2y3过程的模型响应变量response非可控因子(噪声因子)Uncontrolled factor/noise factor因子factor试验设计基本概念介绍可控因子:能影响响应变量且在试验总可以加以控制的因子,称为可控因子。可以是连续型的也可以是离散型的。非可控因子:影响过程及结果且能记录但不可控制的因子,称为非可控因子。通常包括环境状况,操作员,材料批次
4、等等。可以是连续型的,也可以是离散的。通常我们把它们当做误差来处理。 响应变量我们关心的输出变量,常称为响应变量或指标。在试验设计中,只考虑单个响应变量的情况。试验设计基本概念介绍- 水平(level)为了研究因子对响应变量的影响,需要用到因子的两个或更多个不同的取值,这些取值称为因子的水平.试验设计基本概念介绍- 主效应 main effects和交互效应 interaction effects例题:AlowAhighBhigh130170Blow100120在农田试验中:A为灌溉(水少,水多)B为施肥(肥少,肥多)Y为产量图中可以看见优化的方向AB试验设计基本概念介绍交互效应?当一项因子对
5、响应项的作用取决于另一因子的水平或设定时,我们说这两个因子存在交互效应。 - 主效应 main effects和交互效应 interaction effects130100120170A-A+B-B+A的主效应=avg(A+)-avg(A-)=+30B的主效应=avg(B+)-avg(B-)=+40AB的交互效应=avg((A+B+)+(A-B-)-avg(A+B-) +(A-B+))=+10试验设计基本概念介绍- 主效应 main effects和交互效应 interaction effectsABABy1-+1002+-1203-+-1304+170M-230220250M+2903002
6、70Mean-115110125Mean+145150135effect304010试验设计基本概念介绍- 模型 ModelY=f(X1,X2,.,Xk)+误差表达响应变量与可控因子变量之间关系的公式- 误差 error试验误差 experimental error:非可控因子(或噪声)造成的,还包含测量误差。失拟误差 lack of fit:我们所采用的模型函数f与真实函数间的差异。试验设计基本概念介绍试验设计的基本原则- 重复试验 (replication)- 随机化 (randomization)- 划分区组 (blocking)试验设计基本概念介绍- 重复试验 (replication
7、)重复试验是指对一项试验组合进行不止一次的试验。也就是除正常试验次数外在相同输入因子水平组合下独立安排一次和多次试验(注意不是同一次试验下的重复测量)正常方法:全部试验安排皆重复1次或2次。代替方法:部分试验安排重复1次或2次,只在特定点处重复1次或2次,在中心点进行重复3或4次。我们在试验中一定要包含真正的重复。做重复试验的原因:显著性检验都是将不同试验间形成的差别与随机误差相比较。而重复试验就是为了得到随机误差。试验设计的基本原则试验设计基本概念介绍- 随机化 (randomization)试验设计的基本原则 随机化是按随机的排序作试验,而不是依照试验设计的标准排序进行试验。 防止那些试验
8、者未知的但可能会对响应变量产生某种系统的影响。 随机化并没有减少试验误差本身,但随机化可以防止未知的但可能会对响应变量产生的某种系统的影响的出现。如何做到随机化?随机化可以通过随机数据表或计算机随机数产生器完成。1)设有标准序(std order)及运行序(run order)两列,初始值为自然序。2)在运行序(run order)内形成随机数列3)将计划表中所有数据按运行序(run order)的顺序由小到大排好。4)实施试验时,按运行序(run order)的编号顺序执行之。试验设计基本概念介绍试验设计的类型?根据试验的目的,可以分为4大类:1、因子设计(Factorial Design)
9、2、回归设计(Regression Design)3、稳健参数设计(Robust Parameter Design)4、混料设计(Mixture Design)试验设计基本概念介绍1、因子设计(Factorial Design)试验设计的类型?目的:筛选因子 分析因子及交互效应。方法:全因子试验,部分实施因子试验2、回归设计(Regression Design)目的:找出Y对于X的回归方程,求出最优值。方法:响应曲面方法3、稳健参数设计(Robust Parameter Design) 目的:找出对环境条件及元器件变异不敏感的参数设置 方法:田口(Taguchi)设计信噪比及内外表分析法4、混
10、料设计(Mixture Design) 目的:比率的总和为100%的配方问题 方法:带约束条件的响应曲面设计方法试验设计基本概念介绍试验设计的基本步骤1、计划阶段 阐述目标 选择响应变量、因子及其水平 选择试验计划 完成试验计划表 2、实施阶段 3、分析阶段:分析解释试验结果试验设计基本概念介绍1、计划阶段第一步:阐述目标即问题陈述和试验目标的确定。包括:概述持续改善的总目标及本阶段的具体目标 收集有效的背景信息 总结与本问题有关领域的使用数据试验设计基本概念介绍第二步:确定因子及水平 回顾试验目标 定义响应变量和范围 定义要研究的因子、范围和水平。因子确定宁多勿缺。 因子的可行范围;因子的物
11、理约束水平 以前的知识和经验分析因子和响应之间的关系 确定所选因子的水平变化范围不要过窄(效应不明显),不要过宽(规律性变差) 考虑因子的交互作用,物理上不会有交互作用的可以去除。确定资源限制,包括时间,成本,材料,人员,仪器和设施。确定是否有已知的讨厌变量影响试验。考虑与试验有关的人为因素 试验设计基本概念介绍第三步:选择试验计划筛选因子:一般选用2水平正交设计因子个数较多 部分实施的因子设计因子个数中等全因子设计因子个数特多,试验费用昂贵Plackett-Burman设计试验设计基本概念介绍回归设计:相应曲面设计因子个数很少(2-4个)找出二阶回归方程,并希望求出最优值(通常为最大或最小)
12、及其设置稳健参数设计:一般选用田口(Taguchi)设计目标为响应变量有望目特性因子个数不多(2到10个)对于误差因子的分析要求很细致因子水平可能为2或3试验设计基本概念介绍第四步:完成试验计划表因子水平有代码换为实际数值.顺序已经随机化,且已经按照Run order的顺序牌好.最后一列留做记录响应变量值使用.准备试验记录格式要全面:时间,地点.操作员姓名,非可控因子的状况,一切非正常的状况.试验设计基本概念介绍2、实施试验计划制定数据收集草案,包括谁做,干什么,在哪,何时,如何做?确定方法并获得必须的材料和设备做试验,确保按计划进行,不得随意改变原计划.记录尽可能多的信息,包括非受控但可以测
13、量的因子.记录非正常事件备查.试验设计基本概念介绍3.分析解释拟合选定的模型残差诊断对选定的模型进行分析解释进行验证试验进行下批试验模型要改进吗?目标是否已经达到?YYNY试验设计基本概念介绍二、单因子试验设计及在实际中的应用单因子试验设计及在实际中的应用单因子试验的目的: 一是想比较一个因子的几个不同设置间是否有显著差异,如果有显著差异,那个或哪些设置较好 二是建立响应变量与自变量间的回归关系(通常是线性、二次或三次多项式)假设检验回归分析单因子试验设计及在实际中的应用假设检验假设检验 Hypothesis Testing1 假设检验背景知识介绍2 假设检验-均值 (X为 离散数据,Y为连续
14、数据)2.1 单样本检验 One-Sample z test、 One Sample t-test2.2 双样本t检验 Two-Sample t-test 、 Paired data2.3 方差分析 ANOVA one way3 假设检验-比例 (X为离散数据,Y为离散数据)3.1 1 proportion3.2 2 proportion 3.3 Chi-Square Test假设检验 Hypothesis Testing1 假设检验背景知识介绍目的: 假设检验就是检查你的X是否对Y有(统计上的)显著影响。 介绍两种方法来评估样本:置信区间(Confidence Intervals)和 p 值
15、(p-values)Minitab 的练习 假设检验 Hypothesis Testing 总体和样本 Populations and Samples样本总体统计估计 样本是总体的子集 通常我们没有总体的数据,因为要获得所有的数据很难或者代价很高.样本的特性:统计量总体的特性:参数 假设检验 Hypothesis Testing总体 全部对象举例:2003年5月在精密铸造车间生产的所有一级涡轮叶片。参数描述总体特性的真值 总体的参数通常难以得到假设检验 Hypothesis Testing样本-sample是总体的一部分或子集。统计量-statistic是描述样本特性的数值 ,S。特定的样本有
16、其特定的统计值,但是样本之间会不同样本统计值s=样本A=样本B=样本C60.07 1.4460.31 1.7759.57 1.76假设检验 Hypothesis Testing假设检验是什么?假设检验是通过对样本数据的调查来推测总体参数。假设检验回答以下的实际问题: 在 和 之间是否有显著的差异?在假设检验中,我们用相应的小样本来回答有关总体参数的问题。我们选择的样本总是有可能不代表总体,因此,通过假设检验作出的结论是有可能错的。在某些假定的情况下,我们可以评估出错误结论的风险。假设检验 Hypothesis Testing 假设检验的小例子 你的工厂有几台发电机。 没有任何一台的功率表现的显
17、著的好或显著的差。 为了提高产出,设备主管决定投资10万元来改进设备。 设备主管想知道投资了更多的资金,时间和资源来更改的设备是否得到显著的改善。 为此,从两台发电机收集到样本数据。(一台经过改进,另一台没有。) 让我们从样本数据开始,发电机B是经过改进的。 假设检验 Hypothesis TestingmachineAmachineB89.7 84.781.4 86.184.5 83.284.8 91.987.3 86.379.7 79.385.1 82.681.7 89.183.7 83.784.5 88.5问题:和发电机A相比,发电机B是否提高的产出?也就是回答这个问题,在发电机A和发电
18、机B的产出之间是否存在着显著的差异? Variable N Mean StDev machineA 10 84.240 2.902machineB 10 85.54 3.65A和B之间平均值的差异1.3是显著的差异还是仅仅是偶然原因引起的差异?假设检验可以回答这个问题 假设检验 Hypothesis Testing为什么使用假设检验?1、为了改善流程,我们需要分辨出哪些因素影响平均值和标准差。2、一旦我们分辨出这些因素,就要调节它来改善,并且要追踪改善成效。用假设检验可以做出一致的判断 假设检验 Hypothesis Testing何时使用假设检验?当图形显示的信息不明显时,我们使用假设检验来
19、判断判断两组数据的差别是真有其事,还是巧合是否有统计上的显著性或者仅仅是偶然性 假设检验 Hypothesis Testing如何定义原假设Ho和对立假设Ha?先看一个例子? 有罪 vs 无罪司法系统判定一个人有罪需要足够的有罪证据,没有证据证明有罪,则无罪。人们不需要提出无罪的证据。 原假设(Ho)-人都没有罪(假设自然成立) 对立假设(Ha)-需要有力的证据证明被告有罪假设检验找到有力的证据来拒绝基本假设而采用对立假设简单的说:我们有明显的证据证明有不同的事情发生原假设 Ho:无罪对立假设 Ha:有罪假设检验 Hypothesis Testing定义假设?Ho假设检验的起点是原假设Ho。H
20、o是相同或没有差异假设举例:总体均值等于样本均值Ha第二条假设是Ha对立假设,即差异假设举例:总体均值不等于样本均值 总体均值大于样本均值 总体均值小于样本均值 通常想证明差异是确实存在的(Ha) 通常从假设相等(Ho)开始 如果数据表明他们不相等,则判定差异存在(Ha) 假设检验 Hypothesis Testing评价决策错误判断的正确和错误有4种可能性无罪获得自由有罪获得自由 无罪 入狱有罪入狱HoHa无罪有罪HoHa自由入狱判决实情 假设检验 Hypothesis Testing决策错误评估正确决定第二类错误 第一类错误正确决定HoHaHoHa判决实情=系统有多大的能力将好的放行=系统
21、有多大的能力将不好的找出来风险:当Ho为真时,拒绝Ho-称为厂商风险风险:当Ho为假时,接受Ho- 称为消费者风险 假设检验 Hypothesis Testing怎么用假设检验? 阐述假设 寻找证据 作出结论例如: 当你的老婆或老公极力向你辩护她/他没有说谎时,你会说“ 好, 我先相信你没有说谎, 以后要是我知道了你真的说谎了, 我再也不相信你了.”假设寻找证据作出结论 假设检验 Hypothesis Testing阐述你的假设: 描述一个假设,称为原假设Ho例如:-击中目标 -相同 - 无变化 描述它的对立面,称为对立假设Ha事情是:-没有击中目标 - 不同 - 有变化寻找证据并做出结论:
22、没有发现统计的不同 不像是关键的X,或者需要更多的数据来确认。 找到统计的不同数据说明这是关键的X,可作为下一步的研究 假设检验 Hypothesis Testing连接真实的世界问题解决的流程实际问题用实际术语描述实际问题统计问题用统计术语描述实际问题 (Ho,Ha)统计结果P 无法拒绝Ho实际结果用实际术语描述结果 假设检验 Hypothesis Testing评估样本的方法:置信区间法 Confidence Interval CI 样本的平均值是总体平均值的最好估计 总体的平均值与样本的平均值 - 可能会有些不同 - 但不会有极大的不同100 95%-CI ,已知s而且 n=10m 假设
23、检验 Hypothesis Testing如何用置信区间法来判断原假设成立与否?Ho :Ha: = 60 6060=61.259.163.1=63.261.165.160样本的置信区间包含Ho,我们说,无法拒绝原假设。样本的置信区间包含Ho,我们说,拒绝原假设。接受对立假设 假设检验 Hypothesis Testing评估样本的方法:P value 法 在原假设成立的条件下,出现目前情况的可能性。 P value 只能由计算机算出。P 值大于等于0.05,没有足够的证据推翻原假设。即原假设成立。P值小于0.05,有足够的证据推翻原假设,进而对立假设成立。换句话说,有显著的不同。 假设检验 H
24、ypothesis Testing含比较的工程问题陈述确定用何种比较方法确定产品或过程特性确定产品或过程的测量单位确定比较方法:One to Standard,one to one, Multiple建立比较陈述:零假设 对立假设比较方向单向,双向 样本数量, 风险系数检查独立性如果不独立,只报告点估计和大体的图表检查正态性如果不正态,转换数据成正态或用非参数方法. 含假设检验的比较方法流程图 Comparison flow chart重要 假设检验 Hypothesis Testing构造检验统计量用样本的证据来接收或拒绝原假设比较观察到的检验统计量和关键值比较Pvalue和风险系数比较(1
25、-)%置信区间和标准值写比较陈述结论 假设检验 Hypothesis Testing2.1 单样本检验单样本z检验 One Sample Z test 当你有一组连续型的数据,你想检查这组数的均值是否与指定的值(目标)相同。 并且已知标准差单样本t检验 One Sample T test 当你有一组连续型的数据,你想检查这组数的均值是否与指定的值(目标)相同。 并且未知标准差2 假设检验-均值 (X为 离散数据,Y为连续数据) 假设检验 Hypothesis Testing为您的电源保险管生产线提供新生产工具的供应商称,他们的机器将提高贵工厂的平均小时产量。验证此生产法之实验生产线目前的产量是
26、每小时3000只保险管,标准偏差为每小时300只保密管。 为检验该供应商的承诺,我们购买并安装了一台新机器。试生产稳定后,本项目的指定工程师从一个月的生产量中随机抽取了16个小时的产量做为样本。此样本得出的平均小时产量大约为3199只保密管。 该生产工程题应该得出怎样的结论?该工程师愿意承担5%的结论错误风险,认定新机器真地具有较高的产量。 工程问题陈述2.1 单样本检验单样本z检验 One Sample Z test3.2 假设检验 Hypothesis TestingSample Hour No.Fuses Produced135832276433305431835283263244729
27、488317192943103429113214123779133096143682152894163118具体数据:3.2 假设检验 Hypothesis Testing,实际问题陈述 愿意承担5%的结论错误风险,认定新机器真地具有较高的产量。2, 统计问题陈述 Ho: (已知?)Ha: 因变量X:新机器,旧机器 为离散数据。 项目指标Y:保险管产量/每小时为连续数据确定样本量为小时 ?风险定为.? 属于单边比较 ? 假设检验 Hypothesis Testing3,统计结果分析 检查数据的独立性何谓数据独立性?按照时间顺序排列的数据,每个数据都不受其他数据的影响.而且我们必须确保我们所采集
28、的数据是取自某一共同母体的随机(独立)样本。 这样样本均值的方差才等于总体方差与样本量之比.为何要检验数据的独立性?确保比较的公平性和比较结果的准确性. 假设检验 Hypothesis Testing检验数据独立性的办法? 将数据按照收集的时间顺序排列好. 找出样本数据的中位数(statbasic statisticsgraphics summary) 计算游程(run test) (statnonparametricsrun test) 解释结果, P value 大于0.05 即说明数据是独立的 P value 小于0.05即说明数据是不独立的数据不独立怎么办?不独立的数据将影响我们估计方
29、差,那么我们就不能用这门课所讨论的比较方法.对于不独立的数据,我们可以这样做: 数据应该是时间上的不独立,尽量解释为什么存在不独立, 报告点或位置估计(中位数),但不要估计数据的散布情况. 报告按时间排列的图表,但不能是直方图. 请教统计学家或黑带关于时间序列模型的问题,3,统计结果分析 检查数据的独立性假设检验 Hypothesis Testing3,统计结果分析 检查数据的独立性1. 中位数的获取中位数 假设检验 Hypothesis Testing检验数据独立性的Minitab演示(使用电阻丝的例子fuse.mtw)2. 游程计算Runs Test: Fuses Produced Run
30、s test for Fuses ProducedRuns above and below K = 3177The observed number of runs = 10The expected number of runs = 98 observations above K, 8 below* N is small, so the following approximation may be invalid.P-value = 0.6053,统计结果分析 检查数据的正态性 假设检验 Hypothesis Testing 正态性的知识可以回顾基础统计课程 为何要检查数据的正态性?因为假设检验
31、的理论基础就是正态分布,所以待检验的数据要是正态. 如何检验数据的正态性? STAT-BASIC STATISTICSNORMALITY TEST 如何评价检验结果? H0: 数据是正态的 HA: 数据是非正态的 看P value 值 如果小于0.05,拒绝原假设。 如果大于0.05, 无法拒绝原假设。 假设检验 Hypothesis Testing3,统计结果分析 检查数据的正态性检验数据正态性的Minitab演示(使用电阻丝的例子 fuse.mtw) 假设检验 Hypothesis Testing检验数据正态性的Minitab演示(使用电阻丝的例子 fuse.mtw)P value 大于0
32、.05,数据是正态的。 假设检验 Hypothesis Testing 如果数据不是正态的,如何做? 常常有这样的可能,对非正态数据进行转换,以创建出正态分布 虽然有多种转换方式,但我们将着重介绍两种主要方法。 对数(log )(底数10或自然数)和平方根。 如何在MINITAB 中实现这两种方法? 对于对数(log), 用CalcCalculator 选择natural log functions 对于平方根, 用CalcCalculator 选择Square root 假设检验 Hypothesis Testing 正确转换的指导方针:Box-Cox转换程序Lambda转换-2.0反平方-
33、1.0逆向-0.5反平方根 0.0对数(自然数或底数10) 0.5平方根 1.0未转换 2.0平方MINITAB可以提供某些指导,说明哪些是适用的转换,其具体方式是使用“Stat Control Chart Box Cox Transformation ”项下的“Box-Cox转换”程序 。 假设检验 Hypothesis Testing 数据转换成正态的方法用MINITAB演示 (leakagecurrent.mtw) 假设检验 Hypothesis Testing 数据转换成正态的方法用MINITAB演示 (leakagecurrent.mtw)Stat Control Chart Box
34、 Cox Transformation 假设检验 Hypothesis Testing一但完成对数据的转换,我们可以对转换后的数据进行标准检验。所有检验值都必须转换。 例如,假设你们正在进行检验,看数据是否取自平均值为600的母体。如果你们利用Ln转换来建立正态分布的数据,那么本次检验的内容变为数据是否来自一个平均值为Ln(600) = 6.39693的母体。特别注意: 假设检验 Hypothesis TestingOne-Sample Z: Fuses Produced Test of mu = 3000 vs 3000The assumed standard deviation = 300
35、 95% LowerVariable N Mean StDev SE Mean Bound Z PFuses Produced 16 3199.06 299.69 75.00 3075.70 2.65 0.004,统计结果分析样本量样本的均值样本数据的标准差样本均值的标准差 ?置信区间值 ?P 值 假设检验 Hypothesis Testing图示: 假设检验 Hypothesis TestingMinitab 的使用:StatBasic Statistics 1-sample Z 假设检验 Hypothesis Testing4,实际结果陈述因此,我们得出结论,有强烈的统计学证据说明,供应商
36、所承诺的新机器每小时的产量大于原来旧机器每小时的产量是成立的。而且我们有95%的把握说,该新机器每小时的产量超过了3075 只保险管。,统计结果分析针对抽样数据,我们根据统计学实验的结果得出结论:在原假设成立的条件下,即均值为3000,标准差为300,出现目前情况即均值为3199的可能性为0.4%,小于我们能接受的风险系数5%, 所以我们否决保险管生产过程的母体平均值等于每小时3000只的零前提。同样, 该母体平均值的单边置信区间没有包括每小时3000只保险管的标准过程平均值。 假设检验 Hypothesis Testing回答问号? 的问题: 如何确定样本量?样本量的选择依赖以下几个因素:决
37、策错误的风险(,),总体的可变性(),要检验的差异()针对以上三个因素, 如果想降低决策错误的风险 样本量必须增加 如果总体的可变性增大了, 样本量必须增加 如果要检验的差异减小了, 样本量必须增加在选择样本量的时候,我们还要考虑的是: 材料成本 进行抽样的成本 实际可行性 样本的代表性 假设检验 Hypothesis Testing1-bab样本平均值的分布:m1 = 3200 n = 16样本平均值的分布:m0 = 3000 n = 16的临界值 (3123.4) a = 0.05时如果H 为真:o如果 H 为真:A无法否决 HO否决HOm - m = D01前提检验: a, b 误差D回
38、答问号? 的问题: 如何确定样本量?单边样本规模公式:双边样本规模公式:用MINITAB 软件操作:statpower and sample sizeone sample z 假设检验 Hypothesis Testing回答问号? 的问题: 如何确定样本量? 假设检验 Hypothesis TestingMinimum Detectable Difference for Various Sample Sizes回答问号? 的问题: 如何确定样本量? 假设检验 Hypothesis Testing回答问号? 的问题: 如何确定样本量?1-Sample Z TestTesting mean =
39、null (versus not = null)Calculating power for mean = null + differenceAlpha = 0.05 Assumed standard deviation = 300 Sample TargetDifference Size Power Actual Power 300 13 0.95 0.950076MINITAB结果解释:最小要求的样本量是13个,目前项目中选择16个是合理的。 假设检验 Hypothesis Testing回答问号? 的问题: 如何确定样本量? 假设检验 Hypothesis Testing回答问号? 的问题
40、: 单边比较和双边比较-6-4-1.9601.9646Z的值a/2 = 0.025a/2 = 0.025Zo = 2.6527单边比较双边比较. 假设检验 Hypothesis Testing回答问号? 的问题: 样本均值的标准差中心极限定理的原则:中心极限定理样本的平均值是正态分布的。 样本的平均值汇聚在母体平均值上。 样本标准偏差取决于抽样母体的标准偏差。 样本标准偏差相对于母体标准偏差按n的系数缩小。 假设检验 Hypothesis Testing回答问号? 的问题: Z值的含义?正态分布 假设检验 Hypothesis TestingZ统计量的定义1.一系列具有平均值 和标准偏差s的观
41、测。在每次观测中减去m,从而将上述平均值重新定位到0。3.为定义名为“z”的新统计量,用s去除每一项差,以此重新标度分布,使s = 1 。标准化的正态分布(单位法线分布) 假设检验 Hypothesis Testing+ 1 标准偏差正态分布+ 2 标准偏差正态分布 假设检验 Hypothesis Testing 假设检验 Hypothesis Testing举例一家供应商提供之材料的检验报告为m = 150且s = 5。一位工程师从此材料的某一批次中随机抽取了10项,结果发现平均值= 154。 有无这样的可能,即这10项抽样的母体平均值为150,标准偏差为5? 样本平均值的标准正态分布 假设
42、检验 Hypothesis Testing获得Z 值等于或大于2.53的概率为 0.0057, 一个相对较小的数。 因此从一个m = 150 且 s = 5之母体中得出平均值等于154,实属反常或意外。 计算检验统计量: 假设检验 Hypothesis Testing2.1 单样本检验单样本t检验 One Sample T test 总体标准差未知当你有一组连续型的数据,你想检查这组数的均值是否与指定的值(目标)相同前面的z检验,是在总体方差已知的情况下作的假设检验。不幸的是,我们通常没有很多的历史数据来判断总体的标准差,这时,我们就要估计他们了。 假设检验 Hypothesis Testin
43、g2.1 单样本检验单样本t检验 One Sample T test 总体标准差未知例题:为您的电源保险管生产线提供新生产工具的供应商称,他们的机器将提高贵工厂的平均小时产量。验证此生产法之实验生产线目前的产量是每小时3000只保险管。 因为历史数据少,不能确定总体标准差。为检验该供应商的承诺,我们购买并安装了一台新机器。试生产稳定后,本项目的指定工程师从一个月的生产量中随机抽取了16个小时的产量做为样本。此样本得出的平均小时产量大约为3199只保密管。 该生产工程题应该得出怎样的结论?该工程师愿意承担5%的结论错误风险,认定新机器真地具有较高的产量。 假设检验 Hypothesis Test
44、ing2.1 单样本检验单样本t检验 One Sample T test 总体标准差未知学员按照前面所讲的例题,自己摸索着做此题。然后讨论。假设检验 Hypothesis Testing2.2 双样本t检验 Two-Sample t-test当你有两组连续型的数据(不配对数据 ?),在假定这两组数的总体标准差相等的情况下,看他们的均值是否一致?例题1:Comparing the Average Performance of Two SuppliersSupplier A and Supplier B provide you with vacuum pumps. You wish to comp
45、are their average performance is different when in fact it is not. You are able to collect a random sample of ten pumps from Supplier A and a random sample of eight pumps from supplier B. After performing the pressure tests, What should you conclude? 假设检验 Hypothesis Testing项目过程:1、实际工程问题陈述 在愿意承担10%的错
46、误风险的前提下,检验两家供应商提供的泵的最小压力的平均性能是否有差别2、统计问题陈述 Ho: Ha: 因变量:供应商,供应商属于离散数据项目指标:最小压力time/5mTorr 属于连续数据 厂商风险:消费者风险:供应商提供台泵厂商风险:消费者风险:供应商提供台泵 假设检验 Hypothesis Testing3、统计结果分析1,检验两组数据的独立性。(学员独立做,讲师辅导)2,检验两组数据的正态性。(学员独立做,讲师辅导)3,Minitab 分析结果:假设两组方差相等 ?Stat- basic statistic- two sample t假设检验 Hypothesis TestingBox
47、plot of Mini press by two suppliersTwo-Sample T-Test and CI: Min Press, Supplier Two-sample T for Min PressSupplier N Mean StDev SE MeanA 10 4.290 0.145 0.046B 8 4.113 0.125 0.044Difference = mu (A) - mu (B)Estimate for difference: 0.17750095% CI for difference: (0.040325, 0.314675)T-Test of differe
48、nce = 0 (vs not =): T-Value = 2.74 P-Value = 0.014 DF = 16 ?Both use Pooled StDev = 0.1364 假设检验 Hypothesis Testing 假设检验 Hypothesis Testing3,统计结果分析: 从P value =0.014可以得到,有强烈的统计数据证明,两组数据的总体均值是不相等的。我们拒绝原假设。接受对立假设。4,实际工程问题结果分析 在我们接受供应商A40%的结论错误的风险下,供应商B45%的结论错误风险下,我们接受10%的结论错误的风险下,承认两供应商提供的泵的最小压力的平均性能是有区
49、别的。且供应商A的泵要好于供应商B的泵。 假设检验 Hypothesis Testing回答问号? 的问题: 为何要假定两组数据的方差相等 假设检验 Hypothesis TestingPooled Variance 假设检验 Hypothesis Testing如何检验两组数据的方差相等?Statbasic statistic-2 variances 假设检验 Hypothesis Testing分析结果:Ho: Ha:P value 大于0.05,无法拒绝原假设。 假设检验 Hypothesis Testing回答问号? 的问题: 何为配对数据(Paired Data)?例题2:人事部的经
50、理想知道用看装配流程的录像的培训方法对培训效果是否有好处。我们采用了两种测试方法1。我们选择10个操作工完成一项装配任务,计算完成的时间,首先让他们看操作说明书,然后完成一次这样的装配任务,计算完成的时间。接下来,让他们观看关于如何完成装配任务的录像,然后再让他们完成一次同样的装配任务。计算完成的时间。2。我们选择10个操作工,其中5人通过看操作说明书,然后完成装配任务,计算完成的时间。另外5人通过看装配过程的录像,然后完成转给任务,计算完成时间。讨论:用那种方法合理?为什么 假设检验 Hypothesis Testing成对比较法将双样本问题简化为单样本分析,从而使我们可以针对差异进行一对标
51、准的检验。成对比较法优于非结对分析的主要优点在于,减少了实验中的易变性或“噪声”。差异的易变性并不包含任何由于组对因素而造成的波动。 警告:非成对样本不得任意组对。这将导致对比得出错误的结论。 回答问号? 的问题: 何为配对数据(Paired Data)? 假设检验 Hypothesis Testing例题:某团对测量矿石中二氧化锰含量的两种分析方法进行对比,随机从过程的产品中抽样,将同一个样品用两种实验分析分别测量二氧化锰含量各一次。问两个分析方法的结果在.水平上有无显著的差异?数据文件:Measure for paired dataH0: m 1 = m 2versusH1: m 1 m
52、2 StatBasic Statistics Paired data 假设检验 Hypothesis TestingPaired T-Test and CI: Mea-A, Mea-B Paired T for Mea-A - Mea-B N Mean StDev SE MeanMea-A 10 10.6300 2.4513 0.7752Mea-B 10 11.0400 2.5185 0.7964Difference 10 -0.410000 0.387155 0.12242995% CI for mean difference: (-0.686954, -0.133046)T-Test of
53、 mean difference = 0 (vs not = 0): T-Value = -3.35 P-Value = 0.009 假设检验 Hypothesis Testing 假设检验 Hypothesis Testing2.3 方差分析 Analysis Of Variance比较多个总体均值是否相等的方法。根据因子个数的不同分为one way ANOVA,two way ANOVA。先看个实际的工程例子:现有4条生产线生产同一种垫片,为了了解不同生产线的垫片的断裂强度有无明显的差异,现分别从每个生产线随机抽取5个垫片测定其断裂强度,试问4条生产线生产的垫片的平均断裂强度是否相同?li
54、ne1line2line3line486.593.488.694.392.087.993.293.385.290.688.892.087.985.592.789.286.088.490.992.5 假设检验 Hypothesis Testing解决此问题的步骤:1、实际工程问题的陈述试问4条生产线生产的垫片的平均断裂强度是否相同?2、转换成统计问题陈述:比较方法:多总体均值的比较Ho:a:至少有一个均值不同因变量X:生产线 为离散数据 水平:4条生产线项目指标Y:垫片的平均断裂强度 为连续数据样本量:每条生产线抽取5个样本风险为. 假设检验 Hypothesis Testing、统计问题分析三
55、个假设: 各样本的数据的总体是服从正态分布N( ) 其中就是要比较的对象。 在不同水平下的方差相等,只要诸试验是在相同条件下进行,方差相等性一般可以满足。 各数据Y相互独立,这通常只要把试验次序随机化即可得到满足。 假设检验 Hypothesis Testing利用MINITAB计算:StatANOVA one way ANOVAOne-way ANOVA: line1, line2, line3, line4 Source DF SS ? MS? F? PFactor 3 63.29 21.10 3.46 0.041Error 16 97.50 6.09Total 19 160.79S =
56、2.469 R-Sq = 39.36% R-Sq(adj) = 27.99% Individual 95% CIs For Mean Based on Pooled StDevLevel N Mean StDev -+-+-+-+ line1 5 87.520 2.690 (-*-) line2 5 89.160 2.984 (-*-) line3 5 90.840 2.134 (-*-) line4 5 92.260 1.919 (-*-) -+-+-+-+ 87.5 90.0 92.5 95.0Pooled StDev = 2.469由于P value小于0.05,所以我们认为至少一个均值
57、在统计上与其他的不同。 假设检验 Hypothesis Testing方差分析的基本思想和步骤:1、平方和分解line1line2line3line486.593.488.694.392.087.993.293.385.290.688.892.087.985.592.789.286.088.490.992.5 假设检验 Hypothesis Testing是所有数的平均值数据的不同是由两部分造成的,一个是生产线的不同(即因子水平不同)一个是由在同一个水平下的重复测量造成的(即重复误差)所有的比较都要找个基准,在这里重复误差就是基准。同一水平下的值的均值所有的数 假设检验 Hypothesis
58、Testing上述的诸平方和的大小与数据个数有关。数据个数越多,偏差平方和会大一些,所以为了进行比较,还需要引入自由度的概念。2、自由度与均方和假设检验 Hypothesis TestingBoxplot图形解释 假设检验 Hypothesis Testing4、实际问题结论: 从Pvalue的值可以看出,不同生产线生产的垫片的平均断裂强度有明显的差异。4号生产线的垫片的平均断裂强度均值最大,如果我们需要平均断裂强度大的垫片,那么4号生产线为好。而从过程来讲,1号和2号线应该设法改进。 假设检验 Hypothesis Testing3 假设检验-比例 (X为离散数据,Y为离散数据)3.1 1
59、proportion 例题:A市长想竞选州长,她决定如果她的政党们有65%以上的人支持她。那么她就放弃她现在市长的职位去竞选州长。作为她的活动经理,你随机的抽取了950个政党人员,发现其中有560人支持进行州长的竞选。同时,你愿意承担5%的决策风险。问题解决步骤:1、实际问题陈述愿意承担5%的决策风险认为有65%的政党人员支持A市长竞争州长。2、统计问题陈述 Ho:p=0.65 Ha:p0.65 因变量X:政党人员 离散数据 项目指标Y:同意与否 离散数据 风险:.选择-proportion 方法假设检验 Hypothesis Testing3、统计数据分析:Minitab 入口:StatBa
60、sic Statistic - 1 proportion总人数同意的人数95%的置信区间认可的比率对立假设的条件 假设检验 Hypothesis TestingTest of p = 0.65 vs p 0.65 95% Lower ExactSample X N Sample p Bound P-Value1 560 950 0.589474 0.562515 1.000Minitab 分析结果:Pvalue大于0.05,无法拒绝原假设。即没有足够的证据证明大于0.65 的假设成立4、实际问题解析没有足够的证据证明,赞同A市长竞选州长的政党人员大于65%。作为她的活动经理,应该建议她不要竞选
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 残疾人劳动权益保护劳动合同签订流程详解
- 浙江省绍兴市越城区2025年八年级下学期期末数学试题及参考答案
- 大学生先进班级主要事迹材料范文(17篇)
- 建设工程施工劳务承包合同(6篇)
- (关于耳垂采血的)复习试题含答案
- 公司合规环保管理制度
- 优化备考策略的软件测试工程师试题及答案
- 2024年中国创投市场数据报告
- 医德医风演讲稿范文(19篇)
- 数据库用户角色与权限管理试题及答案
- 手术室护理实践指南侧卧位的摆放
- 2003奥迪a8原厂维修手册带电路图自学
- 我国江河湖泊及水资源散布现状
- 基于51单片机的智能门铃设计-正式版
- 2023年不动产登记代理人《不动产登记代理实务》冲刺备考200题(含详解)
- 畜产品市场营销策划方案
- GB/T 18852-2020无损检测超声检测测量接触探头声束特性的参考试块和方法
- ZJUTTOP100理工类学术期刊目录(2018年版)
- F0值计算公式自动
- 《全国统一建筑工程基础定额河北省消耗量定额》宣贯资料
- 道路交通事故现场勘查课件
评论
0/150
提交评论