质量工程师中级讲义第二章 常用统计技术.doc_第1页
质量工程师中级讲义第二章 常用统计技术.doc_第2页
质量工程师中级讲义第二章 常用统计技术.doc_第3页
质量工程师中级讲义第二章 常用统计技术.doc_第4页
质量工程师中级讲义第二章 常用统计技术.doc_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章 常用统计技术 第二章 常用统计技术【考试趋势】单选4-5题,多选6-8题,综合分析7-8题。总分值30-40分。总分170分。占比20%左右。【大纲考点】一、方差分析(一)方差分析基本概念 1掌握因子、水平和方差分析的三项基本假定 2熟悉方差分析是在同方差假定下检验多个正态均值是否相等的统计方法(难点)(二)方差分析方法 1掌握单因子的方差分析方法(平方和分解、总平方和、因子平方和、误差平方和,自由由度、f比、显著性) (重点)2了解重复数不等情况下的方差分析方法。(难点)二、回归分析 主要研究定量因子,也就是变量分析(一)散布图与相关系数 1.掌握散布图的作用与做法 2.掌握样本相关系数的定义、计算及其检验方法 (重点,难点)(二)一元线性回归 1掌握用最小二乘估计建立一元线性回归方程的方法 (重点,难点)2掌握一元线性回归方程的检验方法(重点,难点)3熟悉一元线性回归方法在预测中的应用 (三)了解可化为一元线性回归的曲线回归问题 #三、试验设计三、试验设计(一)基本概念与正交表 1了解试验设计的必要性 2熟悉常用正交表及正交表的特点 (二)正交试验设计与分析 1熟悉使用正交表进行试验设计的步骤 2掌握无交互作用的正交试验设计的直观分析法与方差分析法 3熟悉贡献率的分析方法 4了解有交互作用的正交试验设计的方差分析法 5熟悉最佳水平组合的选取【考点解读】三种统计技术的特点:新版教材第74页。第一节 方差分析第一节 方差分析一、方差分析1、三项基本假定-(掌握p75)为什么要方差分析?目的和用途。方差分析不是简单分析方差,通过方差分析因子的显著与否。方差只是手段。对结果的影响是否显著。要用到假设检验。零假设,备择假设。但是假设检验的前提条件是:正态分布,等方差,观测相互独立。也就是大纲里讲的三项基本假定。2、方差分析的统计检验-(掌握p76)那么如何在同方差假定下检验多个正态均值是否相等呢?其实统计检验的问题。大家想一下,零假设,备择假设是什么?同一个因子,有不同水平,每个水平重复多次试验就得到一个分布。有几个水平就有几个分布,方差分析是看分布的均值是否相等。相等,说明因子变动对结果没影响,相差越大就越显著!3、单因子的方差分析-(掌握p76-79)因子a,有r个水平,也就是取值的情况,在试验中每个水平被重复m 次。那么总共可以得到多少个结果观测值呢?n=r*m个。每个水平的和,以及均值,分别共有r个。总和为t,总均值为y。离差平方和,通俗来讲,就是每个值离开平均值的平方和。先平方,再求和。能反映离散程度,波动情况。那么,什么因素造成观测值的波动呢?如果解释因子的离差平方和能够和结果的离差平方和很一致,那么这个因子就是显著的。#这里,这里,因子平方和的计算很有讲究。首先,组间方差,也就是平方和,是用每个水平的均值与总均值相比较来求。因每个水平被重复试验m 次,还要乘以m 。总平方和的求解概念上很简单,但计算量比较大。因此,有个简便计算公式,每个观测的平方,求和;总和t平方,除以n=r*m;然后两者相减。大家看一下,教材78页的公式是不是这样?,=同样,因子平方和的计算也有简便公式。可以这样来理解,每组的(每个水平)的均值平方,因每个水平被重复试验m 次,故 m 次求和;总和t平方,除以n=r*m;然后两者相减。一般地,总平方和、因子平方和不会相等。之间的差额就是误差平方和。当然,为了验证平方和分解,还要计算一下误差平方和。为了能使用f分布进行统计检验,还需要用到自由度的概念来构造符合f分布的统计值。#自由度自由度(degree of freedom, df),在数学中能够自由取值的变量个数,如有3个变量x、y、z,但x+y+z=18,其自由度等于2。在统计学中,自由度指的是计算某一统计量时,取值不受限制的变量个数。通常df=n-k。其中n为样本含量,k为被限制的条件数或变量个数,或计算某一统计量时用到其它独立统计量的个数。电子游戏中也有自由度这个概念。这个,我就不清楚了。统计学上的自由度是指当以样本的统计量来估计总体的参数时, 样本中独立或能自由变化的资料的个数,称为该统计量的自由度。 统计学上的自由度包括两方面的内容:首先,在估计总体的平均数时,由于样本中的 n 个数都是相互独立的,从其中抽出任何一个数都不影响其他数据,所以其自由度为n。 在估计总体的方差时,使用的是离差平方和。只要n-1个数的离差平方和确定了,方差也就确定了;因为在均值确定后,如果知道了其中n-1个数的值,第n个数的值也就确定了。这里,均值就相当于一个限制条件,由于加了这个限制条件,估计总体方差的自由度为n-1。例如,有一个有4个数据(n=4)的样本, 其平均值m等于5,即受到m=5的条件限制, 在自由确定4、2、5三个数据后, 第四个数据只能是9, 否则m5。因而这里的自由度=n-1=4-1=3。推而广之,任何统计量的自由度=n-限制条件的个数。其次,统计模型的自由度等于可自由取值的自变量的个数。如在回归方程中,如果共有p个参数需要估计,则其中包括了p-1个自变量(与截距对应的自变量是常量1)。因此该回归方程的自由度为p-1。这个解释,如果把“样本”二字换成“总体”二字也说得过去。这个根本解释不了在统计学中,自由度的概念。在一个包含n个个体的总体中,平均数为m。知道了n-1个个体时,剩下的一个个体不可以随意变化。为什么总体方差计算,是除以n而不是n-1呢?方差是实际值与期望值之差平方的期望值,所以知道总体个数n时方差应除以n,除以n-1时是方差的一个无偏估计。#这里这里,自由度也有分解式。其中,总自由度和因子自由度容易求,二者之差可以求其三。,平方和与自由度之比,得均方差,ms。用msa/mse=f,构造出f统计量。并计算统计值。然后与临界值,门槛值或者阈值,比较。如果大于阈值,拒绝原假设,因子显著!这个,阈值,教材上叫分位数。1- 分位数。f分位数又有2个参数,即分子和分母的自由度。和。最后,列出方差分析表。(平方和分解、总平方和、因子平方和、误差平方和,自由度、f比、显著性) 如果显著,要找出最好的水平,根据均值最好的水平确定。还可以用均值水平图直观显示。最后,还要估计我们统计检验的误差大小。即误差方差,估计值用均方差mse。#4、重复数不 4、重复数不等情况下的方差分析-(掌握p79-80)原理一样,做法稍有调整。主要把公式中 的,换乘即可。,最本质的是这也是许多考生常常疑惑的地方,这里给出解答。教材上是没有的,但是又非常影响情绪和记忆效果的。第二节 回归分析第二节 回归分析1、 散布图与相关系数散布图的做法与用途。p81.相关系数的定义(掌握p82)其实可以联想一下协方差的概念。一个变量x的方差是v(x)=,那么两个变量之间的协方差呢?可以比照方差的公式。这是理解的心法!cov(x)=. 协方差除以两个变量的标准差乘积就是相关系数。相关系数的计算方法公式很有规律。其实是方差公式的主要部分。2、样本相关系数的检验-(掌握p83)有专门的检验表,教材上有。统计值与临界值比较。#3、最小二乘估计GLS-(掌握P85)3、最小二乘估计gls-(掌握p85)这个可能大家都很熟悉了。这里简略讲一下。基本思想是方程的估计值与实际观测值的之间的残差平方和最小,所以英文名叫gls.一般最小二乘法。残差平方和,离差平方和,回归平方和,。下标r表示回归,英文名regression。同学看一下,上面3个公式哪个是固定的?哪个是可调的?哪个是要求最小的?三者之间存在方差分解关系。对求最小值。如何求呢?求偏导数的方法。#调整调整中两个参数的不同取值,一直到残差最小。所以,ab是变量。所以对其求导数。,乘以,乘以n解方程组,得,。#4、显著性检验-(掌握P85)4、显著性检验-(掌握p85)方差分析方法来检验。关键是构造f统计量。残差平方和,离差平方和,回归平方和,。下标r表示回归,英文名regression。同学看一下,上面3个公式哪个是固定的?哪个是可调的?哪个是要求最小的?三者之间存在方差分解关系和自由度分解关系。,其中,为自变量个数,= - ,=n-自变量个数#5、模型预测-(掌握P86-87)5、模型预测-(掌握p86-87)两个步骤。1,代入方程得到的估计值。2,给出预测精度,即置信区间。由于假定了作为随机变量,服从正态分布。所以预测精度可用预测误差来表示。预测误差 预测误差一般服从t分布,即学生分布。当30时,预测误差近似正态分布。查表即可。6、曲线回归问题-(掌握p87-91)主要是变量转换,化为一元线性回归问题。求得系数后,再还原到非线性方程。对于不同形式的方程,选优的标准有两个:判定系数和标准残差。第三节 试验设计第三节 试验设计但在实际工作中,常常需要同时考察3个或3个以上的试验因素,若进行全面试验,则试验的规模将很大,往往因实验条件的限制而难于实施。如有10个因子,各有2个水平的话,需要1024次试验,各有3个水平的话,59049次试验。正交试验设计就是高效率安排多因素试验、寻求最优水平组合的一种试验设计方法。当然,试验设计的方法有多种,正交试验是其中一种。一、基本概念与正交表 1了解试验设计的必要性 正交试验设计是利用正交表来安排与分析多因素试验的一种设计方法。它是由试验因素的全部水平组合中,挑选部分有代表性的水平组合进行试验的,通过对这部分试验结果的分析了解全面试验的情况,找出最优的水平组合。#例如例如,一个三因素三水平试验,各因素的水平之间全部可能组合有27种。全面进行试验可以分析各因素的效应,也可以选出最优水平组合。但全面试验包含的水平组合数数多,工作量大。在有些情况下无法完成。若试验的主要目的是寻求最优水平组合,则可利用正交表来设计安排试验。正交试验设计的基本特点是:用部分试验来代替全面试验,通过对部分试验结果的分析,了解全面试验的情况。如对于上述3因素3水平试验,可利用正交表l9(34)安排,试验方案仅包含9个水平组合,就能反映试验方案包含27个水平组合的全面试验的情况,找出最佳的生产条件。教材第91-92页对正交表l9(34)的描述非常基础也很重要。#2熟悉常用正交表及正交表的特点2熟悉常用正交表及正交表的特点 由于正交设计安排试验和分析试验结果都要用到正交表,因此,我们先对正交表作一介绍。常用的正交表已由数学工作者制定出来。l4(23)列号试验号1231111212232124221#正交表记号为正交表记号为la(bc),其中l代表正交表,a表示试验的次数即行数,b表示因素的水平数,c表示因素的个数即列数。正交性任一列中,各水平都出现,且出项的次数相等;任两列之间各种不同水平的所有可能组合都出现,且出现的次数相等;任一列的各水平出现的次数相等;任两列间所有水平组合出现次数相等,使得任一因素各水平的试验条件相同。这就保证了在每列因素各水平的效果中,最大限度地排除了其他因素的干扰。根据以上特性,我们用正交表安排的试验,具有均衡分散和整齐可比的特点。#所谓所谓均衡分散,是指用正交表挑选出来的各因素水平组合在全部水平组合中的分布是均匀的。由图10-1可以看出,在立方体中,任一平面内都包含3个“()”,任一直线上都包含1个“()”,因此,这些点代表性强,能够较好地反映全面试验的情况。l9(34) 列号试验号12341111121222 31333 42123 52231 62312 73132 83213 93321 组#L8(27)的交互作用列表l8(27)的交互作用列表1234567325476 16745 7654 123 32 1 #L8(27)l8(27) 列号试验号12345671111111121112222312221224122221152112112621122217222112182221212组#(教材P92页)(教材p92页)正交表可以划分为两类:严格型和非严格型。严格型的可以考察交互作用,非严格型的只能考察单个因子的影响。严格型的正交表满足关系式:,k=2,3,4很抽象,如何来理解?首先,时,令k=2, 则n=4, p=,有时,令k=3, 则n=8, p=,有时,令k=2, 则n=9, p=,有,等等,依次类推。nqp三者之间关系,与k的取值有关,但是表格都已经做好了,固化了,拿来用即可,同时也需稍微记忆基本类型。#二、无交互作用的正交试验设计与分析二、无交互作用的正交试验设计与分析 p92页,通过一个例子2.3-1来说明。1熟悉使用正交表进行试验设计的步骤 前提:好的条件可以产生好的结果。我们要找到最好的条件。试验设计要点:1明确目的,2明确指标,试验结果,3确定因子和水平,影响因素可以取几个值。4选用正交表,表头设计,列出计划。因子数确定列数。n确定行数。1个因子占1列。在试验安排中,每个因素在研究的范围内选几个水平,就好比在选优区内打上网格,如果网上的每个点都做试验,就是全面试验。如上例中,3个因素的选优区可以用一个立方体表示(图10-1),3个因素各取3个水平,把立方体划分成27个格点。若27个网格点都试验,就是全面试验。3因素3水平的全面试验水平组合数为33=27,4因素3水平的全面试验水平组合数为34=81,5因素3水平的全面试验水平组合数为35=243,这在科学试验中是有可能做不到的。正交设计就是从选优区全面试验点(水平组合)中挑选出有代表性的部分试验点来进行试验。#tu#图中标有试验号图中标有试验号的九个点,就是利用正交表l9(34)从27个试验点中挑选出来的9个试验点。即:(1)a1b1c1;(2)a2b1c2;(3)a3b1c3;(4)a1b2c2;(5)a2b2c3;(6)a3b2c1;(7)a1b3c3;(8)a2b3c1;(9)a3b3c2.上述选择,保证了a因素的每个水平与b因素、c因素的各个水平在试验中各搭配一次。对于a、b、c3个因素来说,是在27个全面试验中选择9个试验点仅是全面试验的三分之一。从图10-1中可以看到,9个试验点在选优区中分布是均衡的,3因子所以是3维。在立方体的每个平面上,都恰是3个试验点:在立方体的每条线上也恰有一个试验点。9个试验点均衡地分布于整个立方体内,有很强的代表性,能够比较全面地反映选优区内的基本情况。#2掌握无交互作用的正交试验设计的直观分析法与方2掌握无交互作用的正交试验设计的直观分析法与方差分析法 直观分析法均值分析法和极差分析法和影响图法 p95页计算简便,直观,简单易懂,是正交试验结果分析最常用方法。根据正交设计的特性,对a1、a2、a3、a4来说,试验条件是完全一样的(综合可比性),可进行直接比较。如果因素a对试验指标无影响时,那么ka1、ka2、ka3、ka应该相等。如果ka1、ka2、ka3、ka不相等。说明,a因素的水平变动对试验结果有影响。因此,根据ka1、ka2、ka3、ka4的大小可以判断a1、a2、a3、a4对试验指标的影响大小。kjm为第j列因素m水平所对应的试验指标和,kjm为kjm平均值。由kjm大小可以判断第j列因素优水平和优组合。分析a因素各水平对试验指标的影响大小。极差大则影响大,因子显著。rj为第j列因素的极差,反映了第j列因素水平波动时,试验指标的变动幅度。rj越大,说明该因素对试验指标的影响越大。根据rj大小,可以判断因素的主次顺序。指标趋势图法。以各因素水平为横坐标,试验指标的平均值(kjm)为纵坐标,绘制因素与指标趋势图。由因素与指标趋势图可以更直观地看出试验指标随着因素水平的变化而变化的趋势,可为进一步试验指明方向。方差分析法 p96页极差分析法简单明了,通俗易懂,计算工作量少便于推广普及。但这种方法不能将试验中由于试验条件改变引起的数据波动同试验误差引起的数据波动区分开来,也就是说,不能区分因素各水平间对应的试验结果的差异究竟是由于因素水平不同引起的,还是由于试验误差引起的,无法估计试验误差的大小。此外,各因素对试验结果的影响大小无法给以精确的数量估计,不能提出一个标准来判断所考察因素作用是否显著。为了弥补极差分析的缺陷,可采用方差分析。方差分析基本思想是将数据的总变异分解成因素引起的变异和误差引起的变异两部分,构造f统计量,作f检验,即可判断因素作用是否显著。#a、偏差平方和 a、偏差平方和 ij、iij、iiij、ivj分别表示第j列中1,2,3,4水平对应的试验结果之和。 总偏差平方和各列因素偏差平方和+误差偏差平方和。 #b、自由度b、自由度 f总=试验的次数n-1;f因=因素的水平数q-1。c、方差,均方ms a因素的方差=a因素的偏差平方和/a因素的自由度 误差的方差=误差的偏差平方和/误差的自由度#d、构造F统计量 d、构造f统计量 e、列方差分析表,作f检验当faf0.01(f1,f2)时,说明该因子水平的改变,对试验结果有高度显著地影响,记作*。当f0.01(f1,f2)faf0.05(f1,f2)时,说明该因子水平的改变,对试验结果有显著地影响,记作*。当f0.05(f1,f2)faf0.10(f1,f2)时,说明该因子水平的改变,对试验结果有一定的影响,记作*-。查表可得f0.01(f1,f2)、f0.05(f1,f2)、f0.10(f1,f2)的值。显著的因子选均值最大的水平,不显著的因子任意选。 #3熟悉贡献率的分析方法 P99页3熟悉贡献率的分析方法 p99页不服从正态分布时,不适宜方差分析。只好进行因子贡献率分析。里包含误差,求纯=-,贡献率

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论