《数据的统计处理》PPT课件.ppt_第1页
《数据的统计处理》PPT课件.ppt_第2页
《数据的统计处理》PPT课件.ppt_第3页
《数据的统计处理》PPT课件.ppt_第4页
《数据的统计处理》PPT课件.ppt_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2019/6/13,1,第二章,2019/6/13,2,本章主要内容,2.1数据的取得与整理,2.2质量变异的描述与模型,2.3回归分析,2019/6/13,3,2.1数据的取得与整理,搜集数据的目的,数据的分类,搜集数据 的 注意事项,数据的修整,2019/6/13,4,一、搜集数据的目的,为了取得高质量的数据,首先要有明确的目的。搜集数据的目的主要包括: 用于控制现场 用于质量分析 用于质量调节 用于质量检查,2019/6/13,5,二、数据的分类,不同种类的数据,其统计性质不同。相应地,处理方法也就不同。,计量数据,计数数据,顺序数据,点数数据以100点或10点记为满点 进行评分的数据,定性数据优劣数据,定量数据,2019/6/13,6,三、搜集数据的注意事项,明确搜集数据的目的与数据整理的方法; 详细记录搜集信息; 搜集人员 搜集时间 搜集地点 搜集方法 使用工具 数据处理 字迹清楚尤其要注意1、7和3、5、8的书写; 标准化作业严格按照标准或规范进行操作。,记录必须保存,而且计算过程也应予以保存,以备查计算错误。,2019/6/13,7,四、数据的修整修整方法,传统方法的缺点 测量时所的数据,往往需要修整至某一规定的位数,人们常采用 “ 四舍五入法 ”进行修整。但由于这种方法舍少进多,即有可能产生不大的正偏差。(见例表),修整方法(对第n+1位数字进行修整) 若第n+1位的数字大于5,则进位; 若第n+1位的数字小于5,则舍去; 若第n+1位的数字等于5,且其后无数字或全为零,则当第n位数为奇数(1、3、5、7、9)时进位,为偶数(0、2、4、6、8)时舍去; 若第n+1位的数字等于5,但其后有数字,则进位; 不得连续进行修整。,与传统方法相同,例题,2019/6/13,8,数值修整法的比较,2019/6/13,9,四、数据的修整位数确定,修整数据时,往往需要计算平均数或标准差。由于求平均数后测量误差变小,故求得均值的位数可比原来数据的位数多取几位,其参考标准如下。,2019/6/13,10,2.2质量变异的描述与模型,产品质量的统计观点,质量因素的分类,质量管理中常见的概率分布,中心极限定理,2019/6/13,11,产品质量的统计观点是现代质量管理的一个基本观点。它包括下列内容: 认识到产品质量的变异性 产品质量是在一定的4M1E(或简称人、机、料、法、环)的条件下制造出来的。由于这些质量因素在生产过程中不可能保持不变,故产品质量由于受到一系列客观存在的因素的影响而在生产过程中不停地变化着。这就是产品质量的变异性。 可以掌握质量变异的统计规律 产品质量的变异是具有统计规律性的。在生产正常的情况下,对产品质量的变异经过大量调查与分析后,可以应用概率论与数理统计方法,来精确地找出产品质量变异的幅度,以及不同大小的变异幅度出现的可能性,即找出产品质量的分布。这就是产品质量变异的统计规律。,一、产品质量的统计观点,2019/6/13,12,二、质量因素的分类,影响质量的因素称为质量因素。根据不同的划分方法,质量因素可以分类如下: 1按不同来源分类,可分为:操作人员,设备,原材料,操作方法,环境,简称4M1E;有的还把测量(Measurement)加上,简称5M1E。国际标准ISO9000则分得更细,除去上述因素外还加上计算机软件,辅助材料与水、电公用设施等,反映了时代的进步。 2按影响大小与作用性质分类,可分成以下两类: (1)偶然因素; (2)异常因素。,2019/6/13,13,(1)偶然因素,偶然因素具有四个特点: (a)影响微小。即对产品质量的影响微小。 (b)始终存在。就是说,只要一生产,这些因素就始终在起作用。 (c)逐件不同。由于偶然因素是随机变化的,所以每件产品受到偶然因素的影响是不同的。 (d)难以除去。指在技术上有困难或在经济上不允许。 偶然因素的例子很多,例如:机床开动时的轻微振动,原材料的微小差异,操作的微小差别等等。,随着科学的进步,有些偶然因素的影响可以设法减少,甚至基本消除。但从偶然因素的全体来看是不可能完全消除的,因此,偶然因素引起产品质量的偶然波动也是不可避免的。 必须承认这一客观事实:产品质量的偶然波动是影响微小的而同时又是不可避免的。故对于偶然因素可以听之任之,不必予以特别处理。,2019/6/13,14,(2)异常因素,异常因素又称系统因素。异常因素也有四个特点: (a)影响较大。即对产品质量的影响大。 (b)有时存在。就是说,它是由某种原因所产生的,不是在生产过程中始终存在的。 (C)一系列产品受到同一方向的影响。指加工件质量指标受到的影响是都变大或都变小。 (d)不难除去。指这类因素在技术上不难识别和消除,而在经济上也往往是允许的。 异常因素的例子也很多,例如:由于固定螺母松动造成机床的较大振动,刀具的严重磨损,违反规程的错误操作等。,异常因素对于产品质量影响较大,可造成产品质量过大的异常波动,以致产品质量不合格,同时它也不难加以消除。因此,在生产过程中异常因素是注意的对象。 一旦发现产品质量有异常波动,就应尽快找出其异常因素,加以排除,并采取措施使之不再出现。 在实际生产中,产品质量的偶然波动与异常波动总是交织在一起的,如何加以区分并非易事。控制图就是区分这两类产品质量波动的重要科学方法。,2019/6/13,15,三、质量管理中常见的概率分布,二项分布,帕松分布,正态分布,(一)二项分布,设每次试验成功的概率为常数 P,则在 n 次试验中成功的次数 x 具有下列二项分布 式中,n与P为参数,n为正整数,0 P 1。其均值和方差分别为= nP, 2 = nP(1-P)。 在质量管理中,二项分布是常见的。对于从无限总体中抽样而以P表示总体不合格品率的情况,二项分布是适宜的概率模型。,二项分布的图形随n的变化,X,pn(x2),Pn(x),(二)帕松分布,帕松分布的概率函数为 由图可以看出,当充分大时,帕松分布趋于对称,趋于正态分布。 在质量管理中,帕松分布的典型用途是用作单位产品上所发生的缺陷数目的数学模型。事实上,任何发生在每个单位上(如每单位长度、每单位面积、每单位时间等等)的随机现象通常可用帕松分布得到很好的近似。,帕松分布图形随 的变化,(三)正态分布,若x为一正态随机变量,则x的概率密度为 正态分布的参数是 (-0。由下图所示的图形可以看出,它是对称的、单峰的钟形曲线,其中是确定分布中心的均值,是确定曲线尖陡或平缓(分散程度)的标准差。 由于正态分布广泛使用,常常采用一个专门记号 x N(, 2)表示x 是正态分布的,其参数为均值与方差2。,相同,不同的三条正态分布曲线,上图给出了正态分布曲线下不同面积所包含的概率的大小。例如,总体数值有 68.26% 落于1界限范围内,有 95.46%落于2界限范围内,有 99.73%落于3界限范围内。 上述结论是质量管理中经常要用到的。,正态分布条件下不同面积所包含的概率,转入累积概率的计算,2019/6/13,21,累积正态分布定义为正态变量 x 小于或等于某一数值 c的概率,即: 为使上述积分的计算与和的具体数值无关,引入标准变换Z=(x-)/,于是: Pxc=PZ(c-)/=(c-)/ 式中,函数为标准正态分布N(0,1)累积分布函数。 常用的几个转换公式: PZc=1-PZc=1-(c) PZ-c=PZc PZ-c= PZc Pc1Zc2=(c1)-(c2),例题,2019/6/13,22,例 题,包装纸的抗拉强度是一个重要的质量特性。假定包装纸抗拉强度服从正态分布,其均值为 = 3.0kg/cm2,方差为2 = 0.2(kg/cm2)2。现购买厂家要求包装纸抗拉强度不低于2.5 kg/cm2,问购买该种包装纸能满足厂家要求的概率为多少? 解:满足厂家要求的概率为 Px2.5=1-Px2.5 应用标准变换,可求得: Px2.5 = PZ(2.5 3.0)/0.2 = PZ2.5 =PZ2.5=1-(2.5) 于是 Px2.5 =(2.5)=0.99379,2019/6/13,23,四、中心极限定理,对于计量值指标,我们常常假定正态分布是适宜的概率模型。但在有些情况下,我们很难检验这一假定的有效性。不过,由于下列中心极限定理,我们常常可以认为这种近似的正态性假定是合理的。 中心极限定理:若x1,x2,xn为n个独立的随机变量,其均值分别为u1,u2,un,方差分别为2 1, 2 2 , 2 n,且 , 则当n趋向无穷大时 的分布趋于标准正态分布N(0,1)。 中心极限定理表示n个独立分布的随机变量之和的分布近似正态分布,而不管个别变量的分布如何。当变量个数n增加时,这种近似程度也增加。一般地,若xi为同分布,且每一xi的分布与正态分布相差不大时,则即使n4,中心极限定理也能保证相当好的近似正态性。这点在质量管理中十分重要。,2019/6/13,24,2.3回归分析,一、回归分析的含义及作用,二、一元线性回归,三、一元非线性回归,2019/6/13,25,一、回归分析的含义及作用,在质量管理中,经常需要研究质量特性值与其质量因素之间、质量特性值之间的相互关系,即研究变量之间的关系。而变量之间的关系可分为两类:函数关系和相关关系。 对于x的每一确定值,y的取值具有不确定性,但又具有统计规律性。即对于x的每一取值,y有一个确定的概率分布。虽然x的值不能确定y的值,但y的这些概率分布的均值随x作有规律的变化。这种呈现非确定性关系的变量间的关系为统计关系,也称为相关关系。 回归分析就是研究变量之间相关关系的一种统计方法,它主要解决下列一些问题: 确定变量之间是否存在相关关系,如果存在的话,找出它们之间合适的数学表达式; 从共同影响变量的若干自变量中,判断哪些自变量的影响是显著的,哪些自变量的影响是不显著的; 利用所找到的数学表达式对变量进行预测或控制。,2019/6/13,26,二、一元线性回归,一元线性回归研究的是两个变量 x 与 y 之间的线性相关关系。这里,x 是可以控制或可以精确测量的变量,如年龄、试验时的温度、施加的压力、电压及时间等等。 虽然 x 的值不能确定 y 的值,但 y 的这些概率分布的均值随 x 作有规律的变化,即 y 分布的均值 E(y) =(x)。 回归分析就是寻求 y 的均值与 x 之间的函数关系的表达式E(y)=(x)。 (x)称为 y 对 x 的回归函数或 y 对 x 的回归。 当(x)与 x 呈一元线性关系(x) =0+1x时,用线性函数0+1x去估计y的均值,称为一元线性回归。,2019/6/13,27,一元线性回归分析法的工作步骤,1.作散布图进行观察变量间是否存在线性关系 2.变量间存在线性关系 ,则其回归函数为: E(y) =0+1x 式中: 0和1称为回归参数,通常是未知的,需要根据样本数据进行估计。 3.用最小二乘法求出回归系数0和1; 4.计算相关系数,判断 y 与 x 的相关性; 5.确定回归直线方程,分析回归直线的精度; 6.用于预测或控制。,例题,回归系数0和1的计算,求0和1常用最小二乘法(用初等数学也可)。,式中:,2019/6/13,29,相关系数的计算与相关性判断, xy简记为 当| |=1,称x与y为完全线性相关; 当| |=0,称x与y为完全线性无关; 查相关系数检验表,可判断x与y线性相关性; 当| | 时,称x与y为高度线性相关 当| |时,称x与y为低度线性无关 一般地, | | 0.7,就可认为回归效果显著。,回归直线精度的计算,可用剩余标准差来评价回归直线的优劣。 剩余标准差定义如下:,式中: 是预测值 剩余标准差越小越好,估计预测区间,对于实验范围的每个x,有95.46%的y值落在下列两条平行直线之间:,有99.73%的y值落在下列两条平行直线之间:,2019/6/13,32,例 题,考察温度对产量的影响,得到一批数据,试求产量关于温度的线性回归方程。,1. 将上述数据代入公式,可得回归方程:,2. 计算相关系数: g = 0.9910 根据n=10,取a=0.05,查得g0.05=0.632;取a=0.01,查得g0.01=0.765。故g g0.05 ,所以回归效果显著;且g g0.01 ,此时称回归效果高度显著。表明x与y间的线性相关关系显著。 3. 将上述数据代入剩余差公式,可得标准差:s=0.4387 4. 计算预测值或控制区间: 当温度x=80度时,产量预测值为:27.0 5. 预测值分析: 对于实验范围内的每个x,有68.26%的y值在27.0m0.44范围内;约有95.46%的y值在27.0m0.88范围内;有99.73%的y值在27.0m1.32范围内。,2019/6/13,34,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论