数据统计分析在GMP实施中的应用_第1页
数据统计分析在GMP实施中的应用_第2页
数据统计分析在GMP实施中的应用_第3页
数据统计分析在GMP实施中的应用_第4页
数据统计分析在GMP实施中的应用_第5页
已阅读5页,还剩75页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

,27,张新,数据统计分析在GMP实施中的应用,-数据统计分析基础知识,54,数据统计分析基础知识,1.数据及其特征值2.基本统计概念,3.抽样检验基础知识4.质量波动简析,28,55,1.数据及其特征值,数据是一种观测值,是实验、测量、观察、调查等的结果。,数据是科学决策的前提,56,有数据不是目的,29,57,数据的分类,定性数据定量数据,1)计量型数据:表示每个单位产品的特性值的数,值大小进行测量与记录所得到的观测值。如:时间、长度、重量、纯度等。,2)计数型数据:表示每个个体是否具有某种特性,(或特征),计算具有该特性的个体数量。如:不良个数、缺点数、是否通过、事故数等。,58,数据统计,统计(statistics)是指对与某一现象有关的数据的搜集、整理、计算和分析等的活动。,统计方法分类:,描述性:对统计数据进行整理和描述。,推断性:在对统计数据进行描述的基础上,进一步进行,分析、解释和作出推断性结论。,30,59,数据的特征值,均值极差,标准差,RSD相对标准偏差中位数,60,数据的特征值-均值,极差,案例1-1,均值(平均年龄)=(27+27+33+46+57)5=38岁极差=最大年龄最小年龄=5727=30,数据的特征值中位数,案例11,27,27,33,46,57,中位数:33岁一批(6个样品)产品某指标的检测结果为:0.16,0.15,0.18,0.13,0.14,0.16从小到大排序:0.13,0.14,0.15,0.16,0.16,0.18该批产品某指标的中位数为:(0.15+0.16)/2=0.15561样本标准差样本标准差(SampleStandardDeviation)表示分散程度的特征值6231,数据的特征值标准差,案例11S=13.2岁,均值=38,11years,11years,19years,8years,5years,27,27,33,46,57,63案例12,用某规格电子天平做了砝码校准,称量结果如下表(mg):试求:是否达到USP的要求。备注:该规格的电子天平,按USP要求:连续称取10次,计算标准差。比值3S/M0.001(M是砝码真实质量),20.0120.0020.0020.0120.0120.0020.00,20.0220.0120.00标准差:0.00699.计算3*0.00699/20=0.00105能够达到USP要求。6432,33,65,相对标准偏差,相对标准偏差,(relativestandarddeviation,简称RSD),或,称变异系数(coefficientofvariation),简称CV;,影响RSD的因素只有两个,一个是标准差,一个是均数。,66,案例13,QC实验室,对检验人员进行技术考评,一批产品,做10次,得结果如下:,142.1143.4146.6143.6145.6147.2150.1148.2151.0143.7,标准差:3.00均值:146.15RSD=2.05%,结论:RSD应控制在1%以内,上述结果,可认为该检验员技术不达标,应重新培训。,34,案例14已知第一批产品均值190,标准差为10.5;第二批产品均值196,标准差为8.5,试问两批产品,哪个变异大?67数据分析的前处理,数值的修约四舍六入五考虑,五后非零前进一,五后为零看奇偶,五前奇数则进一,五前偶数应舍去,不论舍去多少位,必须一次修约完。,离群值(outlier)是指在数据中有一个或几个数值与其他数值相比差异较大。为什么会出现离群点?1)测量、输入错误或系统运行错误所致2)数据内在特性所决定3)客体的异常行为所致68,出现离群值时的处理当出现离群值的时候,要慎重处理,要将专业知识和统计学方法结合起来。离群值处理方法包括:剔除离群值,不追加观测值;剔除离群值,追加观测值;或剔除离群值,适宜地插补替代;找到实际原因修正离群值,否则予以保留。692.基本统计概念统计学(Statistics)收集、整理、展示、分析、解析统计资料由样本(sample)推论母体/群体(population)能在不确定情况下作决策是一门科学方法、决策工具,抽样7035,X,推论,xi,X=-,36,基本统计概念统计量,R,极差(range),Md中位数(median)Mo众数(mode)2方差/变异(variance)标准差(standarddeviation)s样组(样本)标准差,X()算术平均数(arithmeticmean),71基本统计概念,R,极差(range),R=XmaxXmin,X()算术平均数(arithmeticmean)ni=1nMd中位数(median顺序数列中的中心项的数值Mo众数(mode)资料中出现最多的数值72,n,37,基本统计概念,2方差/变异(variance),n(Xi-X)2i=121=(x1xbar)2+(x2xbar)2+(xnxbar)273基本统计概念,标准差(standarddeviation)n(Xi-X)2i=1n=,案例1-6,三家制药企业的交货时间(天)比较,A公司3030303030B公司2025303540,=30=30,=0=7.9,R=0R=20,C公司58313274,=30,=27.61R=6974,(x)2,e2,x,正态分布的定义,2,12,设连续型随机变量X的概率密度为f(x),其中,(0)为常数,则称X服从参数为,的正态分布或高斯分布,记为XN(,2).75正态分布的图形特点N(,2)决定了图形的中心位置,决定了图形中峰的陡峭程度.7638,39,77,标准正态分布,的正态分布称为标准正态分布,记为N(0,1).,当正态分布N(,2)中的0,1时,这样,78,数据特性值的正态分布,绝大多数数据特性值服从或近似服从正态分布。,40,79,西格玛相关基础知识,80,西格玛相关基础知识,41,西格玛相关基础知识,过程输出质量特性平均值()往,往在规格中心点周围漂移,漂移幅度在规格中心点1.5范围内。如果将1.5漂移计算在内,,6质量特性的不符合规范限产,1.5,1.5,下限,上限,1,2,品为0.00034%,即3.4ppm。654321+1+2+3+4+5+66的诠释不同个数的相对严重程度之示意,654321,以书刊错字校对为例一间小型图书馆全部藏书中有一个错字一部百科全书中有一个错字一册书每30页中有一个错字每页书中有1.5个错字每页书中有25个错字每页书中有170个错字82,3.抽样检验基本知识,抽样分析,样本测试数据,群体行动结论,抽样检验基本流程83抽样检验的风险抽检检验是由样品的质量状况去推断总体的质量,这是有风险的。当批质量符合要求却不被接收时生产方承担的风险,称之为生产方风险(或错判概率)(弃真错误);当批质量不符合要求却被接收时使用方承担的风险,称之为使用方风险(或漏判概率)(纳伪错误)。8442,43,错误和错误的关系,你不能同时减少两类错误!,和的关系就像翘翘板,小就大,大就小,86,86/45,852.质量波动简析Variation变差没有两件产品或特性是完全相同的,因为任何过程都存在许多引起变差的原因。,输入(材料),输出(产品),过程(生产/装配),过程变差材料,反馈(测量/检验)测量系统87质量波动简析正常波动是由偶然因素或随机因素(随机原因)引起的产品质量波动。这些偶然因素(随机因素)在生产过程中大量存在,对产品质量经常发生影响,但其所造成的质量特性值波动往往较小。一般情况下这些波动在生产过程中是允许存在的。公差就是承认这种波动的产物。如:原材料的成分和性能上的微小差异、机器设备的轻微振动、温湿度的微小变化、操作方面、测量方面、检测仪器的微小差异等。8844,45,89,质量波动简析,异常波动是由异常因素或系统因素(系统原因)引起的产品质量波动。这些系统因素一旦存在,对产品质量的影响就比较显著。把有异常波动的生产过程称为过程处于非统计控制状态,简称为失控状态或不稳定状态。由异常因素造成的产品质量波动在生产过程中是不允许存在的,只要有发现产品质量有异常波动,就应尽快找出其异常因素,加以消除,并采取措施使之不再出现。,如:原材料的不符合规定要求、机器设备带病运转、操作者违反操作规程、测量工具的系统误差等。,90,变差(质量波动)的两种主要类型,下一个:!下一个:?,普通原因,特殊原因,两种变差(变异),质量波动的因素Person人,Sixmajorcausesofprocess过程变异的6大因素Method,法,Measurement测量Environment环,Machine机Material料,4M+环境+测量(5M1E),91数据统计分析在GMP实施中的应用-数据统计分析常用工具张新46,47,93,数据统计分析常用工具,1.常用质量分析图2.控制图,3.过程能力,94,1.GMP实施中常用的数据分析工具,48,95,折线图,饼分图,96,案例21,49,97,案例21(样品顺序分析),98,案例21(批号顺序分析),99.0098.50,0月,3月,6月,9月12月18月24月36月,稳定性OOT,案例22符合性警戒:同一产品的同一(或其他稳定性研究产品的OOT结果显示,在有效期有产生OOS的可能性的情况),如图4100.0099.50P1,P2P3P4P5,P6P798.0097.50,99散点图散点图,又称相关图,是研究成对出现的两组相关数据之间相互有关系的图示技术。用来发现,显示和确认两组相关数据之间的相关关系,确定其预期关系。10050,51,102,案例23101因果图因果图,又名鱼骨图,是一种发现问题“根本原因”的分析方法,人方法,机器测量,材料环境,制程为何变动,52,103,树图,树图把所属关系或要实现的目的与需要采取的措施、手段,系统地展开,并绘制成图,以明确问题的重点,寻找最佳手段或措施。,104,排列图,又称帕累托图(Paretochart),是以意大利经济学家V.Pareto的名字而命名的。它是按照发生频率大小顺序绘制的直方图。它是将出现的质量问题和质量改进项目按照重要程度依次排列而采用的一种图表。,53,105,案例24,统计质量工具Pareto图,106,1.控制图,现代质量管理的一个观点-产品质量的统计观点,a.产品的质量具有变异性,至工业革命以后,人们一开始误认为:产品是由机器造出来的,因此,生产出来的产品是一样的。随着测量理论与测量工具的进步,人们终于认识到:产品质量具有变异性,公差制度的建立是一个标志。b.产品质量的变异具有统计规律性,产品质量的变异也是有规律性的,但它不是通常的确定性现象的确定性规律,而是随机现象的统计规律。,控制图原理a.计量值产品特性的正态分布,如果我们对某一计量值产品的特性值(如:纯化水电导率值等)进行连续测试,只要样本量足够大,就可看到,它们服从正态分布的规律。,0,n(x;,),107控制图原理b.3控制方式下的产品特性值区间3控制方式下产品特性值落在-3,+3范围内的概率为,99.73%,其产品特性,值落在此区间外的概率,为1-99.73%=0.27%。10854,0.135%,0.135%,-3,+3,控制图原理c.常规控制图的形成,-3+3,+3-3,-3,+3,109控制图原理,d.控制图原理的解释第一种解释:,1.若过程正常,即分布不变,则点子超过UCL的概率只有1左右。2.若过程异常,值发生偏移,于是分布曲线上、下偏移,则点子超过UCL或LCL的概率大为增加。结论:点出界就判异以后要把它当成一条规定来记住。11055,8,9,10,11,UCLCL,LCL时间(h),2.异常因素引起异波。异波产生后,其分布会随时间的变化而发生变化。异波对质量影响大,但采取措施后不难消除。,控制图原理第二种解释:1.偶然因素引起偶然波动。偶然波动不可避免,但对质量的影响微小,通常服从正态分布,且其分布不随时间的变化而改变。可预测过程受控111控制图原理第二种解释:,不可预测结论:控制图上的控制界限就是区分偶波与异波的科学界限,休哈特控制图的实质是区分偶然因素与异常因素两类因素。11256,过程失控,57,113,控制图图形,控制图(ControlChart)又叫管制图,是对过程质量特性进行测定、记录、评估,从而监察过程是否处于控制状态的一种用统计方法设计的图。,图上有三条平行于横轴的直线:,中心线(CL,CentralLine)、,上控制线(UCL,UpperControlLine),下控制线(LCL,LowerControlLine),并有按时间顺序抽取的,样本统计量数值的描点序列。,UCL、CL、LCL统称为控制线(ControlLine),通常控制界限设定在,3标准差的位置。,中心线是所控制的统计量的平均值。,114,控制图图形,58,115,控制图的特点,116,控制图的设计原理,3准则,正态性假定,小概率原理,反证法思想,服从正态分布N(,),据正态分布的概率性2,59,117,正态性假定,任何生产过程生产出来的产品,其质量特性值总会存在一定程度的波动,当过程稳定或者说受控时,这些波动主要是由5MIE的微小变化造成的随机误差。此时,绝大多数质量特性值均服从或近似服从正态分布。这一假定,称之为正态性假定。,5MIE:,人、机器、原材料、工艺方法、测量及生产环境,118,3准则,在生产过程中,仅有偶然性误差存在时,质量特性X,则,质,有,也即(3,3)是的实际取值范围。,P3399.73%,60,119,小概率原理,小概率原理又称为实际推断原理,当然运用小概率原理也可能导致错误,但犯错误的可能性恰恰就是此小概率。,由准则可知,若服从正态分布,则的可能值超出控制界限的可能性只有0.27%。因此,一般认为不会超出控制界限。,所谓小概率原理,即认为小概率事件一般是不会发生的。,120,反证法思想,一旦控制图上点子越出界限线或其他小概率事件发生,则怀疑原生产过程失控,也即不稳定,此时要从5MIE去找原因,看是否发生了显著性变化。,61,控制图的两类风险第一类错误(拒真错误、虚发警报)当所涉及的过程处于受控状态时,也可能有某些点由于偶然原因落在控制限之外,这时按规则判断过程失控。这个判断是错误的,这种错误称为第一类错误,其发生概率为。第一类错误将会造成寻找根本不存在的异常原因的损失。,399.73%32.710,/2,在3方式下,=0.27%。3/2,122,121控制图的两类风险第二类错误(取伪错误、漏发警报)过程异常,仍会有部分产品,其质量特性的数值大小仍位于控制界限内。如果抽取到这样的产品,点子仍会在界内,从而犯了第二类错误,即漏发警报。通常犯第二类错误的概率记为,第二类错误将造成不合格品增加的损失。,3,3,控制图的两类风险,调整UCL与LCL之间的距离可以增加或减少和。若此距离增加则减少,增大;反之则,增大,减少。,123控制图的两类风险如何减少两类错误所造成的损失解决办法是:根据使两种错误造成的总损失最小的原则来确定UCL与LCL二者之间的最优间隔距离。经验证明:休哈特所提出的3方式较好,在不少情况下,3方式都接近最优间隔距离。控制图之所以规定3界限,主要是出于经济上的考虑。12462,12663,控制图第一种解释:“点出界就判异”小概率事件原理:小概率事件实际上不发生,若发生即判异常。第二种解释:“抓异因,弃偶因”控制限就是区分偶然波动与异常波动的科学界限。休哈特控制图的实质就是区分偶然因素与异常因素的。26字真经点出界就判异,查出异因,采取措施,保证消除,不再出现,纳入标准。125八大判异准则,Test2.九点在中心线一侧排列,Test4.十四点交互上下,Test1.一个点超出A区x,xTest3.六点连续上升或下降,x,UCL,CLLCL,AB,C1C-B-A-,x,x,UCL,CLLCL,A,BCCBA,UCL,A,BCCBA,CLLCL,x,UCL,AB,CCBA,CLLCL,64,八大判异准则,Test5.每三点有两点在同侧B区外,Test6.连续五点有四点在同侧C区外,xxxTest7.十五个点排在C区x,xxTest8.连续8点排在C区外x,ABCCBAABCCBA,UCLCLLCLUCLCLLCL,ABCCBAABCCBA,UCLCLLCLUCLCLLCL,127PDA技术报告59统计方法在工艺验证中的应用西部电气规则:,单点在控制界限外,可侦测非常大突然地工序平均值或标准差改变。,连续9点以上点在控制中心线的同一边,可侦测较小地工序平值或标准差改变或趋势。128,65,连续3点中的2点,超过同一边2个标准差以上,可侦测工序平均值或标准差较大的改变。,连续5点中的4点超过同一边一个标准差以上,可侦测工序平均值或标准差中等程度的改变。,PDA技术报告59统计方法在工艺验证中的应用西部电气规则:,连续6点稳定的上升或者下降,方向一致可侦测工序平均值或标准差上升的趋势。,连续14点一上一下,可侦测系统性的影响,例如交替的设备人员,供应商等。130,129PDA技术报告59统计方法在工艺验证中的应用纳尔逊规则:,连续15个点在一个标准差内,可侦测出工艺变异的下限。,连续8点在控制中心两边,且不在一个标准差内,可侦测工,PDA技术报告59统计方法在工艺验证中的应用纳尔逊规则:,艺变异的增加。131常用控制图计量型控制图包括:XbarR(均值极差图)IXMR(单值移动极差图)Xbars(均值标准差图)13266,67,XbarR(均值极差图),案例25,(1)搜集100个以上数据,把26个(一般是45个)数据分为一组,依测定时间顺序或群体顺序排列。(2)把数据记入数据表。(3)计算各组平均值。(4)计算各组的极差。133XbarR(均值极差图),案例25134,68,135,溶出度75%为企业内控标准,案例26,136,Xbars(均值标准差图),XbarRn=35Xbarsn=10,在每批样本数据量较小时,使用均值极差控制图,或者均值标准差控制图差别不大。,如果每批样本量大于10,则应该使用均值标准差,控制图,而不要使用均值极差控制图。,若每批样本只有一个数据,则应选用单值移动极,差控制图。,t,计数值控制图,不合格品,缺陷,数量(样本大小不变)百分率(样本大小变化),C控制图U控制图,Pn控制图P控制图,137不合格品率控制图P图,0,15105,35302520,40,六月份,七月份,八月份,LCL0,UCL0.039,UCL0.027p0.010,UCL0.036p0.014,p0.017,P图的使用和改进13869,普通原因产生偏差的状态,USL,受控但没有能力符合规范(普通原因造成的变差太大),特殊原因产生偏差的状态范围受控且有能力符合规范(普通原因造成的变差已减少)规格上限,规格下限LSL,2.过程能力,139过程能力与过程能力指数过程能力(工序能力):指过程加工质量方面的能力,用以衡量过程加工内在一致性。理解如下:、处于稳定状态下的实际加工能力。、以该过程产品质量特性值的变异或波动来表示。当过程处于稳态时,产品的计量质量特性值有.落在3的范围内(总体均值;总体标准差),产品合格率接近于1。过程能力指数的Cp用来表示过程能力满足规范的程度,以便分析、判断过程能力状态。14070,71,141,Cp与CPK,对流程生产数符合要求的产品、服务的能力的测量,CP短期流程能力,在一段有限的时间内中心和均值重合,看作是流程的最佳值,CPK短期流程能力指标,在一段有限时间内,考虑中心与均值是否重合流程实际能力,142,相关概念,14472,过程能力指数Cp必须大于1Cp大于1Cp=1Cp小于1143Cp和Sigma水平,Cp=1Sigma水平=3,3,3,Cp=1.33Sigma水平=4Cp=2Sigma水平=6,TargetTargetTarget,USLUSLUSL,LSLLSLLSL,46,46,Cpk量度流程设定,基本定律:Cpk要求最少1.33,USL,LSL,目标,偏离中间值,流程中间值145需要做什么?14673,74,147,评价过程能力,一般来讲:,当Cpk1说明制程能力差,不可接受。1Cpk1.33,说明制程能力可以,但需改善。1.33Cpk1.67,说明制程能力正常。Cpk1.67,说明制程能力过剩。,148,Pp与Ppk,Pp:也称过程绩效指数,是从过程总波动的角度考察过程输出满足客户要求的能力(也成长期过程能力指数),PP、Ppk的算法与Cp、Cpk的算法类似,只是标准差不一样,过程总波动标准差长用S来估计,75,149,全面理解过程能力,150,Cpk与Ppk在SPC软件中的应用,PpkCpk,说明当前过程能力低于过程固有的能力,过程中存在异常因素,应该马上寻找原因,加以消除。,PpkCpk,说明当前过程能力高于过程固有的能力,此时同样需要寻找原因,努力保持当前的过程性能。,76,张新,数据统计分析在GMP实施中的应用,-推断统计方法,152,假设检验(HypothesisTest),假设检验又称统计假设检验(注:显著性检验只是假设检验中最常用的一种方法),是一种基本的统计推断形式,用来判断样本与样本,样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。,其基本原理是先对总体的特征作出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受作出推断。,77,假设检验的基本思想假设检验的基本思想是小概率反证法思想。小概率思想是指小概率事件(P质量工具能力分析非正态方法二:先在质量工具中使用个体分布标识,然后根据结果选择数据的变换方式,然后进行能力分析200,C2,C2,2,1,5500,5000,4500,4000,3500,95%标准差Bonferroni置信区间12,45000,40000,35000,30000,25000,20000,15000,10000,检验统计量,0.70,P值,0.011,检验统计量,3.59,P值,0.059,Levene检验,两个不同工艺的一致性评价的方法,案例44两个不同工艺的结果分析,但非正态分布数据两种工艺等方差检验F检验,两种工艺201两个不同工艺的一致性评价的方法,案例44202101,102,某质量指标,法定标准是:31.5%-39.0%,现制定此产品的质量特性值的企业内控标准。收集某年正常生产的连续12个月的数据(平均值)(n=2),并进行筛选如下:,5.PDA第59号技术报告中关于使用统计工具的建议表格用下列符号:+表示“推荐的工具”;+表示“有用的”;O表示“可用于”;表示“不推荐”;表示“没用的”;()表示“视具体工艺情况”。2036.质量标准的制订,案例4536.3,36.436.636.936.635.936.736.736.837.435.736.1204,单独值,质量标准的制订,案例45,39,38,37,36,35,34,33,32,LSL,USL,过程数据LSL31.5目标*USL39样本均值36.5083样本N12标准差(组内)0.317019标准差(整体)0.464089,PpPPLPPUPpkCpm,2.693.601.791.79*,实测性能PPM

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论