




已阅读5页,还剩18页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
统计学方法在药学研发、生产与质量管理中的应用(2014-05-30 20:37:17)分类:专业知识与综合材料统计学方法在药学研发、生产与质量管理中的应用代骏豪,郑强(北京大学药物信息与工程研究中心,北京大学工学院工业工程与管理系,北京 100871)DAI Jun-hao, ZHENG Qiang(Center for Pharmaceutical Information and Engineering Research, Peking University, Beijing 100871, China; Department of Industry Engineering and Management, College of Engineering, Peking University, Beijing 100871, China)摘要 本文综述统计学在药品的化学、生产、控制和质量管理中的应用,涵盖试验设计,配方和工艺优化,稳定性研究和有效期确定,分析方法验证,中间控制和放行标准制定,工艺和质量监测,取样方案。综述关注统计学方法与制药领域应用的联系,系统地梳理了统计学方法对制药领域具体问题的适用性,以及监管部门对统计学应用的要求和引导。关键词 统计学;化学、生产、控制;质量;试验设计;制药应用Application of Statistics Methodology in Pharmaceutical R&D, Manufacturing and Quality ManagementAbstract A review of pharmaceutical applications of statistics of chemistry, manufacturing, control and quality management, including topics of experimental design, formulation and process optimization, stability study and shelf life determination, analytical method validation, in-process control and releasing specification determination, process and quality monitoring, and sampling. The review focuses on the linkage between the methodology of statistics and the pharmaceutical application, aiming to gain understanding on how to choose proper statistical methods for particular tasks. The relationship between the usage of statistics and the regulatory requirement and encouragement is also presented.Key words statistics; chemistry, manufacturing, control; quality; design of experiment, pharmaceutical application监管科学是关于发展新工具、标准及方式来评估药物安全性、有效性、质量可控性及效用的科学,是基于量化数据的科学。药物的安全性和有效性,往往是基于临床试验或观测数据,与这类数据相关的试验设计及分析方法是生物统计学范畴,无论在学术界和企业界都受到长期和积极的关注。相比之下,与药物的配方和工艺研究、生产与质量管理相关的统计学应用,虽然历史悠久,但学术界和企业界的重视程度一直偏低。这种重视程度的差别可能与药品监管部门在注册审评及上市后监管方面对统计学应用要求的高低有关。随着仿制药(又名“通用名药”或“学名药”)在整个药品处方量中所占比例的逐年提高(2013年美国市场的仿制药处方量占总处方量的84%1),各国监管部门对与药学研发、生产与质量管理领域的统计学要求也逐渐提高。部分原因是仿制药的安全问题主要源于药学研发与生产中的质量问题。同时,与原研药和品牌药相比,仿制药是薄利多销产业,成本控制至关重要。在全球劳动力和原料成本日益增高的大趋势下,企业自身也有内在的动力在保证质量和合规的前提下,降低研发和生产成本。而统计学方法是已被传统制造业证明有效的解决方法。在监管要求和企业自身动因的驱动下,预期统计学方法在药学研究和生产质量管理方面的应用会迎来快速发展阶段。从我们自己的教学与研究中发现,国内企业和药品监管部门广泛使用统计学工具2345,但对工具所基于的前提条件、何时该使用何种工具收集哪些数据、使用时应重点关注的点等,并不熟悉。因此,难以看清形式上复杂的数学公式中关键变量和参数所代表的实际意义,难以真正达到使用统计学方法的目的。本文第一部分综述美国的法规政策要求。第二部分综述常用的统计学方法。第三部分综述现阶段常见的统计学应用。1涉及的法规政策2002年8月,美国食品药品管理局(FDA,Food and Drug Administration)启动了“21世纪药品生产质量管理规范(CGMP,Current Good Manufacturing Practice)”计划6。此后,FDA相继采纳发布了人用药品注册技术要求国际协调会(ICH,International Conference on Harmonization)指南Q8药品开发7,Q9质量风险管理8和Q10药品质量体系9,最终于2011年发布了工艺验证:一般原则与规范指南10(后文简称“工艺验证指南”)。Q8中提到,“保证药品质量不能依靠检验,而应当将质量设计于药品之中”。Q9中建议,“使用统计学工具支持和促进质量风险管理,帮助做出更可靠的决策。”Q10中建议,“生产企业应当运用统计学工具,识别影响工艺性能和产品质量的变异(variation)来源,持续改进地减少或控制变异”。工艺验证指南将“工艺验证”的概念重新定义为,“收集和评估从工艺设计到商业化生产全过程的数据,用于建立科学的证据,保证工艺有能力持续地生产出质量有保障的产品”。这些行动表明,美国的药品质量监管政策正在从传统的“检验合格”11(test to compliance)转向“质量源于设计”(QbD,Quality by Design),重视在药品开发和生产中使用量化的证据。这样的转变将促使统计学的应用形成规范,而非企业的自由实践。美国联邦法规(CFR,Code of Federal Regulations),FDA发布的行业指南和采纳发布的ICH指南,以及美国药典(USP,The United States Pharmacopeia)发布的标准均涉及统计学方法的建议和要求。CFR第21卷21012、21113部分(21 CFR 210211)CGMP是联邦食品、药品和化妆品法案(FDCA,Federal Food, Drug, and Cosmetic Act)第501(a)(2)(B)和701(a)条授权下具有法律约束力的行政规章,法规中直接提到对稳定性研究和有效期确定、分析方法验证、中间控制和放行标准制定、工艺和质量监测、取样等方面的统计学要求14。FDA发布的行业指南是CGMP法规的实施指导。FDA发布的指南和采纳发布的ICH指南涉及配方和工艺优化、稳定性研究和有效期确定、分析方法验证、中间控制和放行标准制定、工艺和质量监测和取样等方面的统计学要求。其中,工艺验证指南建议工艺验证团队中包含统计学人员,“强烈建议”企业应用统计学等客观度量方法识别和刻画变异,在工艺验证方案中描述用于分析收集数据的统计学方法,定义批内和批间变异的统计学指标。USP的标准制定也有统计学考虑。美国药典委员会下设统计学专家委员会,负责开展药典附录的编纂工作,帮助药典使用者正确地运用统计学工具处理数据,不断改进和完善现有附录中与统计学数据处理相关的附录,确保药典中所有标准的制定和更新都建立在可靠的科学和统计学原则之上,并为其它专业委员会提供统计学及生物统计学方面的支持15。表1 各应用方面的监管要求、主要法规政策和常用统计学方法应用方面监管要求主要法规政策常用统计学方法配方和工艺优化在配方和工艺开发中运用试验设计的方法理解产品和工艺。确定物料属性和工艺参数与关键质量属性的关系,系统地识别变异来源FDA指南工艺分析技术ICH指南Q8(R2)ICH指南Q11试验设计稳定性研究和有效期确定样本量和检验间隔基于统计学标准,以保证对稳定性合理的估计21 CFR211.166ICH指南Q1A(R2)ICH指南Q1DICH指南Q1EICH指南Q5C试验设计分析方法验证证明和记录检验方法精密度、灵敏度、专一性和重复性21 CFR211.165ICH指南Q2(R1)试验设计中间控制和放行标准制定合理的中间控制质量标准应当运用恰当的统计学方法确定,放行标准应保证药品批次满足恰当的质量标准和统计质量控制标准21 CFR211.11021 CFR211.165USP 37统计工艺控制验收取样工艺和质量监测收集物料、中间产品和成品的质量数据,通过统计工艺控制方法持续监控工艺趋势,评价工艺能力21 CFR211.110FDA指南工艺分析技术FDA指南药品CGMP法规的质量体系方法FDA指南工艺验证ICH指南Q8(R2)统计工艺控制取样方案取样容器数和每个容器应取的物料量,应当依据恰当的标准,如变异性、置信区间、精确度等统计学标准21 CFR211.84FDA指南工艺验证验收取样1.1配方和工艺优化FDA工艺分析技术创新药品开发、生产和质量保证的框架指南16建议,对于配方和工艺的知识来自于对多因子关系的科学理解,可以得益于运用多变量数学方法,如试验设计,响应曲面等方法。数学关系和模型知识的适用性、可靠性可以通过对模型预测能力的全面统计学评估得到。ICH指南Q8(R2)药品开发提出“质量源于设计”的理念,建议在配方和工艺开发中运用试验设计的方法理解产品和工艺。Q11原料药开发和生产17建议,通过试验设计的方法识别和确定物料属性和工艺参数与关键质量属性的关系,系统地识别变异来源。1.2稳定性研究和有效期确定21 CFR211.166小节“稳定性研究”要求,“样本量和检验间隔应当基于统计学标准,以保证对稳定性合理的估计。”ICH指南Q1A(R2)18新原料药和制剂的稳定性研究,Q1D19括弧法和矩阵法设计应用于新原料药和制剂的稳定性研究,Q1E20评估稳定性数据和Q5C21生物技术产品的质量:生物技术产品和生物制品的稳定性研究均涉及稳定性研究的统计学考虑。1.3分析方法验证21 CFR211.165小节“成品检验和放行”要求,“证明和记录分析方法的精密度、灵敏度、专一性和重复性”。FDA治疗性蛋白免疫原性分析方法开发指南草案22中建议,应当采用统计学方法,通过阴性对照样本确定分析方法的临界点。生物分析方法验证指南草案23建议,响应方程通过恰当的统计学检验。药品和生物制品的分析流程和分析方法验证指南草案24建议,运用统计学方法分析验证数据、对比分析方法。ICH指南Q2(R1)分析方法验证:文本和方法论25涉及分析方法验证的统计学考虑。1.4中间控制和放行标准制定21 CFR211.110小节“中间产品和成品取样和检验”要求,“合理的中间控制质量标准应当与药品最终质量标准一致。如果可能,应当由历史中可接受的工艺均值和变异估计得到。适用时,应当运用恰当的统计学方法确定。”211.165小节“成品检验和放行”要求,“质量部门的取样和检验的接受标准应恰当地保证药品批次满足每一项恰当的质量标准和统计质量控制标准,作为批准放行的条件。统计质量控制标准应当包含恰当的接受水平和(或)拒绝水平。”USP 37凡例中说明,“个论、附录和凡例有关的标准,从药品生产到有效期期间的所有时间都适用。生产者的质量标准,CGMP实践(包括诸如质量源于设计的提议)都必须保证药品在有效期内符合药典标准。也就意味着,药典收录的药品一旦经过药典流程检验,必须符合标准以表明合规。尽管有时药典标准涉及统计学流程,取多个样本,通过顺序的流程设计确定被测样本是否符合标准,但所有情况下,关于是否符合药典标准的结论都只适用于被检验的样本。检验的重复,统计学拒绝异常值,将检验结果外推到更大范围,合适的批检验频率,都不在USP中论述。企业可以根据药品特征,制定适合于风险的中间控制和放行标准,在一定的置信度上保证药品凡经检验,都符合标准。”261.5工艺和质量监测21 CFR211.110小节“中间产品和成品取样和检验”要求,“应当建立书面的中间控制规程,对每批产品的中间物料取样检验,监测可能对中间物料和药品质量属性带来变异工艺。”FDA工艺分析技术创新药品开发、生产和质量保证的框架指南建议,多变量统计工艺控制可以发挥实时测量的优势。药品CGMP法规的质量体系途径指南27建议,通过统计工艺控制方法持续识别和评估工艺趋势。正电子放射断层造影剂CGMP指南28建议,恰当的实验室控制可以采用统计工艺控制的方法对质量属性连续地监测。工艺验证指南建议,在日常生产中持续地收集相关工艺趋势,物料、中间产品和成品的质量数据,由经专门训练的人员负责统计学趋势分析并审核。建议由统计学家或受过充分的统计工艺控制技能训练的人员制定数据收集方案和用于衡量工艺稳定性和工艺能力的统计学方法和流程。ICH 指南Q8(R2)药品开发指南建议,在生产中运用统计工艺控制的方法监测生产工艺。Q9质量风险管理列出建议使用的常用统计学工具,包括控制图,工艺能力分析等。1.6取样方案21 CFR211.84小节“物料取样和检验”要求,“取样容器数和每个容器应取的物料量,应当依据恰当的标准,如成分变异性、置信区间、精确度等统计学标准。”FDA工艺验证指南中建议,取样样本量应足以达到充分的统计学置信程度,保证批内和批间质量。2常用统计学方法试验设计(DoE,Design of Experiments)、统计工艺控制(SPC,Statistical Process Control)和验收取样(acceptance sampling)分别是“质量源于设计”,“质量源于生产”和“质量源于检验”三个质量管理阶段的主要统计学方法。2.1试验设计试验设计是“质量源于设计”阶段常用的质量管理方法,用于研究影响因子(factor)和响应变量(response)的关系。试验中干扰因子的存在使得即便将影响因子控制在相同水平,试验结果也无法精确重复。干扰因子可分为三类,第一类是可测且可控的干扰因子,例如在研究工艺参数对质量属性的影响时,原料批间差异的干扰。这类干扰可以通过区组设计等方法排除。第二类是可测而不可控(不论是技术原因还是成本考虑)的干扰因子,例如压片室环境湿度的变化。这类干扰可通过协方差分析等方法排除。第三类是不可测或不可知的干扰因子,可以看作工艺各个步骤中许多微小扰动引起的试验结果的随机波动。试验设计方法用于在干扰因子的存在下,用尽量少的试验数,得出影响因子与响应变量关系尽量可靠的结论。试验设计按目的通常可分为两个阶段,第一阶段为因子筛选(screening)试验,用形式简单而精确度较低的数学模型,通过较少试验从候选因子中筛选出少数对响应变量有显著影响的重要因子。第二阶段为响应曲面(response surface)的刻画(characterization)试验,用较为复杂的数学模型,得到这些重要影响因子与响应变量较为精确的函数关系。本节综述试验设计的基本原理和常用的设计29303132。2.1.1基本原理试验设计的基本原理是用经验模型近似影响因子和响应变量之间的真实函数关系。在经验模型中引入随机波动后成为统计模型。统计模型在一些前提假设上得到的统计学性质,用于指导试验点的选取,估计经验模型的参数并评估估计的精确性,评价经验模型选取的恰当性。当影响因子为连续型变量时,经验模型可以用连续函数表示,用回归分析等统计学方法求解。而当影响因子为非连续型变量时,经验模型不是连续方程,需要用方差分析等统计学流程解决。A.连续型变量试验设计研究因子x1(例如,压片速度)和x2(例如,压片压力),对响应变量y(例如,30分钟溶出度)的影响。控制其余条件不变,影响因子x1,x2和响应变量y的关系可以用函数y=g(x1, x2)表示。一般地,y和f个因子的相关关系,可以用函数y=g(x1, x2., xf)表示。多数情况下,真实的函数关系未知,需要选取恰当的函数形式近似。最简单的经验模型只包含常数项和一次项系数: (1)其中,n是试验数。xij称为第i个试验中第j个因子的取值水平,共f个因子。y1是对应的响应变量取值。参数0和j分别是经验模型的常数项和一次项系数,共p=f 1个参数。将随机波动记作随机误差i,(1)式改写为统计模型:(2)用矩阵形式表示:(3)其中,X是(np)矩阵,y是(n1)向量,是(p1)向量,是(n1)向量。当i服从互不相关的、均值为零且方差Var(i)=2的统计分布时,可求得的最小二乘估计:(4)由n个试验的观测值计算得出,是随机向量,即在相同条件下重复n个试验,将得到新的值。的协方差矩阵Cov( )衡量重复试验中得到的估计值 在真实值附近的波动大小: (5)在随机波动大小2确定时,的协方差矩阵仅依赖于矩阵X,即试验设计中各因子水平的选取,不依赖于试验结果。下文将介绍的常用设计中因子水平的选取原则,均以的协方差矩阵为基础。特别当(XTX)为对角矩阵时,参数的估计值之间相互独立,称设计具备正交性(orthogonality)。进一步当i服从正态分布时,j服从正态分布,可以构造参数j的置信区间,评价估计的精确度。也可以利用假设检验(一次试验得到的估计值j是否比给定的边界值更极端,以至于不太可能在j=0成立时得到)、计算p值(在j=0成立时,出现比一次试验得到的估计值j更极端结果的概率)等统计学流程,检验参数估计值的统计学显著性。参数j统计学显著意味着有信心认为因子有不为零的效应(j0 ),效应大小是否有实际意义则需要结合实情判断。得到估计值 后,可以预测响应变量y在某点x=x0处的平均响应 = 。预测值是随机变量,服从均值为,方差为的正态分布。可以构造y(x0)的置信区间(又称为“预测区间”),评价模型在x=x0处预测平均响应值的精确度。预测精确度也是评价试验设计的重要指标。注意,如果i背离互不相关性或零均值、同方差前提,估计值将存在系统偏倚(bias)。如果i背离正态性前提,置信区间、统计推断和预测区间等结论将不可靠。在得出结论前应当先检验模型假设的符合性。在一些不符合的情形下,可以尝试数据变换33、改用更复杂的线性模型34或改用广义线性模型35等修正措施。B.非连续型变量的试验设计研究因子A(例如,填充剂类型,乳糖、磷酸钙和微晶纤维素)和B(例如,压片机型号,甲、乙和丙),对响应变量y(例如,30分钟溶出度)的影响。由于A和B是非连续型变量,不能用连续函数表示与A和B的关系,常用效应模型表示:(6)其中,n是A和B所有水平组合的试验的重复次数。yijk是响应变量在第k次重复中,因子A在第i水平,因子B在第j水平时的取值。参数称为总均值效应。参数i称为因子A在第i水平的主效应,共a水平。参数j称为因子B在第j水平的主效应,共b水平。参数()ij称为i与j的交互效应(interaction)。多于两因子的效应模型类似地包含总均值效应、主效应、交互效应和随机误差项。当随机误差ijk服从互不相关的、零均值且同方差2的正态分布时,可求得各参数的最小二乘估计。方差分析(ANOVA,ANalysis Of VAriance)等方法可以检验因子效应的统计学显著性,评价估计的精确度。在得出结论前同样应当先检验模型假设的符合性。当因子有确切的取值水平时,称模型为固定效应模型(fixed effect model)。当因子的取值水平随机,称模型为随机效应模型(random effect model)。两类模型的统计学流程和解释均有差异。固定效应模型的结论只适用于参与研究的水平,而随机效应模型的结论可以外推到随机选取的任意水平,并可以通过方差成分分析(variance component analysis)方法计算模型中各因子变异和随机误差分别对总变异的贡献。例如,研究乳糖、磷酸钙和微晶纤维素三种填充剂类型的试验,适用于固定效应模型,结论只适用于参与研究的三种填充剂;而任选三个批次用于稳定性研究,适用于随机效应模型,结论可以外推到随机选取的其它批次。2.1.2因子筛选设计因子筛选试验通过形式简单而精确度较低的经验模型,从候选因子中筛选出少数对响应变量有显著影响的因子。因子为连续型变量时,通常采用带常数项、一次项和交互效应项的经验模型:(7)参数0,j,jk和jkl等分别是经验模型的常数项、一次项系数、一阶交互效应项系数和高阶交互效应项系数,共p=2f个。参与研究的因子一般多于两个,因子取值一般仅两水平,所需试验数相对少。筛选试验的经验模型与真实函数的近似度不高,不宜用于预测响应变量的取值。A.两水平全析因设计两水平全析因设计(2fFD,Factorial Design)适用于因子数较少的筛选试验,试验包含f个因子两水平取值的全部组合,试验数n=2f。以三因子两水平全析因设计(23设计)为例,23设计共需要n=23=8个试验,研究空间(各因子水平取值范围的几何表述形式)呈立方体,试验点(一次试验中,各因子水平的几何表述形式)是立方体的各顶点,如图1。取值-1和 1分别代表因子的低水平和高水平值。在试验设计中使用规范变量-1和 1对应于自然变量,一方面可以避免由于物理单位不同带来的干扰,另一方面规范变量更容易保证正交性。图1 23全析因设计的几何表述带交互效应项的线性模型共2f个参数,而2f个试验只能求得一组确切的参数,无法估计随机误差i,判断各参数估计值的统计学显著性。通过添加中心点、重复2f个试验等手段可以得到随机误差的估计,但不引入额外试验的统计分析仍然可行,而且广泛应用。效应稀疏原则36(sparsity of effect principle)假定模型中不为零的参数应当占少数,而其余本应为零的参数之所以在一次估计中显现出接近零而不为零的数值,是随机误差的体现,可用于估计随机误差。正态概率图、半正态概率图等定性方法结合定量方法,可以用于推断各模型参数的统计学显著性。B.两水平分式析因设计两水平分式析因设计( 2f-rFFD,Fractional Factorial Design)通过一套运算规则,将全析因设计分成2r组,每组试验数为全析因设计的1/2r。试验实际进行的组数和各组的优先顺序取决于对具体问题的理解和已经得到的试验结果。以23-1FFD为例,选取因子A,B,C取值乘积为 1的一组试验,这组试验数为23试验的一半,称为生成元(generator)为I= ABC的主分式,几何表述如图2实心点。而生成元I=-ABC的设计称为I= ABC的互补(complementary)分式,几何表述如图2空心点。图2 23-1全析因设计的几何表述实心点:主分式I= ABC;空心点:互补分式I=-ABC带交互效应项的线性模型共2f个参数,而2f-r个试验不可能求得一组确切的参数。FFD方法将模型中的参数按一定模式相互混淆(confound),常用分辨率(resolution)的概念评价模型一次项系数和一阶交互项系数的混淆程度。如果有把握确信部分参数的统计学显著性,则可以得到对其余参数的粗略估计。如果主分式的结果不足以得到明朗的结果,可以根据已开展试验的混淆模式,有针对地选择互补分式序贯地开展试验,消除不明朗的混淆。C. Plackett-Burman设计Plackett-Burman设计(PBD,Plackett-Burman Design)37通过构造正交矩阵的方法,选取全析因设计中的部分试验,允许在试验数n为四的倍数时(如 n=4,8,12,16,20,24),研究至多n-1个因子的效应。当n=2k=2f-r时,PBD等价于2f-r的FFD,所以PBD的应用场景在n=12,20,24,28,36的情况。例如,36个试验的PBD可用于32、33、34和35个因子的筛选试验,但31因子的筛选试验则适用于231-26的FFD。PBD要求的试验数少,保证一次项系数的正交性。等价于选用最简单的公式(1)模型来近似真实函数,精确度低。2.1.3响应曲面刻画设计从筛选试验中得到对响应变量有显著影响的因子,将其中的类别型变量(如果有)取值固定在有利水平,而连续型变量参与响应曲面刻画试验,在指定的预测精确度要求下,得到这些因子与响应变量的函数关系。响应曲面刻画试验设计与筛选试验设计的原理相同,并且可以在筛选试验的基础上序贯进行。响应曲面刻画试验的经验模型更为复杂,常采用带常数项、一次项、一阶交互效应项和的二阶响应曲面模型:(8)参数0,j,jk和jj分别是经验模型的常数项、一次项系数、一阶交互效应项系数和二次项系数,共p=(f23f 2)/2个。参与研究的因子一般为两到三个,因子取值水平多于两水平,所需试验数相对较多。响应曲面刻画试验的经验模型在研究空间内更接近真实函数,在评价预测误差后,可将模型用于预测研究空间内指定点处的平均响应,但不宜将模型适用性外推到研究空间之外。A.多水平全析因设计多水平全析因设计(LfFD)包含所有因子各水平取值的全部组合,试验数n=Lf。以三因子三水平全析因设计(33设计)为例,33设计共需要n=33=27个试验,研究空间呈立方体,试验点是各因子低(-1)、中(0)、高( 1)三水平取值的组合,如图3。图3 33全析因设计的几何表述多水平全析因设计的主要优点是正交性,缺点是试验规模庞大。例如,33设计的模型共10个参数,用27个试验估计10个参数,不经济。B.中心复合设计中心复合设计(CCD,Central Composite Design)是最常用的响应曲面刻画设计,可由一个两水平的全析因设计(2f个试验)序贯产生。在两水平的全析因设计中加入星点设计(star point,又称为“轴点”,2f个试验)和nc个中心点,试验数n=2f2f nc。星点设计的试验点在穿过中心点的各因子轴上,取值水平为-和 ,|=1时,设计称为中心复合表面设计(FCCD,Face-centred CCD)。|=(2f)1/4时,设计称为可旋转的中心复合设计(RCCD,Rotatable CCD)。以三因子的CCD为例,CCD包含23全析因设计,试验点是各因子低(-1)、高( 1)两水平取值的组合。星点设计在穿过中心点的各因子轴上,取值水平为-和 。|=1时为FCCD,几何表述如图4A。|=23/4时为RCCD,几何表述如图4B。RCCD的优点是,对于研究空间内所有与中心点等距的试验点,响应变量的预测方差相等。而缺点是每个因子有五个试验水平,相比FCCD复杂。图4 三因子中心复合表面设计和可旋转的中心复合设计的几何表述A:中心复合表面设计;B:可旋转的中心复合设计C.三因子Box-Behnken设计三因子Box-Behnken设计38(BBD,Box-Behnken Design)试验点位于23全析因设计所构造的立方体棱的中点,加上nc个中心点,试验数n=12 nc。图5展示了三因子的BBD的几何表述。当立方体顶点处因条件限制不能作为试验点时,BBD就显示出优势。图5 三因子Box-Behnken设计的几何表述D.均匀外壳设计均匀外壳设计39(USD,Uniform Shell Design)又称为“Doehlert设计”,常见两因子和三因子的USD。两因子USD的试验点在研究空间内呈正六边形,试验数n=7。而三因子USD的试验点呈立方八面体,试验数n=13。图6展示了两因子USD的几何表述。以正六边形外接圆圆心为试验中心点。中心点与外接圆上所有试验点等距,且圆上所有试验点之间等距。三因子USD具有类似性质。图6 两因子均匀外壳设计的几何表述和研究空间拓展优势的示意图USD的优点在于,其研究空间易向多个方向拓展,而不用重新开展所有试验。图6展示了两因子USD设计研究空间的拓展优势。向六个方向拓展,只需要做三个额外的试验。2.1.4最优设计前文介绍的经典设计,试验点在研究空间内均有固定的分布样式。当实际情况限制使用任何经典设计时,可以从研究空间中可行的候选试验点中选取部分开展试验。一些统计学标准提供了选取试验点的依据,这些设计被称为最优设计(OD,Optimal Design)。其中,D-最优设计40最常见,遵循D-最优标准的设计对模型参数的估计有最大的“整体精度”。的联合置信区间衡量估计值的精确度。在给定置信度下,的联合置信区间边界,对于两个参数为椭圆(图7),对于三个参数为椭圆体,对于三个以上参数,可想象为高维空间中的超椭圆体。超椭圆体体积衡量参数估计的整体精度。图7 2个参数数在一次估计中构造的联合置信区间示意图A:参数估计值间独立(正交);B:参数估计值间相关(非正交)在其余条件不变时,超椭圆体体积的平方正比于矩阵(XTX)-1的行列式|(XTX)-1|。从研究空间中的候选试验点中选取n个试验点,其中使得|(XTX)-1|最小的组合称为试验数为n时的D-最优设计。D-最优设计常用于因子筛选和响应曲面刻画。2.1.5混料设计在混料设计41(MD,Mixture Design)中,因子为各成分占比。各成分占比不能在研究空间内自由取值,代数和应为100%。如果对各成分占比没有单独的约束,则最常用单纯型混料设计42(SMD,Simplex Mixture Design,又称为“Scheffes设计”)。对于f个成分,SMD研究空间可以用(f-1)维空间的正f面体表示。例如,两成分的研究空间为一条线段,三成分为正三角形,四成分为正四面体。图8展示了三成分混料设计几何表述的坐标系统。正三角形顶点代表单一成分,三边代表两种成分的混合,正三角形内任意点代表三种成分的混合。混合物中某成分的占比等于试验点到该成分顶点对边的距离与正三角形高之比。图8 三成分混料设计几何表述的坐标系统SMD根据试验点的选取规则可分为两类,单纯型网格设计(simplex lattice design)和单纯型重心设计(simplex centroid design)。f个成分的f,m单纯型网格设计的试验点由每个成分以下占比的所有可能的组合构成,共n=(f m-1)/m!(f-1)!个试验点。如3,2的单纯型网格设计,六个试验点分别为:图9A展示了3,2单纯型网格设计的几何表述。f个成分的单纯型重心设计有2f-1个试验点,对应(1,0,.,0)的f个组合, 的 个组合,的个组合,以此类推,最后一项为重心 。图9B展示了f=3的单纯型重心设计的几何表述。图9 三成分单纯型网格设计和单纯型重心设计的几何表述A:3,2单纯型网格设计;B:f=3单纯型重心设计混料设计常用的经验模型包括:一阶模型:(9)二阶模型:(10)完全三阶模型:(11)特殊三阶模型:(12)所有模型均包含的约束。成分筛选时可使用一阶模型等简单模型,而成分刻画则应当选取精度更高的高阶模型。如果各成分占比有单独约束,例如设定每个成分占比的上下限,常根据个案,用极端顶点设计(extreme vertices design)和D-最优设计等方法选取试验点。2.1.6试验设计的其它考虑点尽管一些计算机软件可以辅助生成试验设计方案、分析试验结果,但影响试验结论可靠性的一些关键因素取决于试验设计者而非软件,这些因素包括对配方和工艺中具体问题的理解,选取合适的响应变量、影响因子和研究空间,并选择恰当的模型和设计方案。2.1.1至2.1.5小结综述了试验设计的基本原理以及经典的模型和设计,但可选用的模型、设计和方法论不限于此。如调优运算理论4344(evolutionary operation)主张可以不专门开展试验,通过正常生产中对影响因子有计划地微小调整,估计出因子的效应。超饱和设计45(super-saturated design)允许试验数少于需要估计的参数个数,得出对参数尽量可靠的估计。需要同时优化多个响应变量时,可以用满意度函数46(desirability function)等方法。试验中如果存在的可测且可控的干扰因子,区组设计(blocking)可以检验和排除干扰,经典的区组设计包括成组t检验(paired t test),随机化完全区组设计,拉丁方设计,希腊-拉丁方设计,平衡不完全区组设计,嵌套和裂区设计等(nested and split-plot design)等。试验中如果存在的可测而不可控的干扰因子,协方差分析(ANCOVA,ANalysis of COVAriance)等方法可用于检验和排除干扰47。2.2统计工艺控制统计工艺控制是“质量源于生产”阶段常用的质量管理方法。生产过程中始终存在生产工艺和产品质量的波动,这些波动可分为固有的自然波动,和因物料不良、人员疏失、机械故障等引起的异常波动。控制图(control chart)是统计工艺控制的核心方法,用于监测和识别异常波动,指导人为调查干预或自动反馈控制,使工艺保持在仅有自然波动的受控状态,并促使工艺能力持续改进。控制图理论最早于20世纪20年代由Shewhart提出,一系列原理类似的控制图被统称为Shewhart控制图。本节综述Shewhart控制图的基本原理,以及常用的Shewhart控制图和复杂控制图。2.2.1基本原理Shewhart控制图的原理是基于样本的统计推断,核心思想是方差分析。例如,考察经压片工艺得到的片芯重量 y(g),假设片芯重量符合统计模型:(13)其中,a是取样次数,n是每次取样的样本量。xij是第i时刻取样的第j片片芯重量。是稳定工艺下的总平均片重。i是第i时刻工艺相对于的偏移量。i是随机误差项。如果取样的各个时刻没有发生异常波动,则不同时刻的样本之间,片重平均值的波动应当是自然波动以取样误差形式的体现,可以通过方差分析等方法检验。控制图理论是上述统计模型的可视化表现和发展。建立控制图的一般流程为:(1)确定控制图类型、控制的参数h(例如样本中片重的平均值、方差、标准差、极差等)、取样间隔t、取样次数a和每次取样的样本量n;(2)开展生产,按取样方案取样、检验并记录结果(或从历史数据中得到);(3)按照规程计算中心线(CL,Central Line)、控制下限(LCL,Lower Control Limit)和控制上限(UCL,Upper Control Limit);(4)检查是否有任何点超出控制限,或显现出有规律的图样48,从而揭示可能的异常波动和异常趋势。调查确定异常波动的发生及来源,去除超出控制限的点后,重新计算CL,LCL和UCL;(5)重复(4),直到所有点落在控制限内,完成控制图的建立;(6)用建立的控制图监测工艺,如果后续点不存在异常波动或异常趋势,则称工艺处在“统计工艺受控状态”。控制图理论以取样和统计推断为基础,无法避免两类统计学错误发生。第I类错误是误报错误(又称假阳性、生产者风险),即某次取样得到超出控制限的结果,但实际上工艺并无异常情况发生。得到超出控制限的结果完全是由取样误差引起的极端偶然事件,这一类错误将耗费调查异常情况的资源,将发生率记作。第II类错误是漏报错误(又称假阴性、消费者风险),即虽然已经发生异常情况,参数h发生了大小为h的偏离,但取样仍然有可能得到在控制限内的结果。这一类错误可能给下游生产和最终消费者带来质量风险,将发生率记作。对于正态分布的i,实践中常根据“3控制限”的原则建立控制限,即将控制上下限设定在距离中心线3处,此时有确定的误报率0.0027。应当根据对产品和工艺的认识、质量属性的关键程度,选择恰当的取样间隔t、取样次数a和样本量n制定控制图,将两类统计学错误控制在与风险相适应的合理范围内。2.2.2控制图A. Shewhart控制图Shewhart控制图适用于监测较大工艺漂移(1.5 ),根据样品检验结果的变量类型可分为连续型变量的Shewhart控制图(表2)和类别型变量的Shewhart控制图(表3)。表2 监测连续型变量、较大工艺漂移常用的Shewhart控制图类型观测参数样本量统计分布-R一次取样检验中工艺或质量指标观测值的均值和极差通常1n10(渐近)正态分布-s一次取样检验中工艺或质量指标观测值的均值和标准差通常n10(渐近)正态分布I-MR一次取样检验中工艺或质量指单独观测值和移动极差n=1正态分布表3监测类别型变量、较大工艺漂移常用的Shewhart控制图类型观测参数样本量统计分布p一次取样得到的n个样品中,不合格样品百分比n1 样本量可变二项分布,渐近正态分布np一次取样得到的n个样品中的不合格样品数n1 样本量固定二项分布,渐近正态分布c一次取样得到的n个样品中的缺陷个数,一个样品可以存在多个缺陷n1 样本量固定泊松分布,渐近正态分布u单位样本量的缺陷个数,一个样品可以存在多个缺陷n1 样本量可变泊松分布,渐近正态分布B.其它控制图累积和控制图49(CuSum,Cumulative Sum)和指数加权移动平均控制图50(EWMA,Exponentially-Weighted Moving Average)用于监测微小工艺漂移51(1.5 ),正日益受到重视。两种方法不仅计算当前样本的观测值,还将历史样本的观测值累积考虑,故对微小工艺漂移的监测比Shewhart控制图更加敏感,但对较大漂移和个别异常点而言,CuSum和EWMA控制图不如Shewhart控制图有效。对于随机误差互不独立的自相关参数,可根据自回归移动平均模型(ARIMA,Autoregressive Integrated Moving Average model)等时间序列模型,或移动中心线指数加权移动平均控制图(MC-EWMA,Moving Center-line EWMA)等方法建立控制图52。对于多个相互相关的变量,可以采用多元控制图方法同时控制。多元控制图是Shewhart控制图的推广形式,基于随机向量X服从多元正态分布的假设,用类似的统计学方法可以得到相应的多元均值控制图(Hotelling T2控制图)、广义方差(generalized variance)控制图5354、多元单值控制图55、多元CuSum控制图56和多元EWMA控制图57等。在变量数目多且相关关系复杂的情况下,可以先通过主成分分析等降维方法,构造相互独立的隐性变量(latent variable),再根据隐性变量的统计分布建立控制图。多元控制图的可靠性通常需要大量数据的支持,适用于能够在线测得大量数据的情形。2.2.3工艺能力工艺能力(process capability)衡量生产工艺满足质量标准的能力,常用工艺能力指数(process capability index)和工艺性能指数(process performance index)等指标衡量58。A.工艺能力指数工艺能力指数又称短期工艺能力,常用Cp和Cpk两种。Cp衡量质量标准限宽度相对工艺自然波动的大小,计算公式为:(14)其中,LSL和USL分别是质量标准下限(LSL,Lower Specification Limit)和质量标准下限(USL,Upper Specification Limit)。是工艺自然波动的标准差。当工艺均值处在质量标准中心线时,Cp值与工艺理论不合格率对应。Cp=1意味着质量标准限在工艺均值上下3的位置,即与控制图的3控制限重合,对应理论不合格率2700ppm(百万分之,part per million)。Cp=2意味着质量标准限在工艺均值上下6的位置,对应理论不合格率0.0018ppm,是所谓的“6质量”。由于未知,用a次取样得到的a个样本内标准差或极差的平均值加以修正估计。得到工艺能力指数的估计值,(15)注意,是随机变量,服从特定的统计分布,所以不仅应当报告Cp的估计值,还应当通过构造Cp的置信区间等方法报告估计的精确度。还应当注意,Cp指标能够反应真实工艺能力的前提是,工艺均值处在质量标准中心线,工艺处在统计学受控状态,且质量属性的单个观测值服从正态分布。在工艺均值偏离质量标准中心线时,Cp与理论不合格率没有对应关系,不能反映真实工艺能力,可以看作将工艺均值调整到质量标准中心线后潜在能够达到的工艺能力。当不满足统计受控和正态分布前提时,Cp指标将不能提供对真实工艺能力的估计,和对未来工艺能力的预期。在质量标准中心线和控制图中心线不重叠时,可以用Cpk衡量工艺能力:(16)其中,是工艺均值,是工艺自然波动的标准差。同样注意,不仅应当报告Cpk的估计值,还应当报告估计的精确度。Cpk指标能够反应真实工艺能力的前提是,工艺处在统计学受控状态,且质量属性的单个观
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025四川乐山市沐川县招聘城镇公益性岗位人员9人笔试参考题库附答案解析
- 2025-2026学年广东佛山市南海区丹灶镇中心小学招聘短期临聘教师2人考试备考试题及答案解析
- 有关it专业的毕业论文
- 文化传播公司项目执行流程手册
- 人事专员专业毕业论文
- 2025四川泸州泸县医疗卫生辅助岗项目人员招募25人笔试模拟试题及答案解析
- 升庵中学2025年秋季学期招聘考试备考题库及答案解析
- 2025甘肃庆阳市庆城县县直事业单位选调10人笔试参考题库附答案解析
- 2024年教研教学工作总结范例(二篇)
- 园林绿化施工承包合同
- GB/T 4950-2021锌合金牺牲阳极
- 中日关系历史
- GB/T 15171-1994软包装件密封性能试验方法
- 2023年江苏省中学生生物学竞赛(奥赛)初赛试题和答案
- 信息系统运维服务方案
- 化工试生产总结报告
- 导数与原函数的对称性 微专题课件-2023届高三数学一轮复习
- DB32-T 3129-2016适合机械化作业的单体钢架塑料大棚 技术规范-(高清现行)
- 中西医结合肿瘤医院员工手册
- 健康教育学【完整版】
- 《第23章旋转》单元测试含答案解析
评论
0/150
提交评论