药品数据统计分析与应用_第1页
药品数据统计分析与应用_第2页
药品数据统计分析与应用_第3页
药品数据统计分析与应用_第4页
药品数据统计分析与应用_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

药品数据统计分析与应用一、导言1、我们面临大数据时代的挑战数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素,人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。麦肯锡大数据时代已经降临,在商业、经济及其它领域中,决策将日益基于数据和分析而作出,项并非基于经验和直觉。纽约时报2、数据是实施 GMP 管理的支持数据是一各观测值,是实验、测量、观察、调查等活动中以数量的形式给出的结果。数据分析是企业有目的地收集数据、分析数据,使之成为信息的过程,这一过程是在产品的整个生命周期的支持过程;是实施 GMP 管理的支持,是建立并实施高质量的药品质量体系的支持过程。3、数据统计分析质量管理体系的支持过程(1)数据是信息的载体; (2)数据统计是数据转为信息的加工过程,统计技术是企业质量体系中的一个重要要素,分析数据,控制过程中的异常,坚持不懈地持续改进,提高产品质量,提升企业的核心竞争力。4、数据是企业的无形资产 掌握现状 工序调节 工序管理 检查和评价 分析和改进二、数据分析的有关基础知识1、数据分析的类型 描述性数据分析:是对一组数据的各种特征的分析,以便描述测量样本的各种特征及其所代表的总体的特征; 推断性数据分析:也叫探索性数据分析,是为了形成值得假设的检验而对数据进行分析的一种方法; 验证性数据分析:是对社会调查数据进行的一各统计分析。通过因子间的关系是否符合研究者所设计的理论; 2、定量数据的分类 计数值数据:不能连续取值的数据; 计量值数据:可以连续取值的数据; 差别:当数值是百分率时,取决于给出数值的数学式分子,分子为计量值,则求得的百分率是计量值;如分子为计数值,求得的百分率虽不是整数提也属于计数植。3、值得注意的概念 总体:指所要研究的对象的全体; 个体:指组成总体的每一个基本单位; 样本:从总体中随机抽出的一部分样品,样本中所包含榈数目称为样本大小,又叫样本量,常用 n 表示;4、数据的特征值位置特征值:子样平均值 1Xni了样中位数量 x差异特征量:极差 maxinRX标准差 2()1isn相对标准差 0%|SRDx实例 1对气相层析的实验人员进行技术考核,进样 10 次,每次 0.5ul,得色谱峰高(mm)为:142.1 147.0 146.2 145.2 143.8 146.2 147.3 150.3 149.9 151.8 =146.98 s=3.00 RSD=2.04%x结论:有经验的色谱工作人员很容易将 RSD 控制在 1%以内,可认为该实验人员的技术还不够稳定,操作不够熟练。5、数据分析的基础制药生产现场的数据是分析的基础,生产工序的稳定是收集可靠数据的前提,抓住生产现场的六大因素是生产的关键。6、数据分析的形式算一算:特征数看一看:动力变化比一比:统计值找一找:相关因素7、数据分析的前处理(筛选) 数值的修约(GB/T8170-2008)四舍六入五考虑,五后非零则进一,五后全零看五前,五前偶舍奇进一,不论数字多少位,都要一次修约成。 修约的位数:试验运算中,应比规定的有效数字多保留一位数,后根据有效数字的修约进舍至规定有效位。标准差一般按二位有效即可,最多保留小数点后二位。 数据筛选的方法(1) 按美国 EJ 鲍尔推荐的方法进行处理。步骤如下: 计算这群检测值的平均值; 计算极差 R; 计算可疑值 Xi 与平均值之差的绝对值,再用极差 R 除,得出 ti 与规定附表的临界值比较,若 ti比表上的 t 值大,则应弃去此可疑值。 附表如下:抛弃无效测量的临界伸值n 3 4 5 6 7 8 9 10 11 12 13 14 15 20t 1.53 1.05 0.86 0.76 0.69 0.64 0.60 0.58 0.56 0.54 0.52 0.51 0.50 0.46注:用分式 计算 t,如计算值超过表上的值时,则所调查的值是无效的,此概率约为|/RitX0.95。 ,实例 2某分析者对一样品检测,得:93.3% 93.3% 93.4% 93.4% 93.3% 94.0%,问:第六个结果有效吗?第 1 步:计算方法六个结果的平均值: =93.45%X第 2 步:计算极差 R=94.0=93.9=0.7第 3 步:计算可疑值与增均值之差的绝对值再用极差除: =(91.0-93.45)/0.7=0.79|/RitX第 4 步:与临界值 t=0.76( n=6)比较ti=0.79 t=0.76,说明 94.0%是一个离群数据,应舍弃。(2) G检验法(格鲁布斯法)步骤: 算出包括可疑值在内的平均值; 计算可疑值与平均值之差; 算出包括可疑值在内的标准偏差; 用标准偏差除可疑值与平均值之差得 G 值: i|X|S 查 G 的临界值表,若计算的 G 值大于查到的值,就可把可疑值舍弃。,查表 G(6,0.05)=1.89 ,所以这个值应舍去。|94.035|2.047Grubbs 检验法的临界值置信界限 置信界限测定次数95% 99%测定次数95% 99%3 1.15 1.15 15 2.55 2.814 1.48 1.50 16 2.59 2.855 1.71 1.76 17 2.62 2.896 1.89 1.97 18 2.65 2.937 2.02 2.14 19 2.68 2.978 2.13 2.27 20 2.71 3.009 2.21 2.39 21 2.73 3.0310 2.29 2.48 22 2.76 3.0611 2.36 2.56 23 2.78 3.0912 2.41 2.64 24 2.80 3.1113 2.46 2.70 25 2.82 3.1414 2.51 2.768、质量特性值的正态分布绝大多数质量特性值服从或近似服从正态分布。正态分布的中心点(均数)最高,然后逐渐向两侧下降,以均数为中心,两端对称,永远不会与 X 轴相交的钟形曲线。10、产品质量波动10.1 正常波动:同随机原因引起的产品质量波动,生产过程在控制中,呈稳定状态;10.2 异常波动:同系统原因引起的产品质量波动;引起波动的原因 5M1E:人、机、料、法、环、测,生产过程在失控中,呈不稳定状态。11、统计分析的两类错误和风险:第一类错误:把质量好的一批成品当作质量坏的一批成品去看待、处理的错误;:第一类错误的概率值,也叫第一类错误的风险率。第二类错误:把质量坏的一批成品当作质量好的一批成品去看待、处理的错误;:第二类错误的概率值,也叫第二类错误的风险率。12、药品抽样检验的风险:抽样检验是由样本的质量状况去推断总体的质量是要冒风险的。12.1 生产方风险(PR ):对于给定的抽样方案,当批产品或过程质量水平(如不合格品率)为某一指定的可接收值(如可接受质量水平)时的拒收的概率,即把质量好的批产品判为不合格,用 表示。12.2 使用方风险(CR):对于给的抽样方案,当批产品或过程质量水平为某一指定的不满意值(如极限质量水平)时的接收概率,即把质量差的批产品判为合格,使用方风险一般用 表示。13、关于样本13.1 样本要有代表性:要代表总体,如果做不到这一点,将导致对总体特性作出不良估计;13.2 样本也会产生误差:即使样本代表总体,但从样本得到的信息也会产生一定程度的误差,这种误差的大小可增大样本量来减小但却不能消除。14 百分比抽样的不科学性在百分比抽样中,在相同的批不合格品率的情况下,产品批量越大,则批的接收概率越小,产品批量越小,则批的接收率越大,即“大批量严,小批量宽” ,不能正确鉴别批产品的质量水平,所以,这是一种不科学的抽样检验方法,工业发达国家早已淘汰。三、GMP 实施中常用的数据分析工具1、描述性统计技术用来对统计数据进行整理和描述的技术。主要有:折线图、饼分图、因果图、树图、排列图。2、推断性统计技术:在统计数据描述的基础上立新功,对所反映的问题再进行分析解释和作出推断性结论的技术。主要有:控制图(分析用图) 、回归分析、假设检验。3、过程控制所用的技术:下次试验、过程能力、控制图(控制用图)4、常用质量分析图的应用序号 名称 作用1 折线图 直观地表现出数据的变化趋势2 饼分图 表示一个系统中各部分所占比率3 散点图 判断两个质量因素之间的相关性范围 机率0.67 50.00%1 68.26%1.96 95.00%2.0 95.45%2.58 99.00%3 99.73%4 因果图 分析原因与结果的关系,找到问题的原因5 树图 对主题构成因素进行系统分析展开6 排列图 寻找影响产品质量的主要问题7 控制图 判断生产过程是否异常及导致导常的因素4.1、散点图:又称相关图,是研究成对出现的两组相关为数据之间相关关系的简单图示技术。用来发现、显示和确认两组相关数据之相关关系,并确定其预期关系。370380390400410420430450460470480490500510520370380390400410420430450460470480490500510520 370380390400410420430450460470480490500510520 370380390400410420430450460470480490500510520370380390400410420430450460470480490500510520370380390400410420430450460470480490500510520 a 图 b 图 c 图d图 e图 f图表示随x增加,y随之明显增加的关系,称为强正相关,表明x与y关系密切表示随x与y之间没有什么关系,称为不相关。表示随x增加,y随之明显减少的关系,称为强负相关,表明x与y 关系密切表示随x增加,y基本上随之减少的关系,但不如d图强烈,称为弱负相关,表明除了y的影响外,还有其他因素表示随x与y之间有关系,但不是线性关系。表示随x增加,y基本上随之增加的关系,但不如a 图强烈,称为弱正相关,表明除了y的影响外,还有其他因素4.2 因果图:又名特性要因图,表示结果(特性)与原因(影响特性的要因)之影响情形或两者关系之图形。定性寻找引发结果的原因。质量特性人员机器测量 方法 材料4.3 排列图:又叫柏拉图。它是将质量改进项目从最重要到最次要顺序排列而采用确定主导因素的一种图表。100806040200 A B C D E100%80%60%40%20%0%问题原因公吨50%80%90%97%4.4 控制图:是地过程质量特性值的数据进行分析和判断工序是否处于稳定状态所使用的带有控制界限的图。从而监察过程是否处于控制状态的一种用统计方法设计的图。4.4.1 作用:对生产过程进行监控发现异常,及时告警;4.4.2 控制图的种类:分析用控制图控制用控制图4.4.3 其结构:中心线 CL= X上控制线 UCL= +3S下控制线 UCL= -3S4.4.4 控制图过程控制的核心手段(1)分析用控制图主要分析:所分析的过程是否处于统计控制状态; 该过程的过程能力指数是否满足要求,达到技术稳态。须将过程调整到技术稳态。(2)控制用控制图:当过程达到了所确定的状态后,才能将分析用控制图的控制线作为控制用限,进入日常管理后关键是保持所确定的状态。(3)控制界限就是区分偶然波动与异常波动的科学界限。柏拉图原理:关键的小数,次要的多数。分析:通常占总频数 80%以上的项目是主要问题,占总频数10%以上的项目是次要问题,余下的占总频数 10%左右的项目是更次要的一般问题。实例 3某制药厂生产链霉素年月的含量(%)控制如下表,分析本月的生产控制情况批号 1 2 3 4 5 6 7 8含量 97.24 97.31 97.67 97.80 97.89 97.96 97.06 97.90 移动极差 RS 0.07 0.36 0.13 0.09 0.07 0.90 0.84 批号 9 10 11 12 13 14 15 16含量 98.08 98.02 98.08 97.87 98.28 97.55 97.44 97.73 移动极差 RS 0.18 0.06 0.06 0.21 0.41 0.73 0.11 0.29批号 17 18 19 20 21 22 23 24含量 97.72 97.46 97.62 98.27 98.31 98.46 98.02 98.11 移动极差 RS 0.01 0.26 0.16 0.35 0.04 0.15 0.44 0.09控制图:minitab15232119171513119753198.598.097.597.0观 测 值单独值 _X =97.827UCL=98.557LCL=97.09723211917151311975310.80.60.40.20.0观 测 值移动极差_MR=0.274UCL=0.896LCL=06151含 量 X 的 I-MR 控 制 图结论:含量X 的单值控制图检验结果 检验 1。1 个点,距离中心线超过 3.00 个标准差。检验出下列点不合格: 7检验 5。3 点中有 2 点,距离中心线超过 2 个标准差(在中心线的同一侧)检验出下列点不合格: 2检验 6。5 点中有 4 点,距离中心线超过 1 个标准差(在中心线的同一侧)检验出下列点不合格: 24含量X 的 MR 控制图检验结果 检验 1。1 个点,距离中心线超过 3.00 个标准差。检验出下列点不合格: 74.4.5 控制图的判断有判稳和判异两种判断方法4.4.6 控制图判断的两类错误第类错误:弃真概率 (虚发警报)由于休哈特确定了 3 原则,所以弃真概率 =0.0027,数值很小。第类错误:取伪概率 (漏发警报)由于 =0.0027 数值很小,所以导致取伪概率 的数值很大。4.4.7 判断的概念 由于 =0.0027 数值很小(虚发警报的概率很小) 。所以在控制图中打 1 点超界就判异,置信度达99.73%,很可靠。 由于 数值很大(漏发警报的概率很大) 。所以,在控制图中打 1 点在界内就判稳,置信度很低,不可靠。但是 1,所以连续打 m 点进行判稳, 总 = m 数值很小,很可靠。 判稳准则在控制图中连续打 m 点,界外点数 d 时判稳(1)m=25, d 0,即,25 点不得出现一点在界外。(2)m=35, d 1,即,35 点允许出现一点在界外。(3)m=100, d 2,即,100 点允许出现两点在界外。4.4.8 判异准则的制定4.4.8.1 判异的理论基础是“小概率事件原理”小概率事件原理又称小概率事件不发生原理,其数学定义是:事件 A 发生的概率很小(如 0.01) ,现经过一次或少数次试验,事件 A 居然发生了,就有理由认为 A 的发生是异常。统计方法的应用是为捕捉异常先兆。因此,在应用前应确定小概率 ,小概率 实际是允许判断错误的概率,称为风险度、风险概率、风险水平或显著水平。根据被判断事物的重要度, 可取0.01、0.05、0.10 等。与风险度 相对应的是置信度(1- ) ,又称为置信概率、置信水平。由于风险度判稳稳定(正常)不稳定(异常)判异异常(不稳定)不异常(正常、稳定) 不可能为“0”,所以置信度(1- )不可能为 100%。4.4.8.2 判异准则的制订步骤(1)设定小概率 ,休哈特早期设定的小概率 点子超界 =0.0027 点子在界内排列不随机 =0.01,英国以没有作到等概率为由,一律 =0.01,休哈特后期设定的小概率,一律 =0.0027。(2)GB/T 4091-2001 idt ISO 8258:1991 标准制订的判断准则即为休哈特后期做制订。充分设想过程中所发生的各种事件,逐一计算其发生概率 P。(3)制订准则若 P 判断过程正常;若 P 判断过程异常,则该事件本身即为对过程异常的判断准则。4.4.9 判异准则GB/T 4091-2001 ISO 8258:1991常规控制图标准给出八个

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论