误差及数据处理_第1页
误差及数据处理_第2页
误差及数据处理_第3页
误差及数据处理_第4页
误差及数据处理_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第九章 误差和数据处理9.1 误差及其分类 9.2 随机误差的分析 9.3 平均值的正态分布及标准偏差 9.4 对真值的估计区间估计 9.5 显著性检验 1第九章 误差和数据处理9.1 误差及其分类 定量分析化学的任务是测定物质中有关组分的含量。在定量分析化学中人们总是希望分析结果既准确又可靠,但分析结果的获得是基于对一些物质含量相关的物理量的测量,由于测量值不可能绝对准确,因此分析结果总是存在一定的误差。此外分析结果的准确程度还与所采用的分析方法、所使用化学试剂的纯度及操作者的实验技术等有关。根据误差产生的原因,误差分析分为系统误差和随机误差。29.1.1 系统误差 系统误差又称为可测误差,

2、它是由某些确定的原因所引起的误差。单向性:即重复测定时的误差的大小和正负有规律性的重复出现。可校正性:由于系统误差是由确定的原因所造成,因此可以根据误差产生的原因设法消除或对分析结果进行校正。 在分析化学中系统误差主要由以下原因引起。31. 方法误差 方法误差是指由分析方法本身所造成的误差。例如,滴定分析中滴定终点与化学计量点不一致,重量分析中沉淀具有一定的溶解度,共存离子的干扰等都可以造成系统误差。2. 仪器误差 由于测量仪器本身不够准确所造成的误差。例如,等臂天平的两臂不等长,砝码质量不够准确,容量仪器刻度不够准确等都可造成系统误差。43. 试剂误差 由于试剂不纯所造成的误差。例如,试剂中

3、含有被测组分或干扰组分。4. 操作误差 操作误差是指操作者的主观的标准进行测量时所产生的误差。例如,在滴定分析中由于操作者对颜色的变化不够敏感,终点时指示剂的颜色总是偏深或总是偏浅。59.1.2 随机误差 随机误差又称偶然误差或不可测误差。它是由一些偶然因素所造成的误差。例如天平和滴定管读数的不确定性,仪器分析中电源的电压、电流的微小波动,分析过程中温度、湿度、压力等实验条件的微小变化等都造成随机误差。不可避免:因为随机误差是偶然因素所造成,操作者对这些偶然因素无法预知,无法控制,因此随机误差不可避免。 随机误差表现为其大小和正负都不固定,但服从统计规律。增加测量次数取多次测量结果的平均值可以

4、减小随机误差。6 在分析过程中由于分析人员的粗心大意和错误操作而造成的误差叫过失误差,例如溶液溅失、沉淀穿滤、加错试剂等。过失误差不属于上述两类误差,凡存在过失误差的分析结果应弃去不用。79.2 随机误差的分析9.2.1 总体和样本 研究对象的某个数量指标所有可能取值的集合称为总体,组成总体的每一个成员叫做个体。例如要研究一批复合维生素药片中Fe和维生素C的含量,若各片药片中Fe的含量分别为x1、x2、x3,维生素C的含量为y1、y2、y3,则Fe的含量值x1、x2、x3的集合构成一个总体,而维生素C的含量值y1、y2、y3的集合构成另一总体。每一个x值和y值是相应总体中的个体。8 从总体中随

5、机抽出的有限个个体的集合称为总体的样本,样本中所含个体的数目称为样本容量。例如从一批复合维生素片中随机抽出8片测定每片中Fe的含量,8个测定值x1、x2x8就是关于Fe含量个体的一个随机样本,样本容量为8。99.2.2 频率密度直方图1. 频率密度直方图 在定量分析化学中,对分析试样进行测定时由于随机误差的存在,即使使用精密的仪器,由熟练的分析人员去操作,重复测定的结果也不会完全相同而出现测定值参差不齐的现象。例如学生用重铬酸钾法测定某铁矿试样中铁的含量时,我们随机抽取了98个学生的分析结果作为样本。这98个测量值分散在51.29%53.26之间。数值的特点:多数测量值集中在这98个数据的平均

6、值附近;偏离平均值较远的测定值逐渐减少。用频率密度直方图说明这批测量数据的分布情况进而发现他们的分布规律。10 将这98个数据按其值由小到大的顺序排列并以0.2%为组距(x)将它们分隔在10个组中(见表9.1)。应该注意的是按照这样分组可能会发生某个数据恰好位于组间边界值上(骑墙现象),使我们难以断定这个数据应该分在哪个组中,为此将组间边界值的有效数字多取一位。数据分组后,计算各组中数据的个数ni、ni /n、和ni /(nx)ni : 第i组中数据的个数,称为频数;ni /n : 频数与数据总数之比,称为频率;ni /(nx) : 频率与组距x之比,称为频率密度;11表9.1 频数、频率、频

7、率密度分布表12表9.1 给出以上这98个测量值的分组情况。 根据频率密度的分布,在以测量值为横坐标以频率密度为纵坐标的坐标系上,以组距为宽以频率密度为高,在横坐标轴上方分别画出各个矩形,所得到的图形称为频率密度直方图(见图9.1)。依次连接各组中值所对应的频率密度点得到频率密度多边形(见图9.1)图9.1 频率密度直方图 132. 频率、频率密度的意义 频率(ni /n):表示每进行一百次测量将会有ni /n个测量值落在相应的组内,例如表9.1中的第5组,ni /n0.286,这表示每进行一百次测量时大约会有28.6个测量值落在第5组内。某一次测量而言,频率ni /n表示了测量值落在相应组内

8、可能性的大小,例如表9.1中的第5组,ni /n0.286表示测量值落在第5组内的可能性大约为28.6。由此可见,频率ni /n已有概率的概念。 频率密度:频率与组距之比ni /(nx),所以频率密度有概率密度的概念。3. 直方图中矩形面积的意义 在直方图中矩形面积等于底与高的乘积,即频率密度与组 距的乘积ni /(nx) xni /n,所以图中各矩形的面积表示测 量值落在相应组内的概率。144. 结论 由频率密度直方图可见,图中位于中央位置的矩形面积最大,两侧的矩形面积依次向左右减小。这种情况表明进行多次重复测量时,多数测量值集中在平均值附近,或者说测量值落在平均值附近区域内的概率最大。 测

9、量值的这种分布表现了测量值的分布既有分散性又有集中趋势的特征。159.2.3 正态分布1. 正态分布在作直方图时,若增加测量值次数n,设想使n并使组距x0,则频率密度多边形趋于形成一条平滑的曲线。所得到的平滑曲线更加确切的描述了测量值的分布。大量实验表明,在定量分析化学中测量值的分布一般都满足正态分布。正态分布是概率论中一种最重要最常用的分布,描述正态分布可用正态密度函数或正态分布函数,以下给出正态密度函数的数学表达式。(9.1)16 正态密度函数的图象(以下简称正态分布曲线)见图9.2。正态分布曲线也可用误差(x)为横坐标,此时与曲线最高点相对应的横坐标为0。图9.2 正态密度函数的图象xx

10、y17 正态分布曲线的特征是:曲线有一最高点,最高点位于x的直线上;曲线关于直线x成轴对称;在最高点两侧曲线分别向左右单调下降并分别以x轴为渐近线无限延伸,即当x时,f(x) 0。x : 测量值:总体平均值,即无限个测量值的平均值(在概率论中称为数学期望),是曲线 最高点对应的横坐标值,它在x轴上的位置决定了曲线的位置。在不存在系统误差时为真值;18:总体标准偏差,(n是测量值的个数,n),是曲线上两拐点之间距离的一半,其值的大小决定了曲线的形状,若值小则曲线“瘦小” ,若值大则曲线“矮胖”,它表示了测量值的离散程度。y:y=f(x),概率密度,即概率(P)对随机变量(x)的变化率 由于和决定

11、了正态分布曲线的位置和形状,和是正态分布的两个重要的参数,因此常用符号(,)表示总体平均值为,总体标准偏差为的正态分布。19正态密度函数曲线下覆盖的面积 在正态密度函数的图象中,曲线下覆盖的面积表示概率。其总面积表示测量值落在范围内的概率,由于测量值必然100%落在范围内,因此总面积表示概率等于1。x1与x2两点间曲线下的面积表示测量值落在区间(x1,x2)内的概率(见图9.3中阴影区),数学表达式为(9.2)20 x1x2图9.321 由正态密度函数的图象可见,离值较近的区域面积较大离值较远的区域面积较小(见图9.4)。这说明测量值多数出现在真值的附近,或者说小误差出现概率大,大误差出现的概

12、率小,且正负误差出现的概率相等。图 9.4yxx222. 标准正态分布正态分布曲线的形状与参数有关,不同时曲线的形状不同,但经过坐标变换,使用u=(x)/作为横坐标,则对形状不同的正态分布曲线进行了归一化。经过这样坐标变换的正态分布称为标准正态分布。23标准正态密度函数的数学表达式以x为自变量时,正态密度函数为式中求微分令(9.3)则因此(9.4)24式(9.3)为标准正态密度函数的数学表达式,其图象见图9.5图9.5 标准正态分布曲线25 由图9.5可见,标准正态分布曲线实际上是以随机误差为横坐标并以为单位的正态分布曲线,因此曲线的形状与值的大小无关。标准正态分布用符号N(0,1)表示。根据

13、式(9.3)可积分求出不同u值时曲线下覆盖的面积,见表9.2 注意,表9.2中的概率值为正态分布的单侧值,由于正态分布曲线是对称的,使用表9.2时若求区间(u,u)的概率必须乘以2,例如| u |1.0时 ,面积0.3413| u |2.0时 ,面积0.4773| u |3.0时 ,面积0.4987 这表明随机误差值在( ,+)区间内的概率为0.3413268.326表9.2 正态分布概率积分表(u 值表,单侧)27 在(2,+2)区间内的概率为0.4773295.5%,在(3,+3)区间内的概率为0.4987299.7%。或者说,测量值落在(, +)区间内的概率为68.3%,落在(2, +2

14、)区间内的概率为95.5%,落在(3, +3)区间内的概率为99.7%。 以上结果同时表明,随机误差绝对值大于3的测量值出现的概率仅为0.3%。这就是所谓的” 3规则”。例如光谱分析中分析物的”检出限”就是根据3规则制定出的。289.3 平均值的正态分布及标准偏差 平均值的正态分布是以几个单次测量值(x)的平均值( )为随机变量,描述无限个平均值( 、 、 )分布规律的正态分布(见图9.6a),其总体标准偏差为 ,称为平均值的总体标准偏差。由于单次测量值的正态分布与平均值的正态分布来自于同一总体,因此它们具有相同的总体平均值,但分散程度不同。显然,平均值的精密度应该好于单次测量值的精密度,即

15、29 x ( )y平均值的正态分布单次测量值的正态分布(a)(b)图9.6 单次测量值、平均值的正态分布及其标准偏差30(9.5)对于有限次测定,则有(9.6)(9.5)、(9.6)式表明增加平行测定次数n可以减小平均值的标准偏差 ,但 是与平行测定次数的平方根 成反比,因此当n10时, 的变化已很小(见图9.6b)。实际工作中一般取46次平行测定的平均值已足够。319.4 对真值的估计区间估计被测物的真值是人们想知道而又不可能准确知道的一个固定不变的定值。测量值是通过测量的手段而获得,由于随机误差的存在,它表现为“不固定”,因此测量值仅仅是真值的估计值。对真值进行估计时若不采用测量值这一“点

16、”去估计真值,而用一种“套圈”的方法对真值进行估计,即采用的测量值为中心的一个区间去“套”(包含)真值的方法对真值进行估计。包含真值的概率大且所使用的”区间”小则表示对真值估计的比较准确且可靠性大。这种方法称为区间估计。概率表示事件发生的可能性,表示可以相信的程度,概率又称置信度。在一定的概率下恰好能“套中”(包含)真值的那个区间称为置信区间。置信区间表示该区间有多大的可能性包含真值,例如置信度为90%的置信区间表示该区间有90%的可能性包含真值。329.4.2 根据正态分布求置信区间 如果已知总体标准偏差,在获得测定结果x后设置一个以x为中心以为半径的区间(xu,xu),以此区间对真值进行区

17、间估计。首先分析一下区间(xu,xu)包含真值的概率,由于区间(xu,xu)是以测量值x为中心,当测量值x落在x数轴上的不同位置时,区间(xu,xu)也随之变化。区间(xu,xu)离真值u的远近决定于测量值x离真值的远近,当测量值x离真值较近时,区间(xu,xu)会包含真值。只有当测量值x落在区间(u,u)内时才含有区间(xu,xu)包含真值的情况(因为这两个区间的长度相等,且分别以u和x为中心),图9.7给出u=1时的情况,因此区间(xu,xu)包含真值的概率即为x落在区间(u,u)内的概率。33 x落在区间( u ,u)内的概率可通过计算或查表(正态分布概率积分表,表9.2)求得。图9.7

18、 区间(xu,xu)包含真值的概率( )- + x34例9.1 对于测定值x,求区间(x1.96,x+1.96)包含真值的概率解:由区间(x1.96,x+1.96)可知,u1.96;查正态分布概率积分表(表9.2)可知,u1.96时,表值为0.4750;因此,测量值x落在(1.96,+1.96)内的概率为0.4750295%;因此,区间(x1.96,x+1.96)包含真值的概率为95%,即置信度为95%; 例1是先指定区间(xu,x+u)的大小,求该区间包含真值的概率,若先指定概率(置信度)也可反求相应的置信区间。35 应该指出,上述所讨论的置信区间(xu,x+u)是置信区间的一般式,若以单次

19、测量值x作为测定结果,测定结果服从单次测量值的正态分布,其总体标准偏差为x。用单次测量值x对真值进行区间估计时,置信区间为(xux,x+ux) 若以几次平行测量的平均值 作为测定结果,测定结果 服从平均值的正态分布,其总体标准偏差为 。用测定结果 对真值进行区间估计时,置信区间为36例9.2 已知某炼铁厂各炉原料组成、配比及操作都在相同条件下长期进行生产,铁水中含碳量(%)服从正态分布N(4.55,0.108),即相对真值为4.55% ,单次测量值的总体标准偏差x0.108%。若某日对某炉铁水含碳量(%)5次化验结果为:4.52、4.48、4.50、4.51、4.45。求:5次化验结果的平均值

20、 ;求置信度为90%时,平均值 的置信区间。解: (%)(4.52+4.48+4.50+4.51+4.45)/54.49 置信度为90%时,查正态分布概率积分表可知1.645所以,置信度为90%的置信区间为或将 4.49,x0.108代入上式即为所求置信区间(4.41%,4.57%)379.4.3 少量测量数据的统计处理1.t分布总体标准偏差是正态分布的两个基本参数之一,它决定了随机变量x的分散程度。从理论意义上讲,只有对无限个平行测量值进行统计才可能得到。在实际工作中是根据有限个测量数据的分布情况去估计无限个测量数据的分布规律(正态分布),即对被测对象进行有限次测量(一般仅为几次)得到有限个测量值和标准偏差s,用s作为的估计值。用s代替必然造成偏离正态分布而产生误差。为了解决这一问题,英国化学家兼统计学家WSGosset提出用(9.7)代替 以补偿用s代替所产生的误差,并给出以t为变量的概率密度函数t分布。38 与标准正态分布曲线相对照,t分布曲线的纵坐标也是概率函数,但横坐标是( )t值 区间曲线下覆盖的面积表示t落在该区间内的概率。但由于平行测量次数(n)不同时,s不同,使得t值不同,因此t分布必然与测量次

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论