




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第一章 误差及数理统计基础 1.1 误差 1.1.1 误差的定义 测量值x带有误差E,测量值去掉误差就等于真值0,0 xE。所以误差的定义为:Ex0,即测量值偏离真值的程度,也就是测量值的不确定度. 1.1.2 误差的类型 1. 绝对误差 测量值大于真值时误差为正数,表示结果偏高;反之,误差为负数时表示结果偏低. 这里的误差都是绝对误差,它具有与测量值和真值相对应的量纲.,2. 相对误差 绝对误差在真值中所占的比率称相对误差,一般用百分率表示 相对误差() 当真值为未知时,可用多次重复测定结果的算术平均值代替。相对误差没有量纲. 3. 粗差 粗差也称过失误差,是由于非正常实验条件或非正常操作所
2、造成的. 如测量时对错了标志, 误读了数码, 实验仪器未达到预想的指标等. 含有粗差的测量值常称为坏值或异常值, 应予以剔除. 4. 系统误差 由于某种原因所产生,并遵循一定的规律进行变化. 例如,随样品或试剂用量的大小按比例进行变化. 系统误差有一定的指向,,例如称量一种吸湿性物质,其误差总是正值. 从系统误差 的来源看,它属于方法和技术问题,知道了产生的原因, 便可消除或修正,所以此种误差也称可定误差. 5. 随机误差 在相同条件下重复多次测定同一物理量时,误差大小或正负变化纯属偶然而毫无规律,这种误差称为随机误差,也叫偶然误差. 单个地看是无规律性的,但就其总体来说,由于正负有相消的机会
3、,随着变量个数的增加,误差的平均值将趋近于零. 这种低偿正是统计规律的表现,所以随机误差是可以用概率统计来处理的.,1.1.3 精密度和准确度 误差表示测量的不精密度和不准确度,即不确定度. 精密度和准确度是两个不同的概念.精密度表示一组测定数据相互接近的程度或分散的程度,它的大小完全决定于偶然误差.在分析化学中,常用重复性(repeatability)和再现性(reproducibility)来表示精密度. 重复性是指在完全相同条件下,即同一操作者、 同一仪器、同一实验室,在较短时间内分析同一样品所得结果的精密度; 再现性是指在不同的条件下,即不同的操作者、非同一台仪器、不同的实验室、不同的
4、时间,但是用相同的分析方法和分析相同样品所得结果的精密度. 准确度表示测量值与真值的偏离程度,它由系统误差和偶然误差共同决定. 如由4个学生用浓度准确为0.1mol/L的盐酸滴定浓度准确为0.1mol/L的氢氧化钠, 氢氧化钠的体积准确为10.00ml. 每个学生重复测量5次, 其结果示于表1.1.,由表1.1可见, 学生A尽管测试结果重复性较好, 即精密, 但是准确性较差(A的均值为10.10), 所有结果均偏高. 这是由于系统误差所致. 学生B的测试落到准确值(即真值)的两侧, 其均值为10.01. 此结果较准确, 但精密度较差, 主要受到了偶然误差的影响. 学生C测量中既有偶然误差的影响
5、, 又有系统误差的影响, 所以既不精密, 也不准确. 只有学生D测试结果比较精密(范围为9.97-10.04ml), 又比较准确(均值为10.01).,表1.1 用盐酸进行氢氧化钠的滴定结果,1.1.4 偶然误差的传递 1.线性加和 如y为测定量a, b和c等的线性组合:,式中Ka,Kb,和Kc等为常数,则加和或差值的标准偏差是各量方差加和的平方根:,如滴定中,移液管的初值和终值分别为:3.51ml 和 15.67ml, 其标准偏差均为0.02ml,则用去滴定液的体积及标准偏差分别为: 消耗的滴定液体积=15.67-3.51=12.16(ml),标准偏差=,(ml),此例说明,组合的标准偏差大
6、于单个读数的标准偏差,但小于各量的标准偏差之和. 2.2. 乘除表达式 若计算y的表达式为: y=kab/cd 式中a, b, c和d分别为测定量,k为常数,则相对标准偏差有如下关系:,如荧光的量子产率可用下式计算:,式中各量的相对标准偏差是: I0为入射光强度,0.5%; If 为荧光强度,2%; E 为摩尔吸收,1%; c为浓度,0.2%;,的相对标准偏差为:,由此可见,最终结果的相对标准偏差略大于上述分量中具有最大相对标准偏差的那个分量 (If).这一结果给我们的启示是,若拟提高测试的精度,则首先应该设法改善具有最大相对标准偏差的那个分量的测试精度. 另外,对于某一量的乘方,如 y=bn
7、 则y的相对标准偏差为,因为b和bn不是分别独立的量.,则x和y的标准偏差具有如下关系:,如某溶液的吸收值A为光透过率的函数:,若T的测定值为0.501,标准偏差为0.001,则A的值及其 dA/dT分别为:,和,由此可得A的标准偏差为: s=|0.001(-0.434/0.501)|=0.00087,2.3. 其他函数 若y是x的函数,1.1.5 系统误差的传递 1线性组合 如测试量a, b, c等中的系统误差分别为,等,,则y中的系统误差,为:,2. 乘除表达式 如 y=kabc/d 则,相对系统误差为:,同样,若,则y的相对系统误差为:,3. 其他函数 和偶然误差具有相类似的表达式,即,
8、1.2 基础统计学概念 总体、个体和样本 所研究对象的全体称为总体,其中每个单位称为个体。从总体中随机抽取若干个体的集合称为样本。样本中所含个体的数目n称为样本容量。如, 某产品设为总体, 考察某产品中铅的含量, 随机选取该类产品100个, 那么100个产品铅的含量x1, x2, , x100就是来自总体的容量为100的样本. 在分析化学中,样本的英文(sample)一词为一分析实物。而在分析数据处理时(即在统计学中),此词指的是一组数据,即自总体中随机抽取的一组测量值。为了避免混淆,在分析化学中的“样本”可用“试样”一词。,均值和标准偏差 对某试样作无限次测定,所得数据称为总体的均值(亦称期
9、望值)常用表示. 若无系统偏差, 则为真值。事实上不可能作无限次测定. 若作n次测定,其均值(即算数平均值)为,是 的估计.,的表达式为:,同样,若总体的标准偏差为,有限次如n 次测定的标准偏差为s,则s为 的估计.当n趋于无穷大时,s将趋近于。s的表达式为:,标准偏差可以表征测定结果对于均值的离散程度,但却不能指示这些数据的分布情况。而表征数据的分布情况要用直方图(或频谱图). 如对某一溶液作50次测定,其均值为,0.50ug/ml. 其中,0.46ug/ml 出现1次,0.47ug/ml出现3次,0.48ug/ml出现5次,0.49ug/ml出现10次,等等. 将每一测定值出现的频率对测定
10、值作图即为直方图(或频谱图)。,3. 平均值的标准偏差 将一组独立重复测定值进行平均时,一部分偶然误差相互抵消,使平均值带有的误差比原测定值要小. 平均值的标准偏差 又称“标准误差”,与单次测量值的之间的关系为,故标准误差 服从,的正态分布.,4. 正态分布 在数学上常用正态分布(即高斯分布)来描述某试样的总体:,其中,x为试样测量值,p为测量值的概率密度。正态分布具有如下重要性质(见图1.1): (1) 数据关于为对称分布; (2) 值越大,数据的离散程度越大; (1)样本值落入任意区间(a, b)的概率记作p(axb),等于x=a, x=b线段和 曲线组成的面积,即:,经计算,样本落入 的
11、范围内约为总体的68;落入 2 的范围内约为总体的95;落入 3 的范围内约为总体的99.7 (见图1.2)。在分析化学中,绝大部分情况下其测量符合正态分布。,对应的matlab函数 normpdf(x,mu,sigma),x=-5:0.2:5; y1=; y2=; mu1=-1,0,0,0,1; sig1=1,0.1,1,10,1; sig1=sqrt(sig1); for i=1:length(mu1) y1=y1,normpdf(x,mu1(i),sig1(i); y2=y2,normcdf(x,mu1(i),sig1(i); end plot(x,y1),figure; plot(x,
12、y2),图1.1 均值相同, 标准偏差不同的正态分布,图1.2 正态分布的性质,1.3 区间估计 在前面介绍中对于总体参数即均值(期望值)和方差的估计仅是参数的近似值,而与参数的真值可能会存在差异, 因此, 在一定的要求下, 估计出未知参数的一个数值范围, 即确定一个区间, 使这一区间内包含参数真值的概率达到我们预先所要求的程度, 这就是参数的区间估计问题.,1.3.1容许区间,容许区间是对总体而言.,区间内的分布曲线称为覆,在有限次测定中用样本的,和 s 分别代替总体的 和 时,,和s是随样本而异的随机变量,致使由选定的k值所组成的,区间也是随机的,即对覆盖域难以进行定量. 但是在,选择P和
13、k的同时再加一个出现P值的概率,便能回答所需要的问题. 如欲知使覆盖率不小于P的可能性为应该取什么k值,表1.2给出了常用的P和和对应的k值。,由给定P和k值组成的样本区间 称为统计容许区间。例如,从同一批产品小包装中随机抽样10个测定某组分的含量,得 和s0.24%,若以90的把握估准至少为99的产品的含量,可以从表1.2查出0.90, P=0.99, n=10时的k值为3.959, 由此计算得到容许区间为15.32-3.959x0.24到15.32+3.959x0.24, 即由14.3716.27%。这个答案是,如果产品中某组分的含量遵从正态分布,便能以90的把握断定99的产品中该组分含量
14、在区间14.3716.27%中.,表1.2 正态分布容许限因子,1.3.2 总体均值的置信区间估计,根据正态分布的性质我们可以对总体均值定义一范围,此范围称为置信区间,而 称为置信限. 置信限的意思是当一置信度(亦称置信概率)即一确定的概率被指定之后,则总体均值将落在置信区间之内. 置信区间的大小依赖于所指定的确定性(置信概率P),确定性越大,所需的置信区间也越大. 例如:,置信概率为0.95时: ; 置信概率为0.997时: .,通常,我们习惯于采用置信概率为99%的置信区间,事实上,我们并不知道. 但当测定次数n足够大时,在计算中常用标准偏差s代替. 如某溶液中硝酸根离子50次测量的均值为
15、0.50ug/ml, s = 0.00165ug/ml, 则其95%的置信区间为:,=0.500 1.960.00165/,当n不够大时,则由s代替 所引进的误差将较大. 此时计算置信区间可用下式表示:,式中t由W.S.戈塞特于1908年提出,亦称学生分布(来自戈塞特的笔名student)。t称为置信因子. 为显著性水平(见后),f为自由度:fn-1. t可由t值表查到.,另外, 式中t分布依赖于自由度(n-1)。自由度为计算s中独立偏差( )的个数,在此情况下为(n-1)。因为,所以只要(n-1)个( )为已知,则第n个( )可由上式计算出。某些t值列于表1.3,由表1.3易于看出,当n大于
16、50时,t将非常接近于1.96 (对应于置信概率95%)和2.58 (对应于置信概率99%). 这就证明了上述硝酸根离子浓度计算中所作假设(即用s代替)的正确性。 如用离子选择性电极进行了尿中钠离子的测量,结果为:102,97,98,99,101,106mmol, 试分别计算置信概率为95%和99%的置信区间. 自由度=6-1=5,由表1.3可知对应于置信概率95%和99%的t值分别为2.57和4.03。6次测量均值为100.5mmol, 标准偏差为3.27,故得: =100.5 3.4mmol (置信概率95%) 和,= 100.5 5.4mmol (置信概率99%),1.4 结果的表示 测
17、量结果最常用的表示方式是均值和标准偏差。前者表征测试量的大小,后者表征测试的精密度。 与之有关的是有效位的取舍. 所谓有效位是指某种测量所达到的精度. 如下列测试值:10.09,10.11,10.09,10.10和10.12,其均值为10.102,标准偏差为0.0130.但测试值仅准确到小数点后面第一位,而第二位为可疑位,故结果的表示为:,但也有人建议表示为:,其下脚为避免信息的丢失而加. 另外,对于小数点后面数字的取舍一般遵循“四舍五入”的规则. 但有人建议,“5”的入或舍,应使它前一位数成为与“5”最接近的偶数. 如9.65应为9.6,而9.75应为9.8,余类推.,1.5 置信区间的其他
18、应用,置信区间可以用于系统误差的测试. 如一分光光度计对其标准溶液在某一波长处测试,其吸收值为0.470. 现在进行9次测定,均值 =0.461, 标准偏差s=0.003. 置信度若为95%,则,由于0.470并不落在所得置信区间范围内,所以仪器有系统误差。 置信区间还可用于试样的测定。如有一大批药物的片剂,欲知片剂的重量,则不可能对每片一一称重. 另外,若想知道片剂的组分和含量,特别是采用破坏性分析方法,如原子吸收,则亦不可能对每片药物进行分析. 在这种情况下,可从中取出试样,测得均值和标准偏差,继而得到测定量的置信区间。,1.6 显著性检验,在实际应用中仅估计总体的值还不够,常常需要说明总
19、体的某种性质,例如两个样本的均值差异是否显著到不能代替同一总体。这里包括工艺改变后产品质量有无显著变化,两种分析方法测定结果是否一致等问题. 该类统计推断都是先提出假设,然后按照某种逻辑在一定概率上作出是否有显著性差异的判断.,1.6.1 显著性水平,显著性检验离不开预设的小概率,例如正态分布的测量值落到区间 以外的概率小于0.05, 落到 区间 以外的概率小于0.01. 在概率论中,小概率的原则是:如果一个事件发生的概率很小,那么在一次试验中,实际上可把它看成不可能发生的事件。如果某个小概率事件竟然发生了,则认为这是一反常现象。小概率越小就越显得异常,所以此小概率在显著性检验中称为显著性水平
20、。反映的是显著差异的程度,通常在0.05以下便认为是显著。,1.6.2 t检验,1. 两套试验平均值的比较,将t用于显著性检验可判断两试验均值是否有显著性差别. 设两试验的均值分别为 和 . 若作假设H0,即假设两种方法所得均值没有差别. 在判断中,首先由单一标准偏差s1和s2作综合标准偏差的计算:,t值的计算用下式:,式中n1和n2分别为两样本的容量. t的自由度为n1+n2-2. 如果tt(,f),则否定原假设,即两种方法所得结果有显著性差异. t(,f)为显著性水平是、自由度是f的查表值.,如用两种方法测定植物中硼,结果为: 分光光度法(ug/g): 均值=28.0; 标准偏差=0.3
21、荧光光度法(ug/g): 均值=26.25; 标准偏差=0.23 n1=n2=10 为判别两种方法所得结果是否有显著性差异,则首先计算,自由度为18,若=0.05,查表得t(,f)的临界值为2.1. 由于实验的t值大于t(,f)(临界值),故拒绝原假设. 换言之,两种方法所得结果有显著性差异.,还可用于实验条件改变时对结果产生的影响.,如食物中锡的测定可在HCL介质中进行蒸馏. 相应于不同的蒸馏时间,其结果为: 蒸馏时间(min) Sn测定结果(mg/kg) 30 55,57,59,56,56,59 75 57,55,58,59,59,59 对于这两种时间,均值和方差分别为:,30min:,7
22、5min:,作 假设,即蒸馏时间对测定结果无影响. 方差总值为:,此例中自由度为10,若=0.05,t的临界值为2.23. 由于实验的t小于t的临界值,所以接受原假设,即煮沸时间的长短对Sn的回收无明显影响. 在前面的计算中,事实上假设两种方法或在不同条件下的方差大体上是相等的. 若此假定不合理,t值的计算可采用如下公式: 自由度的计算为: 其值取其最临近的整数.,如风湿病人和对照组血中硫醇含量(mmol)为: 对照组:1.84, 1.92, 1.94, 1.92, 1.85, 1.91, 2.07 风湿病人:2.81, 4.06, 3.62, 3.27, 3.27, 3.76 由此,可计算得
23、到: n1=7, =1.921, s1=0.076 n2=6, =3.465, s2=0.440 t=8.5 依照式上述公式, 计算得自由度为5. 若取=0.01, 查得t的临界值为4.03. 实验t值大于t的查表值,否定原假设,即风湿病人血中硫醇的含量与对照组(正常人)有显著差别。,2. 试验均值与已知值的比较,为了判断实验均值与真值是否有显著性差别,与上类同, 可将方程 重写为: 然后由实验数据可计算t值. 若|t|t(,f),则放弃假设. 同样, t(,f)由查表得到.,用冷蒸汽原子吸收法测定某标样中的汞 已知汞的含量为38.9%. 其测试值为38.9%, 37.4%和37.1%. 由此
24、可得平均值为37.8%,标准偏差为0.964%. 作假设,即设定无系统误差,则利用上述公式可计算t值: 当自由度为2时,查t值分布表可得t(,f)=4.3 (=0.05). 由于|t|t临界, 假设为真,即无明显的系统误差.,3、成对结果的t检验(paired t-test),两种方法对于4个试样Pb的测定结果(ug/L)为: 试样 湿法氧化 直接萃取 7176 6168 5048 6057 若沿用上述算法去直接比较两种方法的均值是不适合的,因为测试结果的差异有可能由于本试样不同所导致。 在此种情况下,可以采用同一试样两个测试结果比较的方法.,如上述数据,对应试样的差值分别为-5, -7, 2
25、, 3; 这些差值的均值=-1.75;差值的标准偏差s=4.99. 由于差值的期望值=0,所以 t的自由度为n-1=3, 取=0.05,查表得t值为3.18,t的实验值为-0.70, | t | t(,f) 故两种方法测得Pb含量的均值没有显著性差别。,1.6.3 F检验,F检验主要用于两套数据方差的比较。 有两种情况: 一是我们希望知道是否方法A比方法B更精密(单尾检验);二是拟知道方法A与方法B的精密度上有否差别(双尾检验). 在第一种情况下是假定方法A不会比方法B精密;在第二种情况下,比较的是两种方法的相对精密度. 很清楚,假若我们希望测试一种新的方法是否比已有的标准方法更精密,则用单尾
26、检验;假若我们希望比较两种标准偏差是否有显著性差异,则用双尾检验. F检验的表达方式为: 在此式中,应使F=1, 即大者为分子,小者为分母。,测定废水中的氧,其结果为: 均值(mg/L) 标准偏差(mg/L) 标准方法: 723.31 新方法: 721.51 n1=n2=8 试问,新方法的精密度是否明显高于标准方法?对于此问题可以采用单尾F检验. F=3.312/1.512=4.8 在两种情况下均测定8次,所以自由度均为7. 若=0.05,查表(单尾)得F的临界值为3.787. 由于计算值大于该临界值,故可得新方法比标准法具有更高精密度的结论.,再如1.6.2中硼的测定 两种方法的测定次数均为
27、10,即自由度均为9, 标准偏差分别为0.30 和0.23. 若采用F检验: F=0.32/0.232=1.7 显然,在此种情况下为双尾检验. 查双尾F分布表所得临界值为4.026(=0.05). 计算值小于临界值,说明两种方法的标准偏差没有显著性差别. 须指出, 在进行双尾检验时, 若使用的F分布表为单尾, 则显著性水平应为双尾的的1/2. 如上例, 应为0.025而不是0.05.,1.6.4 检验,2检验是有关于某事件发生频率的测试. 如,由实验室中4位工作者打破玻璃器皿的件数,用2检验他们的可信赖度有否区别. 打破件数:24,17,11,9 若作 假设,则认为他们间可信赖度无区别. 就是
28、说在同一段时间内,他们打破玻璃器皿的件数是相同的. 由于打破的总件数为61,所以对于每位工作者打破器皿的期望值为61/4=15.25. 现在我们拟得到的答案是,观测值与期望值是否有显著性差别. 为此,作如下计算:,观测频率,O 期待频率,E O E (O - E)2/E 24 15.25 8.75 5.020 17 15.25 1.75 0.201 11 15.25 -4.25 1.184 9 15.25 -6.25 2.561 0.00 2=8.966 其中,O E列的加和恒等于0, 故可作计算中的校验. 若2超出一定的临界值则拒绝假设. 在此例中,自由度为4-1=3,若=0.05, 则由2的分布表可知2的临界值为7.81,计算值大于查表值,说明4位工作者的可信赖度确有区别.,作为2检验的应用,观测总数要大于或等于50次,而个体重复次数不应低于5。 另外, 2检验可用于检验总体方差是否正常,但总体方差要已知. 运用时首先计算出统计量: 然后查分布表,并将查表值与计算值进行比较,以判断如某批产品正常与否.,1.6 坏值的剔除,用统计法进行坏值剔除的基本思
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 车库物业管理与租赁服务合同
- 养老机构情督导方案
- 住宿用品补充方案
- 网络风气面试题及答案
- 洁具物流费用分析方案
- 针法灸法考试题及答案
- 水务公司面试题及答案
- 物流服务考试题及答案
- 评审规范考试题及答案
- 2026版《全品高考》选考复习方案生物11 9.2 影响细胞呼吸的外部因素及细胞呼吸原理的应用含答案
- 《庄子》寓言对后世的影响
- 质量过程报告记录汇总表-scr与ncr表格报检单
- 湖南省长沙市2022-2023学年新高一英语入学分班考试试卷【含答案】
- Q∕SY 1477-2012 定向钻穿越管道外涂层技术规范
- k-bus产品手册中文版ip interface使用手册
- 第九讲有机化学结构理论
- 能力管理控制程序
- 工程化学复习要点及习题解答童志平版本PPT课件
- 论中心蝶阀、单、双、三、四偏心蝶阀
- 《中国语言文化》课程教学大纲
- 庭审笔录郭英贺驳回-离婚案件
评论
0/150
提交评论