科学研究中的数据处理方法.ppt_第1页
科学研究中的数据处理方法.ppt_第2页
科学研究中的数据处理方法.ppt_第3页
科学研究中的数据处理方法.ppt_第4页
科学研究中的数据处理方法.ppt_第5页
免费预览已结束,剩余44页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、科学研究中的数据处理方法(简介)周 广 运,前言,所谓科学研究,包括在实验室这个特定的条件下,人为地再现自然界所发生的量变现象的研究,常常需要借助于各种各样的实验与测量来进行,通过实验结果的整理、归纳、分析、寻找变化的规律,借以认识我们周围所发生的客观过程,从而能动地改造客观世界。,一、异常值及剔除,Ex: 测定碱灰的总碱量(Na2O)得到5个数据,40.02;40.13;40.15;40.16;40.20 试问40.02是否应舍弃? 这是异常值的检验问题,如何判断是否属于异常值?这就要求我们必须对测量误差有所认识,对其分布规律有所了解,才能给出合理的置信限并做出正确判断。为了解决这一问题,下

2、面我们介绍实验误差的分布规律。,(一)实验误差的分布规律,我们的前人对实验误差(随机误差)的产生及分布规律作了大量研究,发现随机变量的分布函数有很多种,离散型分布有二项式分布、泊松分布、超几何分布等;连续分布有正态分布、均匀分布、 分布、t分布等。由于在物理测量及化学测量中遇到最多的是连续型正态分布,所以主要介绍正态分布。,正态分布(连续型分布),正态分布最初是从误差理论的研究中提出来的,高斯于1795年推导出它的函数形式,所以又称为高斯分布。 正态分布是应用最多的一种分布,很多随机变量都近似服从正态分布。如泊松分布,当它的数学期望值比较大时,可以证明它趋近于正态分布。正态分布概率密度函数为:

3、,有了分布函数,我们就可以计算以x为中心的某个区间 (x kx,x + kx)内包含真值a的概率P(x-kxax+kx)。 这里K是以x为单位的区间半径,称为置信系数。但是为了求 出P(x-kxax+kx),我们可以反过来说,它等于任一测 量值 x 落在以a为中心,以kx为半径的区间内的概率。 即P(x-kxax+kx)= P(a-kxxa+kx),式中:,(均方根差),Ex: 用积分的方法求正态随机变量在区间Pa -x,a +x的概率。 解: P(a xXa +x) =,令,则 P(a -xXa +x) =,将exp(-y2)展开成级数,取四项近似,有 P(a-xXa+x) =,=,=0.6

4、825,同理:,计算结果表明:偏差大于3的测量值出现的概率约 为0.26%,这属于小概率事件,在有限次实验中是不 可能发生的,如果在实验中出现就可作为异常值,应 舍弃。从而给出合理的置信限。,(二)异常值的检验,这是H.M.Goodwin 提出的简单的判断方法,为了方便起见,可以用单次测量的平均偏差代替,由于 0.80 34(n) 对于一般的有限次测量用平均偏差 代替,即略去可疑观测值后,计算其余各观测值的平均值及平均偏差,然后计算出可疑观测值与平均值的偏差,若其大于等于4 者舍去”。 值得注意的是 ,用其代替会产生误差,但该方法比较简单,因此仍常被采用。,1、 4倍偏差法,举 例,Ex: 用

5、4倍法判断前例中40.02是否应舍弃? 解:除去40.02后 =40.16, =0.02 4 =0.08 40.02-40.16= 0.140.08 40.02应舍弃。,但异常值检验方法的选择与测量次数有关,可以证明 当n10时,4倍法失效,后面的例子也可以说明这一点。,2、格鲁布斯法(grubbs)法,将一组数据从小到大排列,其中x1 或 xn 可能为 异常值,先求出这组数据的平均值 及标准偏差S,然后求出统计量T。 若怀疑x1为异常值,则: 若怀疑xn为异常值,则:,格鲁布斯导出了T=,统计量所服从的,,,理论分布。取定显著性水平(相当于犯“弃真”错误的概率)为0.05或0.01,可由 P

6、Tg0(n,)=求得临界值g0(n,)。,若计算T值大于表中所列临界值 否则保留。,,为异常值舍弃,,g0(n,),T(5,0.05) =1.672,TT(0.05,5 ),40.02应保留。,由表可见,Ex:用格鲁布斯法判断前例中的40.02是否应舍弃,设,解:,查grubbs表:,则=0.05 n=5,3、狄克逊(dixon)法,狄克逊研究了n次测量结果,按其数值大小排列成如下次序: 当 xi 服从正态分布时 用不同的公式求得 f 值,再经过查表,得到相应的临界值,进行比较,若计算值f(n, )视为异常值,舍弃;再对剩余数值进行检验,直到没有异常值为止。狄克逊通过模拟实验认为:n7,使用

7、f10 ;8n10,用 f11 ;11n13,用 f21 ;n14,用 f22 效果好。,狄克逊采用极差比的方法,经严密推算和简化而得到的准则。,举例,Ex: 用狄克逊法判断前例中的40.02是否应舍弃? 解:将数据排列,取 =0.05 40.02 40.13 40.15 40.16 40.20 0.6110.642 40.02应保留。,总结,有人用实例作了一些初步分析,认为狄克逊法稍宽,而格拉布斯法比较适中,在仅有一个异常值时,格拉布斯法效果好;但存在多个异常值时,狄克逊法好,但在粗大误差剔除中,是不允许大量剔除的,选择较小的 值可以达到限制的目的,这样处理虽然标准偏差略大,但相对安全。 通

8、过比较,4 法显得更粗糙。,建议:在较为精密的实验中,可以选用二、三种 方法加以判别,当一致认为某值应剔除或保留时, 可以放心地予以剔除或保留。当几种方法的判别 结果有矛盾时,应慎重考察,一般不予以剔除。,二、数据处理方法,(一)列表法 (二)作图法 以上方法比较简单,我们在实验讲座中已经介绍,就不赘述。 (三)插值法计算数值 1、作图插值法,Ex:用分光光度计法测定溶液中铁的含量,测得标准曲线数据如下: Fe+3(g/mL) 2 4 6 8 10 12 吸光度(A) 0.097 0.200 0.304 0.408 0.510 0.613 测得未知液的吸光度为0.413,试求未知液中铁的含量。

9、,在图的纵坐标上0.413处找到直线上对应点,读出其对应的横坐标即为未知液中铁的含量 8.122,所以,此式即为比例法内插公式, 从图上可看出,因为用yc 代替了yd,产生了,的误差。,2、比例法,3、牛顿内插公式,一般的非线性函数都可以展开为多项式,Ex:制作,的差分表。,表中y表示y的依次差值,y2表示y的差值的差值,以此类推。,在上面的例子中,x的差值为1,实际上x的差值可以为任意恒量,令此恒量为h,做出差分表的通式。,牛顿内插公式的推导:,设 式中系数均为常数。令数据表中x等差变化,根据差分表通式归纳各项,使得y值均用各级差分的首项表示,得到下列结果: 设差分表中的a是自变量x的首项,

10、h是x的公差,n 是x 的项序,则有 x =a+nh,证明,以此类推,推广到n项得: 即得牛顿内插公式。其表面上看是一个无限级数,但实际上,x 若取得很小时,高次项均可略去不计。,举例,下表是水的表面张力系数随温度变化的数据及差分表。试用牛顿内插公式求13.2时的表面张力系数。,(四)经验公式拟合方法,拟合过程大体分为如下几个环节: 1、判断和假设 2、改直 3、检验 下面以例子说明:,设已测得一组数据如下: 首先将数据绘成曲线,如图;,2、根据曲线的形状判断,类似指数曲线,且通过原点, 判断无常数项,假定经验公式为:,3、改直:在等式两边取对数,令:,则:,将数据列表 1 2 3 4 5 6

11、 7, -0.693 0.000 0.405 0.693 0.916 1.10, -2.12 -0.693 0.030 0.693 1.16 1.50,绘制 -曲线,得到一条直线,由截距,解得:,a =0.502,4、将原始数据代入验证:,0.5 1.0 1.5 2.0 2.5 3.0,0.13 0.5 1.12 1.99 3.11 4.47,注意:,上述处理是基于消除了系统误差,偶然误差不大较理想的前提下得到 的,但我们知道,常规实验,即使是消除了系统误差,偶然误差也是存 在的,有时是很大的,所以这种处理是粗糙的,亦是不严格的,更为精 确和严格的拟合可以采用最小二乘法。,通过验证基本符合,假

12、定成立。,(五)线性参数的最小二乘估计,1、直线方程的最小二乘拟合 最小二乘法的基本思想:最佳结果应能使标准误差最小,所以残差的平方和应为最小。 我们假定:在 xi 、yi 两个量中,xi 的测量误差远小于 yi 的测量误差,用Q表示残差的平方和,我们可以写出:,根据最小二乘法的基本思想,最佳结果应使残差的平方和最小, 可对该式求极值,即:,将其展开:,移项消掉系数2,就得到正规方程:,解方程:,将 b 代入 a,我们通过实验测得一系列数据 xi 、yi 后,分别求出,、,、,、,,代入公式就可以求出参数 a,、b 的值。,2、用多项式(最小二乘)拟合曲线方程,从数学上说,给定了几个数据点,我

13、们总能求得一条多项式曲线的方程,使之恰好通过这n个数据点,一般来说若有n对测量数据(xi,yi)i =1,2,n,则函数y = f(x)总可以用一个含有(k+1)个参数的k阶多项式来逼近,(k+1 n)即,我们先研究,残差的平方和为:,求极值:,的最小二乘拟合,整理得到正规方程:,根据一次项,二次项的结果以此类推,函数的最小二乘法正规方程:, ,关于正规方程的解:,我们可以将方程组写成增广矩阵的形式: 用加减消元法解出结果(高斯约化法)。,举 例,Ex:在标准光学高温计的检定中,亮度温度t与电流I 的关系可以用二次曲线,拟合,试求 a、b、c。测量数据如下:,(100) 0.8 0.9 1.0

14、 1.1 1.2 1.3 1.4,(A) 0.32 0.34 0.37 0.40 0.44 0.48 0.53 解:根据题给数据:,写出增广矩阵:,用高斯约化法解方程,,第一行,第二行,第一行,第三行,第二行,第三行。,则,3、多项式拟合阶数的选取,具体步骤: (1)用最小二乘法对测量数据分别作K阶和k-1阶多项式拟合,并算出相应K阶多项式拟合时的残差平方和Rk、拟合平方和U;k-1阶多项式拟合时的拟合平方和U。 式中 表示拟合后的函数值。,(2)利用,(3) 按显著性水平=0.01或0.05查F分布表,找出相应于自由度 为1和n-k-1的F分布的临界值F算出Fk 。 (4)比较Fk 和 F

15、若FkF,说明变量 xk,对y的影响在水平上显著,因此有必要,不需要用k阶拟合,只要用(k -1)阶就可以了。,算出Fk 。,用k阶拟合;若FkF时,说明变量 xk,对y的影响在水平上不显著,,Ex: 某实验在等精度测量下,得到一组数据(xi,yi)i=1,2,14 具体数据列于下表,试确定用多项式拟合的适宜阶数。,解: 分析数据可知,他们不是直线方程关系,因此分别取 k =1,2,3次方进行最小二乘拟合,拟合公式为:,分别用三个方程计算出,对应的,计算出相应残差的平方和Rk,拟合平方和Uk及偏拟合平方和,分析: 当k=2时,在= 0.05的显著水平下查 F分布表, 自由度分别为 1=1; 2= n-k-1=1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论