数据处理讲义第1,2章

上传人：a*** IP属地：湖北上传时间：2023-02-01 格式：PPT 页数：66 大小：2.76MB 积分：28 举报 版权申诉

已阅读5页，还剩61页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

化工数据分析与处理任鲲前言一课程包括两部分内容1数据的分析：数据的预处理、平滑（试验数据的前期分析）2数据的处理：利用经验、半经验或理论的模型来处理数据，得到经验、半经验或理论的关联式（试验数据的后期处理）（1）经验模型：在试验数据范围内适用，如果超出了试验数据的范围，则可能不准确（2）半经验模型：经过了一定的理论推导，但某些参数不能确定，用实验的方法来确定（3）理论模型：首先经过理论推导，得出理论模型，为了验证其正确性，再设计试验（适用范围宽）化工数据的特点：数据量大、参数多、可控变量多（温度、压力、油品性质等）、副反应多，不确定因素多等我们所要讲的就是：结合化工生产及科研中的数据分析和处理实例，从实用的角度出发，介绍数理统计方面的一些常用的方法和理论知识，把它应用到化工实验数据处理中去，掌握数据处理方法，解决实际问题，最直接的应用就是解决论文中的数据处理问题。二课程主要内容1误差理论及概率分布2数据的预处理3一元线性回归分析4多元线性回归分析5多项式回归分析6非线性回归分析7一元方差分析8多元方差分析第一章误差原理及概率分布第一节常用名词观察值（测量值）：用xi来表示，代表每次试验所得的数据。总体（母体）：用{xi}来表示，i=1，2，3…n，

n→∞，代表所研究对象的全体元素组成的集合，总体中的每一个成员称为个体。样本：用{xi}来表示，i=1，2，3…n，

n为有限数，通常也称为子样，代表从母体中取得的一部分元素组成的集合。通过统计分析，可以由样本的特性来推断总体的一些性质。真值：用µ表示，如果观察值总体{xi}，n→∞时的平均值趋近于某一固定值，则称为随机收敛，这个收敛值在统计意义上代表了所测量对象的真值。说明：在绝大多数情况下，被测量的真值是未知的，但并不意味着真值是不可知的。但是，测量次数不可能无穷大，仪器设备的误差也不可能完全消除，所以，在实际测量中，只能是逐步地逼近真值第二节误差原理误差：用εi表示，εi=xi-µ，测量值减去真值一误差公理试验结果都具有误差，误差自始至终存在于一切科学实验中。二误差的表示方法①绝对误差=xi

-µ，（测量值减去真值），受真值大小的影响，在某些场合不太适用，如：测量1m的物体，误差为0.01m；而测量1Km的物体，误差为1m。②相对误差=绝对误差/真值≈绝对误差/测量值，代表的是一个比例关系，所以称相对误差。③引用误差=绝对误差/仪表的满刻度值（Xn）。工业仪表一般分为7个等级，S=0.1，0.2，0.5，1.0，1.5，2.0，2.5，引用误差≤S%，而绝对误差≤Xn*S%，所以，X的测量值越大，则相对误差越小，反之越大。测量误差：测量值与真实值之间存在的差别。真值表示一个变量本身所具有的真实值,它是一个理想的概念，一般是无法得到的。在计算误差时，一般用约定真值或相对真值来代替。

约定真值：一个接近真值的值，它与真值之差可忽略不计。实际测量中在没有系统误差的情况下，把多次的测量值的平均值作为约定真值。相对真值：指当高一级标准器的误差仅为低一级的1/3以下时，可把高一级的标准器或仪表示值作为低一级的相对真值。绝对误差的实质，是仪表读数与被测参数真实值之差。仪表的绝对误差只能是读数与约定真值或相对真值之差。相对误差：仪表的绝对误差与真值的百分比。引用误差：绝对误差与仪表量程的百分比。仪表精度等级又称准确度级，是按国家统一规定的允许误差大小划分成的等级。我国仪表精度等级有：0.005、0.02、0.05、0.1、0.2、0.35、0.4、0.5、1.0、1.5、2.5、4.0等。级数越小，精度（准确度）越高。

一级标准仪表的准确度是：0.005

，0.02

，0.05

二级标准仪表的准确度是：0.1，

0.2

，0.35

，0.5

一般工业用仪表的准确度是：1，

1.5

，2.5，

4.0

三误差的来源①测量装置的误差⑴标准仪器：石英钟、标准尺、色度板、标准电池、电阻等⑵仪器：天平、压力表、温度计、分光光度计等⑶附件：电源、开关、地线、热源、气源等⑷调整：零点调节、水平调节、流量、转速等⑸变化性误差：仪器老化、磨损、变形等，指的是装置本身测量系统的误差②环境误差：如温度、压力、湿度、振动等③人员误差：包括个人读数习惯，操作水平、读错、记错等④方法误差：所选用实验方法本身的误差（由于方法不完善，对标准方法进行某些省略及测量所依据的理论不完善而引起的误差。四误差的分类①系统误差：由实验条件所决定的误差。具有确定的性质，在实验条件相同时，误差的绝对值及符号恒定，也叫恒定误差。注：有的书加入了按一定规律变化的误差这一项，其中变化包括：线性变化、周期性变化（旋转指针）、复杂变化规律。②随机误差：随机变量（时大时小时正时负）。具有抵偿性，特点：经过多次测量后，误差和趋于零，也叫偶然误差。③粗差：超出在规定条件下的预期结果的误差，与事实不符的误差，由测量时的过失造成（过失误差）。可以通过我们下面要讲的一些方法来剔除，要采用的实验数据中，不应该包括粗差。五精度反映测量结果与真值接近程度的量，与误差大小相对应。可分为：①准确度：反映系统误差的影响②精密度：反映随机误差的影响③精确度：反映系统误差与随机误差六有效数字的舍取有效位数的确定方法：

所取得位数除末一位数字为测量时可疑数字或估计数外，

其余各数均为准确可靠的。①有效数字的舍入原则：“四舍六入五单双”⑴若舍去部分的第一位小于5，则前一位不变，如：28.2345三位有效数字，为：28.2；⑵若舍去部分的第一位等于5，而其后数字均为零，则前一位数字凑成偶数，偶数时不变，奇数时加1，如：28.25≈28.2，28.35≈28.4⑶若舍去部分第一位为5，而其后数不全为零则进1，如：28.2501取三位有效数字≈28.3⑷若舍去部分第一位大于5，则前一位加1，如：28.2645，则取三位有效数字为28.3②有效数字的运算：在有效数字运算过程中，应遵循“先取舍，后运算”的原则⑴加减时，各数据以小数位数最少的数据为准，其余各数据可多取一位小数，但最后结果应与小数位最少的相同，如：23.62+0.0083+1.643≈23.62+0.008+1.643=25.271≈25.27⑵乘除时，应以有效数字最少的或误差最大的数字为准，其它数据可以多取一位，最后结果应与有效位数最少的数据位数相同。如：0.0121*25.6432*1.0578≈0.0121*25.64*1.058=0.3282≈0.328⑶计算平均值时，如有4个或4个以上的数相平均，则平均值的有效位数可加1⑷在平方或开方运算时，可以按照乘除运算处理。⑸在对数计算时，结果可以多取一位有效数字。⑹中间运算结果所保留的数据位数可比简单运算结果多取一位有效数字。七研究误差的意义①正确认识误差的性质，分析误差的原因以消除或减小误差；②正确处理测量和实验数据，合理计算所得结果，以便在一定条件下得到更接近于真值的数据；③合理设计实验方案，正确组织实验过程，选用合适的仪器和测量方法，得到理想结果。第三节随机变量的概率分布

RandomVariable(R,V

)

一随机变量的概率分布分类主要分为两种：离散型和连续型①离散型：X(R,V)

X=X1，X2，…，Xn

概率Pi=P1，P2,…,Pn

所以Pi=P(X=Xi)②连续型：——概率密度函数概率密度有很多种，所以概率密度函数也是多种多样的。几种主要的概率分布①正态分布②t分布③c2分布④F分布二正态分布科学试验与工程技术中所遇到的随机变量，大多数属于正态分布或近似正态分布。概率密度函数

σ：随机变量的标准差，σ是变量，是数据变异的有效判据

σ2称为标准方差µ：随机变量的真值（代表总体的均值）如果分布函数令：εi=xi-µ误差项的概率分布改写概率密度函数：令：

当σ=1，µ=0时，Z=x

此时，把

定义为标准的正态分布密度函数此时，记作：X~N(µ，σ2)ε~N(0，σ2)

Z~N(0，1)ε~N(0，σ2)的正态分布的图形特点：⑴单峰性：只有一个最高点，所对应横坐标为0⑵具有对称性：代表正负误差出现的概率相同⑶有界性：以Z~N(0，1)为例查表：Z=1，

则ψ(Z)

可得：ψ(Z)

=0.8413同样也可得到：P(-2<Z<2)=0.9545P(-3<Z<3)=0.9973对于ε~N(0，σ2)有：P(σ<ε<σ)=0.6827P(-2σ<ε<2σ)=0.9545P(-3σ<ε<3σ)=0.9973而：P{|ε|>2σ}<1-0.9545=0.0455有界性，误差的绝对值达到一定程度后的概率密度趋于零⑷抵偿性：当n→∞时，误差的和趋近于零，互相抵消，也就是说正负误差出现的概率相等。第四节几种重要统计量的概率分布一统计量的概念样本x1，x2,……,xn(R，V)的可测函数，我们称为统计量，简单的说，就是可以用xi来表示的函数。如：样本的均值：是一个常用的统计量样本方差：

也是统计量

不是统计量二样本的平均值的概率分布①如总体遵循正态分布，总体均值为µ，总体方差σ2

X~N(µ，σ2)可以证得：~N(µ，σ2/n)令，

则Z~N(0，1)②总体为非正态分布，但已知µ

和σ2当样本容量n≥30时，近似于N(µ，σ2/n)③当总体为正态分布，但未知σ2（标准方差）则可用样本方差S2代替总体方差σ2，此时

不服从正态分布，而是服从t分布。令

，称为服从自由度为n-1的t分布特点：当n→∞时，t分布趋近于正态分布临界值：正态分布—Az，t分布—At

a：置信水平1-a

：置信概率P(-At<T<At)=1-a

或P(|T|<At)=1-

a查表：给出n后，选定置信水平a

，常选0.05或0.01查表求At，

At单侧时查a/2如当n=26，a=0.05时，a/2=0.025，查得：At=2.0595三样本方差S2与总体方差σ2的关系X~N(µ，σ2)引入

，服从自由度为n-1的c2的分布临界值：AkP(Ak1<c2<Ak2)=1-a如：已知a=0.1n-1=10，查表求Ak1，Ak2书上一般给出单侧的

a/2=0.05n-1=10可查得Ak2=18.307Ak1则查1-a/2=0.95Ak1=3.940所以，P（3.94<c2<18.307）=0.9*(1-a)四样本方差比的分布若有两个服从正态分布的总体X

1~N(µ1，σ12)样本数：n1

样本方差：S12X

2~N(µ2

，σ22)样本数：n2

样本方差：S22则有：

服从自由度为f1=n1-1，

f2=n2-1的F分布F的重要性质：如果F变量服从分布F（n1，n2

）那么

服从分布F（n2

，n1

）因为例如：n1=11=5.35n2=9=7.35a=0.05则：

Af1(10，8)=1/Af

(8，10，0.025)=1/3.85=0.2597Af2(10，8，0.025)=4.30因此，P（0.2597<F<4.3）=0.95五总结几种随机变量的概率分布①正态分布

Z~N(0，1)Z=(Xi-µ)/σ

具有单峰性、对称性、有界性及抵偿性②t分布服从自由度为n-1的t分布总体为正态分布，未知σ2时，用S2代替③c2分布服从自由度为n-1的c2分布，样本方差与总体方差σ2的关系④

F分布服从自由度为n1-1，n2-1的F分布，样本方差比的关系第五节参数估计（ESTIMATEOFAPOPULATIONPARAMERER）统计推断（StatisticInference）主要分为两部分：参数估计，假设检测参数估计主要分为：点估计，区间估计一点估计如果X(R，V)的未知函数为θ，把样本里的另外一个函数θ*（X1，X2，……，

Xn）作为θ的一个估计，称θ*为θ的点估计。①点估计的好坏标准⑴无偏估计如Z(θ*)=θ，则称θ*为θ的无偏估计

无偏性是对估计量θ*的最基本要求E(S2)=σ2

所以，S2是σ2的无偏估计

E()=µ

所以，是µ的无偏估计例如：求：E(S2)

⑵有效估计

θ1*和θ2*都是θ的无偏估计，如D(θ1*)<D(θ2*)，

则θ1*比θ2*有效。

D为方差标识符例：E(Xi)=µ，E()=µ，哪个更有效？因为：D(Xi)=S2D()=S2/nD()<D(Xi

)所以，比Xi更有效⑶一致估计当容量增大，对于任一数ε，如果则称θ*为θ的一致估计。由契比雪夫不等式P(|-µ|>ε)≤σ2/(ε2n)如果σ为一个有限数，则或者说因此，为µ的一致估计同理，S2为σ2的一致估计二区间估计对于θ1*（X1，X2，……，Xn），θ2*（X1，X2，……，Xn），如果（θ1*，θ2*）包含θ的概率为1-a，则称（θ1*，θ2*）为θ的区间估计。即如果P（θ1*<θ<θ2*）=1-a

，则（θ1*，θ2*）为θ的区间估计，也称置信限。通常a取0.01，0.05，0.1。最常用的是0.05。①总体均值µ的区间估计⑴如果总体方差已知为σ2，且大样本时可视为服从正态分布，~N(µ，σ2/n)

令~N(0，1)

在给定的a

下，可以找到临界值Az

使得：P(-Az(

)<T<Az(

))=1-a变换：P(-Az(

)*σ/<µ<+Az(

)*σ/)=1-a因此，µ处于(-Az(

)*σ/，+Az(

)*σ/)区间内例：取a=0.05，已知n，可查得Az，求出区间范围如为小样本但服从正态分布时也适用⑵总体方差σ2未知，大样本或服从正态分布令：~t

(n-1，a/2)的t分布则有：P(-At<T<At)=1-a

估计区间为：

P(-At(n-1，

)*S/<µ<+At(n-1，

)*S/)=1-a

例：a=0.05n-1=25得：

=0.025，查表At=2.0595，求出µ的区间②两个正态总体均值差的区间估计（成组对比）X1~N(µ1,σ1)X2~N(µ2,σ2)分为两种情况⑴σ12，σ22已知，则有：（

）~N(µ1-µ2，)

令：~N(0，1)

则有：P(-Az<Z<Az)=1-a，可查表求得Az()所以：()-Az(

<µ1-µ2<()+Az()*⑵σ12，σ22未知，σ12=σ22

构造T函数：T=()~t(n1+n2-2，

)

其中：St为组合方差

当n1=n2时，

组合方差St可以简化为由n1，

，

查出临界值At则有：③任意两个样本的均值差的估计（成对比较）n1=n2=n时第一个样本（x11，x12，……，x1n）第二个样本（x21，x22，……，x2n）令：则组合误差

利用T函数(t分布)～t(n-1，

)可得：④总体方差S2的估计构造c2函数

查出临界值Ak1,Ak2

则有P(Ak1<<Ak2)=1-aAk1由

查得，Ak2由

查得可得⑤两个正态总体方差比估计(F分布)令～

F(n1-1，

n2-1，

)Af1<<Af2

其中：

第六节假设检验

一基本原理H0为原假设，由样本的性质推断：接受原假设H0；或拒绝原假设H0，接受H1。通过样本的特别性来判断是拒绝原假设还是接受原假设。假设检验的基本依据是：概率论中的小概率事件不可能发生的原理基本思路是：要检验假设H0，先假定H0为正确的，由H0及一些已知条件，推断一些常用的统计量是否落在大概率范围内，是则接受H0，否则拒绝H0，接受H1。例：已知某反应器长期运转的转化率为µ0=0.92，另测得某天的10个数据：0.9137，0.9196，0.9145，0.9313，0.9257，0.9287，0.9293，0.9165，0.9277，0.9233，试判断当天反应器操作正常与否？解：先做原假设假设H0：µ=µ0构造统计量：~t(n-1，

)方差，µ=µ0所以，可求得T=1.46给出适当的a如a=0.1则有At

（9，0.05）=1.833>1.46|T|<At，落在大概率事件范围内，接受H0所以，µ=µ0，也就是说当天的反应器操作正常二假设检验的步骤①先做假设H0，如：µ=µ0，S2=σ2，

等②引入一个统计量（根据实际情况而定）Z，T，c2，F等③把假设H0带入统计量中④计算统计量的值（根据样本值计算出统计量的值）⑤确定显著性水平，如a=0.1，0.05，0.01等⑥判定假设拒绝与否，如|统计量|〉临界值，则拒绝H0，否则接受第二章数据的预处理

误差+干扰→噪音信息+噪音→观察值第一节粗差与异常数据的剔除一技术判别法二统计判别法第二节三倍标准差法误差εi=xi-µ，用代替µ，则令ei=xi-如果|ei|>3σ，则第i个数据为异常数据此时，ε>3σ出现的概率，只有0.3%a=0.0027往往σ也未知此时，用S代替σ，也就是说|ei|>3S时，可剔除此方法较早，当n较小时不可靠例如：当n＝10时，也就是说：当n

<10时，│ei│<3S

总是成立的，此时所有的数据都不能剔除。计算步骤：①计算样本均值标准方差标准差

②对ei最大的数据采用3σ准则进行判断，如果|ei|>3S则剔除，如|ei|<3S则结束；③如有剔除，计算剩下的（n-1）个数据样本的均值与标准差S´④利用3σ准则进行判断，循环，直到找不到含有粗差的测量数据为止。第三节肖文奈特准则（chauvenet）肖文奈特认为：在n次测试中，有0.5次为异常数据，则异常数据出现的概率为：0.5/n=1/2n=a，则可以通过a，n，可以查得Az，如果|ei|〉Az*S，则剔除。例：当n=10时，a=0.05，查表：Az=1.96

=0.025，1-

=0.975如：ei=|xi

-|>1.96*S，则剔除所以当数据较少时，可以采用此法。第四节格拉布斯准则适用于对同一参数进行重复测量得到的一系列测量数据的处理。原理：对于某一组重复测量x1，

x2，…，xn，样本均值样本方差对于数值大于均值的数据，定义gi=(xi－)/S对于数值小于均值的数据，定义gi=(－xi)/S选定显著性水平，a=0.05，0.01，0.025等，如果某一测量值xi所对应的gi满足，gi>gα(n)，则在a时，该数据含有粗差，应予以剔除。

gα(n)可以从表中查得计算步骤如下：①首先将测量数据按由小到大顺序排列；②计算样本平均值及标准差S；③根据测量次数n及选定的显著性水平a，查格拉布斯检验系数表得到gα(n)；④对应与均值偏差最大的数据（最大或最小的）进行判断，如果gi>gα(n)，则该数据为粗差，剔除；⑤对剩余n-1个测量数据进行计算，直至无可剔除的数据为止。注意事项：①以上各方法均为每次剔除1个数据，经过第一次剔除后，得到n-1个数据，剩下的数据需重新计算和S再剔除，

直到不能剔除为止；②以上方法均为针对同一参数进行重复测量得到的一系列测量数据的处理与我们后面讲到的回归分析中回归参数的剔除不同，不要混淆；③此处为求和S，而回归分析中求回归系数，剔除后，重求回归系数再进行判断。第五节测量数据序列中干扰成分的滤除一般采用的方法是利用信息与噪音在数值上波动频率变异不同的特性，因而称为数字滤波法。数字滤波法可分为三类：①高通滤波——滤除低频噪音②低通滤波——滤除高频噪音③带通滤波——滤除高低频噪音，保留中频对于大多数化工数据，一般频率较低，应采用低通滤法，去掉高频信号的方法称为平滑。第六节线性滑动平滑法首先，我们介绍滑动平滑法中最简单的一种，用线性函数进行滑动平滑。X（等间距）X1

X3……XnY

Y3……Yn利用线性平滑U1

U3……Un令：Ui=a0+a1

Xi由上式可求出X=Xi时的Ui值，即为Yi的平滑值。平滑后，Ui与Yi为一一对应的关系

一三点线性平滑法(Xi-1，Yi-1)(Xi，Yi)(Xi+1，Yi+1)对于等间距的X经处理后可变为：

Xi-1=-1，Xi

=0，Xi+1=1令：也就是：根据最小二乘法原则：应满足：可解得：a0，a1

解得：a0=1/3*（Y

i-1+Yi+Yi+1）

a1=1/2*（Yi+1-Yi-1）

Ui=a0+a1Xi

因为：Xi=0则：Ui=a0=1/3*（Yi-1

，Yi，Yi+1）<通过三个点信息，得出一个点信息>对于两端点的情况，通过端点的三个点来确定端点情况：U1=a0+a1

X1=5Y1/6+2Y2/6-Y3/6

Un=an+an

Xn=(-Yn-2+2Yn-1i+5Yn)/6

U1的系数写成系数紧凑矩阵

U2~Un-1的系数

Un的系数二五点线性平滑法（平滑程度最好）

系数紧凑方阵

6420-2U1的系数

43210U2的系数

22222

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数据处理讲义第1,2章

文档简介

温馨提示

最新文档

评论

数据处理讲义第1,2章

文档简介

温馨提示

最新文档

评论

相关文档