小二乘法与回归分析.ppt_第1页
小二乘法与回归分析.ppt_第2页
小二乘法与回归分析.ppt_第3页
小二乘法与回归分析.ppt_第4页
小二乘法与回归分析.ppt_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

5 化学计量学方法,6.1 引言 6.2 线性回归分析 6.3 化学因子分析 6.4 人工神经网络 6.5 小波分析 6.6 独立成分分析 6.7 支持向量机分类与回归,本课程的教学内容,最小二乘法与回归分析 化学因子分析 人工神经网络 小波分析 独立成分分析 支持向量机分类与回归分析,5.2 回归分析及检验,回归分析是研究随机现象中变量之间关系的一种数理统计方法,它在生产实践和科学研究及实验中有着广泛的应用。目前在寻找经验公式,探索新配方,制定新标准,预言效果等方面都已取得不少成绩。 在科学研究及生产实验中,常常会遇到在同一个事物中有多个变量存在,而且它们相互关联,相互制约。这种关联和制约表明它们之间客观存在一定数学的或其他的关系。但要找出它们之间数学关系的数学解析式是非常困难的,有时是不可能的。因此需要用数量统计的方法,在大量的试验中,寻找出隐藏在各变量间的统计规律性或近似的数学模型,这种关系称之谓回归关系。有回归关系的计算方法及理论叫做回归分析。,回归分析的主要内容,从一组数据出发,确定这些变量间的定量关系式; 对这些关系的可信度进行统计检验; 寻找某一个应变量和哪些自变量有关,其影响程度如何; 利用上述关系,进行预报和控制; 选择较少的试验点,获得更多的信息,对试验进行较好的设计。,5.2.1 最小二乘法原理,设实测数据为(xi,yi)(i=1,2,n),其近似符合函数 y=(x,a1,a2,am) (nm; a1,a2,am是待定系数 ) 当用测定值x=xi(i=1,2,n)代入(4.6-1)可计算出y值,记作,不要求近似函数通过全部观测点,计算值与实测值不一定完全相等,之间的差称为残差,残差的大小是衡量待定参数a1,a2,am好坏的重要标志。,如何确定残差?,残差和 残差绝对值和 残差平方和,这样问题就归纳为求多元函数Q(a1,a2,am) 极小值点,解此方程即得参数 aj(j=1,2,m) 近似函数 y(x,a1,a2,am) 这就是曲线拟合的最小二乘法原理。,应用举例-1,问题: 改变某有色有机酸H2L的溶液的pH,测得溶液的吸光度A,计算该有机酸的离解常数Ka1,Ka2。 解:根据吸光度的加和性可得: H2LHLL 将它们用H+及Ka1、Ka2表示,则有,AH2L、AHL和AL为溶液全部以H2L、HL-或L2-形式存在时的吸光度。其中AH2L和AL 都可由实验直接测定,因为在足够高的酸度下,有机酸将全部以H2L形式存在, 这时溶液的吸光度即AH2L;同理, 在足够高的pH值时, 测得的吸光度为AL。所以 只剩下AHL不易测准。,令 y=(AH2LA)H+2 , x1=AH+, x2=AAL ,x3=H+ , Ka1=a1, Ka1 Ka2 =a2 , AHL Ka1 =a3,这是三元一次方程组, 理论上讲只要测得三组数据(pH1,A1), (pH2,A2)和(pH3,A3), 就可以 解出三元一次方程组, 算出a1,a2和a3。但是在实验中,常常带有实验误差,只凭三组 测量值进行计算会使结果很不可靠,所以,通常要测量许多组实验数据pH1,A1pH2,A2; pH3A3; pHn,An,得到n个方程, 因为n3, 该方程组为矛盾方程组, 可用最小二乘法求解。,上机作业,用光度法测定间苯二酚的离解常数Ka1 ,Ka2 ,测得溶液的pH和A的数据如下: pH 2.90 3.00 3.10 3.20 3.30 3.40 3.50 3.60 3.70 A 0.370 0.374 0.378 0.382 0.387 0.393 0.398 0.403 0.407 pH 4.28 4.38 4.46 4.54 4.64 4.72 4.78 4.85 4.91 A 0.407 0.403 0.398 0.393 0.387 0.382 0.378 0.374 0.370 并且测得AH2L = 0.353, AL = 0.337。 要求: 将由实验测定所得pH和A经换算后得到课堂所讲y, x, a等形式,编程语言任选; 矛盾方程组求解可以编程实现,或由统计软件中的多元线性回归分析而得; 将数据预处理程序及结果、数据处理最后结果等以附件l形式交送至化学信息学网络课堂.,5.2.2 线性回归分析,一元线性回归 通过一组实验数据进行最小二乘法回归处理,求出直线的斜率和截矩,并根据一定的统计方法处理,得到较多的统计信息,对实验数据线性相关性进行检验及进行预报等。,平均值 差方和,回归分析结果,回归方程检验,相关系数 总差方和(S)=剩余差方和(Q)+回归差方和(U) r1。越大,表示相关性越好。r0,正相关, 直线的斜率为正; r0,负相关,直线的斜率为负; r=0,不相关, 即y与x之间无线性相关关系。r值多大, y 与 x之间才有相关关系呢? 这可由自由度(f)及指定置信水平下的 rf, a值来判断, 这叫 r检验法。rf, a可以从相关系数检验表中查得。如果r的计算值大于相同f及指定a下的rf, a,则y与x显著相关,否则y与x之间无线性相关关系,拟合函数即失去意义。,F检验法 在一元线性回归分析中, fS=n-1, fQ =n-2, FU =1,根据给定的置信水平,从F检验表中查得F(fU, fQ)的临界值, 若计算得到的F值大于F(fU,fQ ), 则y与x之间有线性关系,否则, 无线性相关关系。,回归线的精度 剩余标准偏差值越小,表示根据拟合函数预报的就越准确.若在拟合函数所表示的直线两侧各画一条直线 y = a + bx + z y = a + bx - z 可以预料, 在全部可能出现的y值中, 当z=0.5时,则38.0%的点落在这两条线所夹的范围之内; 当z=1时, 则68.3%的点落在这两条线所夹的范围之内; 当z=2时,大约有95.4%的点落在这两条线所夹的范围内; 当z=3时,则99.7%的点落在这两条线所夹的范围之内。,a, b的变动性 a, b变动性的大小与剩余标准偏差的大小及xi 值的波动有关, xi 越分散, a和b就越小, 另外,a还与测量点数n有关, n值越大, a就越小。这就从统计学上说明了改进实验的方法。最后,根据拟合函数预报y时,还与x有关,即x越靠近,预报就越准,因此,在计算时,一般作内插预报,而不要任意外推。,应用举例-2,某合金钢的抗拉强度y1 (kg/mm2)和延伸率y2与钢中碳含量x有一定的关系,其实验数据如下表所示。要求预报使此合金钢抗拉强度y132kg/mm2,延伸率y233%,且要求有95%的把握满足上述要求,问含碳量在什么范围。 合金钢成分及性能实测数据 x(%) y1(kg/mm2) y2(%) x(%) y1(kg/mm2) y2 (%) 0.03 40.5 40.0 0.15 46.0 40.5 0.04 41.5 34.5 0.16 48.0 33.0 0.05 42.5 41.5 0.17 53.0 37.0 0.06 43.0 37.5 0.18 50.0 36.5 0.07 39.5 36.0 0.20 52.5 37.0 0.08 42.0 40.0 0.21 56.0 31.0 0.09 42.5 34.5 0.23 60.0 32.5 0.10 43.5 39.0 0.24 56.0 32.4 0.11 42.5 31.5 0.25 54.5 35.5 0.12 49.0 41.0 0.26 61.5 33.3 0.13 43.0 37.5 0.29 59.5 31.0 0.14 49.0 40.0 0.32 64.0 32.0 ,解 将例实测数据进行线性回归处理得如下结果: 对抗拉强度:回归方程 y1= 85.6093x +36.02 剩余标准差 1=2.3673 显著性检验 F=205.7 相关系数 r=0.9504 对延伸率: 回归方程 y2 = -25.1589x +39.89 剩余标准差 2 =2.7970 显著性检验 F=12.72 相关系数 r=0.6050 若有95%的把握满足题中条件,则应 85.6093x + 36.02 + 22.3673 32 85.6093x + 36.02 - 22.3673 32 -25.1589x + 39.89 + 22.770 33 -25.1589x + 39.89 - 22.770 33 解之得 0.0083x0.0536 因此可以预测,当合金钢的含碳量在0.0083%到0.0536之间时,可以有95%的把握说其抗拉强度大于32kg/mm2,延伸率大于33%;同理可以计算得当把握要求降至90%时,含碳量范围变为0到0.13%之间(含碳量为负时没有实际意义,舍去该值)。,一些可转化为线性回归的非线性情况,多元线性回归分析 多元线性回归的数学模型 y = a0 + a1x1 + a2x2 + + amxm 由实验测得n组相互独立的实验数据 xi1,xi2,xi3,xim,yi (i=1,2,n; nm) 多元线性回归方程的检验 总差方和(S)=剩余差方和(Q)+回归差方和(U) 复相关系数 方差比 剩余标准偏差,S的自由度 fS=n-1 U的自由度 fU =m Q的自由度 fQ=n-m-1,例7 N,N-二甲基-2-溴苯乙胺衍生物是肾上腺阻断剂当Y和Z接上不同的取代基,其生物活性是不一样的,Y和Z取代基的结构信息参数通常取其疏水值和电子参数,其结果如下表所示。,REGRESS Multiple linear regression using least squares. b = REGRESS(y,X) returns the vector of regression coefficients, b, in the linear model y = Xb, (X is an nxp matrix, y is the nx1 vector of observations).,B,BINT,R,RINT,STATS = REGRESS(y,X,alpha) uses the input,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论