




已阅读5页,还剩74页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
高等仪器分析-化学计量学,主讲人:杜一平,分析化学数据,实验数据化学分析:单点数据仪器分析:多维数据数据维数增加0维-标量;1维-向量;2维-矩阵;3维-张量;样本数量增大数据量越来越大趋势,数据库,海量数据,大数据(bigdata)大数据量显然信息量大,但挖掘有用信息难度也大;数据处理方法研究越来越重要:化学计量学方法应用不止局限于分析化学学科:相关学科,不同产地南丰蜜桔HPLC指纹图谱,收集江西(18个)、福建(18个)、湖南(18个)和广西(10个)南丰蜜桔样品,经有机溶剂提取后进行HPLC分析X:464632,对64个HPLC色谱图进行主成分分析:X=USVT特征值:前3个主成分特征值的所占比例,58.0%、11.2%、8.4%,剩余21.4%Scores散点图:样本点分类,光谱数据和定量校正曲线,光谱成像数据,图三维成像光谱数据示意图,蛋白质各级结构(a)Primarystructure(b)SecondarystructureAlu-Glu-Val-Thr-Asp-Pro-Gly-Helix-Sheet(c)Tertiarystructure(d)Quaternarystructure图肽链在空间卷曲特定的三维空间结构,数据的表达-数字化,0维-标量:x=2;1维-向量:x=1357;2维-矩阵:X=;3维-张量:Z=X1X2X3,1971年,瑞典化学家Swante.Wold(Umeauniversity)在申请一项基金时,提出了化学计量学(Chemometrics)这个名词。,Chem-istrymetricsChemometricsEcono-micsmetricsEconometrics,化学计量学简介,BruceR.KowalskiUniversityofWashington,他们被公认为是化学计量学的创始人。,美国Bruce.R.Kowalski非常赞赏这一叫法。后来在1974年与Swante.Wold合作成立了国际化学计量学学会。,化学计量学简介,一门运用数学、统计学、计算机科学以及其他相关学科的理论与方法,优化化学量测过程,并从化学量测数据中最大限度地获取有用的化学信息的学科。化学中的一门分支学科(分析化学)多学科交叉的新学科,化学计量学定义,解决问题策略:分析化学利用计算机为手段,利用数学和统计学方法实现数据的解析。,早期的化学计量学,数理统计方法。从七十年代开始,统计学、数学、行为科学、经济计量学等领域研究,分析化学学科的一个独特分支-化学计量学。二十世纪七十年代以后,分析仪器、联用分析仪器的发展,数据容量迅速增加。大量的数据的有用信息,需要发掘方法。九十年代以后逐渐走向成熟,应用日广。计算机、分析仪器、其他学科发展;需求-生命科学、材料科学、能源等。,化学计量学发展,化学计量学的典型应用,传统定性定量分析:多元分辨、多元校正仪器量测信号处理:数据处理方法、最优化方法模式识别:污染源识别、疾病诊断、中药识别、;试验设计:分子设计和药物设计:新药发现及结构性能关系(QSAR)研究;过程分析:工业过程监测和控制。,化学计量学基本特点多维数据:向量,矩阵,张量。多变量数据来自各种测量:典型的为仪器分析数据。信息提取方法:利用各种手段持续发展的科学,充分利用量测信息,化学计量学研究内容,平滑求导拟合主成分分析,化学计量学方法:常用数据处理方法,平滑就是一种去除或减少噪声以提高信噪比的数学方法。,平滑,窗口移动平均法,x=a0+a1j+a2j2+.+apjp,Savitzky-Golay平滑法-多项式拟合,=(YtY)-1Ytx,=,x=a0+a1j+a2j2+.+apjp,Savitzky-Golay平滑权重系数表(多项式阶次为2或3),提高信号的分辨率,减少干扰。紫外-可见光谱分析中用到的导数分光光度分析;近红外光谱分析中,常用2阶或1阶导数光谱进行定性定量分析;电化学分析中,有时利用对溶出伏安曲线求导来去除或减少其它组分的干扰,提高被测组分的信噪比。有很多种类的分析仪器已经把求导作为一种固定的方法,加入到仪器的数据处理软件中。,求导,1.差分法,2.Savitzky-Golay拟合法,x=a0+a1j+a2j2+.+apjp一阶导数:dx/dj=a1+2a2j+.+papjp-1当j=0时,dx/dj|j=0=a1二阶导数:d2x/dj2=2a2+6a3j+.+(p-1)papjp-2当j=0时,d2x/dj2|j=0=2a2当j=0时(即对应窗口的中心点),各阶导数计算的通式dqx/djq|j=0=q!ap,窗口宽度k=9,p=4,3阶导数表达式,d3x/dj3|j=0=1/198(-14x-4+7x-3+13x-2+9x-1-9x1-13x2-7x3+14x4),拟合,实验数据理论解释研究变量之间关系:y=f(x),多个变量,y=f(x1,x2,),函数拟合基本思想,=f(a,x)Ei=-yi=f(a,xi)-yi差方和E2最小。,线性函数拟合y=a+bx1+cx2,y=f(a,x)+e,拟合计算工具,Excel,Matlab:b=fit(X,y,fittype)功能强大,点中曲线,右键选择添加趋势图,主成分分析,主成分分析,PrincipalComponentAnalysis,PCA最基本的化学计量学方法之一是很多复杂化学计量学方法的基础应用广泛,主成分分析,四个产地南丰蜜桔样品HPLC分析X:464632,对64个HPLC色谱图进行主成分分析:X=USVT特征值:前3个主成分特征值的所占比例,58.0%、11.2%、8.4%,剩余21.4%Scores散点图:样本点分类,一种重要降维方法基本思想:对量测矩阵Y中的各个变量进行线性组合,形成新的变量,称为主成分。主成分计算原则是得到主成分表达的方差最大,化学意义就是所含信息最多。计算方法:按方差最大,计算各个变量的线性组合,得到第一主成分;对剩余的矩阵,即量测矩阵Y减去第一主成分表达部分,再按方差最大原则,计算各个剩余变量的线性组合,得到第二主成分;依次计算第三、第四、主成分。新变量之间相互正交。方差代表表达的信息量,按顺序减少,可用来评估主成分解释的信息百分率。Matlab方法U,S,V=svds(X,n),主成分分析,多个主成分,多个投影方向多维主成分分解(n)x=x1x2.xn将x投影到vi1vi2vint上得到新变量yi,vi1vi2vint就是系数向量,即投影方向。所有n个新变量组成矩阵Yyi=vi1x1+vi2x2+vinxn,(i=1,2,n),例,高分子液晶材料在不同温度下结晶情况,StructureandthephasetransitiontemperaturesofFLC-1.,Infraredtransmissionspectraof11-layerLBfilmsofFLC-1measuredatroomandelevatedtemperatures.,TemperaturedependencesofthefrequenciesoftheCH2symmetricstretchingband(a),C=Ostretchingbandofthepartnearthechiralcarbonatom(b)andthephenylringstretchingband(c)forthe11-layerLBfilmsofFLC-1.,PC1vs.temperatureplotinboth40-80C(a)and27-55C(c)temperatureintervalsandthoseinfullmeasuredtemperaturerange(b)atrangeof1450-1745cm1forthe11-layerLBfilmsofFLC-1.,几种化学计量学方法简介,多元校正多元分辨模式识别定量构效关系最优化方法,校正-定量分析经典分析化学的校正方法-校正曲线y=cx+e多变量校正y=y1y2.ym=cx1x2.xm+ey=c1x1+c2x2+.+cnxn+ey=Xc+e,多变量校正,多元线性回归MLR,多元线性回归方法-最小二乘法:y=Xc+ee=y-Xc残差平方和S=ete=(y-Xc)t(y-Xc)=yty-yt(Xc)-(Xc)ty+(Xc)t(Xc)=yty-ytXc-ctXy+ctXtXc=yty-2ytXc+ctXtXc=-2Xty+2XtXc=0则,XtXc=Xty=(XtX)-1XtyMatlab:c=inv(X*X)X*y,多元线性回归解具有优良的统计学性质多元线性回归解的性能指标=(XtX)-1Xty,=X相关系数:R2=1-残差平方和RMS多元线性回归应用建模与浓度计算y=Xc+e,常见多元校正方法,多元线性回归,MLR,y=Xc+e主成分回归法,PCR通过PCA计算主成分,取前面若干主成分Z=Xv进行MLR,y=Zc+e=Xvc+e偏最小二乘回归,PLS通过类似PCA方法计算主成分(称为PLS因子),取前面若干因子Z=Xv进行MLR,y=Zc+e=Xvc+e计算PLS因子时同时考虑X和y因素。支持向量机,SVM人工神经网络,ANN,四种不同液体表面活性剂,羟值相关性,酸值相关性,NIR光谱PLS校正结果(两个组分校正),分辨就是解决干扰问题,即从混合组分复合量测信号中分辨、解析出被测组分“纯”的分析信号。利用多个分析通道(如波长、保留时间等)的信息进行分辨就称为多变量分辨,又称多元分辨。,多变量分辨,近些年来,化学计量学中的多变量分辨方法研究和应用非常活跃,尤其是在解析色谱重叠峰上取得了很大成功。,多变量分辨算法很多渐进因子分析法(EvolvingFactorAnalysis)窗口因子分析法(WindowFactorAnalysis)直观推导式演进特征投影法(HeuristicEvolvingLatentProjections)正交投影分辨法(OrthogonalProjectionresolution)子窗口因子分析法(SubwindowFactorAnalysis),麦秸高温高压裂解气相产物,GCMS分析经HELP解析确定了整个保留时间内共有组分45个,模式识别(PatternRecognition)就是研究对象的分类。20世纪60年代初开始迅速发展,首先在信息科学和人工智能领域使用,比如图像识别、语音识别。模式识别交叉学科:统计学、计算机科学、人工智能和专家系统、控制论、应用学科(如生物学、心理学、语言学、化学等)等。化学模式识别就是利用已有的模式识别技术和针对化学问题的特点而发展的模式识别技术,处理和分析化学数据,研究和解决化学问题,它是化学计量学的一个重要组成部分。化学模式识别方法已经用于分析化学、物理化学、无机化学、药物化学、食品化学、农业化学、医药化学和环境化学等学科,取得了不少成果。,化学模式识别,有监督的模式识别:距离判别分析法、Fisher判别分析法、Beayes判别分析法,逐步判别分析法、线性学习机、K邻域判别法、势函数判别法、人工神经网络判别法等无监督的模式识别:聚类分析特征投影的降维显示方法:主成分分析的投影显示法、SIMCA方法、基于偏最小二乘分解的特征投影法等,模式识别方法:,定量结构活性关系(QuantitativeStructureActivityRelationship,QSAR),简称定量构效关系,就是研究化学结构与化学物质的生物活性之间的关系,研究如何从物质的化学成分与结构来定量预测其化学特性。它是化学计量学的一个重要分支。,定量构效关系,药物设计:是现代化新药开发工作非常重要的一个环节,从20世纪60年代以来,经过40多年的不断探索和努力,现代药物设计的策略和方法已经大为丰富。最基本的药物设计方法就是从一组(例如几十个)小分子化合物的结构和生物活性数据出发,利用定量构效关系方法,研究其结构-活性关系的规律,在此基础上预测新化合物的生物活性(药效)和进行高活性分子的结构设计。分子设计:材料分子设计,荧光探针分子设计等。,定量构效关系研究:化学结构描述符:化学结构数字化定量构效关系建模:建立模型,现代最优化方法,现代最优化方法-搜索全局最优解模拟退火法遗传算法人工神经网络蚁群算法粒子群算法,遗传算法(GeneticAlgorithm,GA),达尔文进化论思想,适者生存模拟生物的自然进化过程进行最优解搜索。自然进化的特征在20世纪60年代得到美国Michigan大学的JohnHolland极大兴趣,他和他的学生们吸收了自然进化的思想,提出机器学习的新算法,Holland将其取名为遗传算法。1975年,Holland出版了颇有影响的专著AdaptationinNaturalandArtificialSystems,之后,遗传算法才逐渐被人们所知。,遗传算法基本思想,生物遗传基本单元个体染色体(基因)种群繁殖过程进化规则:优胜劣汰,遗传算法基本思想个体编码:染色体-群体生成迭代运算:3种进化适应性值评估,遗传算法由六个基本的操作组成:1)编码:根据要解决问题的特征,将问题的解在其解空间中表示成遗传空间的基因型串结构数据(染色体)。2)初始群体的生成:随机产生N个初始串结构数据,每个串结构数据称为一个个体,N个个体构成了一个群体。3)适应性值评估检测:适应性函数表明个体或解的优劣性。4)选择:目的是为了从当前群体中选出优良的个体,使它们有机会作为父代为下一代繁殖子孙。5)交叉:最主要的遗传操作。通过交叉换操作可以得到新一代个体,新个体组合了其父辈个体的特性。交叉换体现了信息交换的思想。随机产生交叉。6)变异:首先在群体中随机选择一个个体,对于选中的个体以一定的概率随机地改变串结构数据中某个串的值。,随机性:保证不陷入局部最优,遗传算法实例,151种血脑屏障穿透化合物,利用遗传算法从154种分子结构描述符中选择有限数目的描述符,建立这些化合物结构与血脑屏障穿透能力之间的关系,本项工作的关键就是变量选择(即描述符选择)。,解题难点,变量优劣评价方法151个样本变量组与指标建模,考察模型好坏。变量选择方案穷举:变量组合数目及其庞大,,其中,继续计算outofmemory。无法计算。单因素轮换:单变量最优-加入第二变量-最后,从中选择最优结果,154+153+1=11935,贪婪算法,局部最优遗传算法思路随机安排初值三种进化机制优化变量进化过程随机性避免落入局部最优,1)二进制编码:用154位的二进制串来表示变量,即表示154个结构描述符,如果串中某位为0表示对应的变量没有被选择,反之为1就是选择了该变量。,2)适应性函数FIT:用选择的变量代表化合物结构,用多元线性回归方法MLR建立变量与血脑屏障穿透能力之间的构效关系模型,利用去一交互检验法LOO计算相关系数Q。式中的n是化合物数目,k为所选变量个数。FIT越大越好。,3)群体大小为500,进化次数,即迭代次数定为5000次。4)遗传算法计算-随机性初始二进制编码为随机产生使用轮赌方式进行选择,交叉和变异发生的点位都随机产生,交叉时,将双亲二进制串从随机产生的交叉点向后的所有位进行交叉,变异时每次只是对随机产生的点进行变异。交叉和变异对进化过程影响非常大,所以对它们加以限制,即并非每次都发生交叉和变异,而是用概率来进行控制,交叉概率为0.6,变异概率为0.2。,赌轮方式选择(根据FIT数值计算概率)选择4个个体根据FIT计算概率绘制赌轮0-1(0%-100%)随机产生一个数(0-1之间)确定选中的个体,进入配对库从配对库中随机配对,进行交叉,交叉,变异,5)对这组数据进行计算后,最优结果选择了6个变量,得到的构效关系模型如下:LogBB=0.120-0.001650+0.001469-0.0011128+0.0057146-0.0108147+0.0395152,遗传算法本质提供一个最优解搜索策略很多操作参数需选择和优化随机性三个优化方式是核心,人工神经网络(AtificialNeurialN
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度环保设备外协维修服务合同协议书
- 2025电力线路施工与土地征用补偿合同
- 2025版合同欺诈鉴定依据下载与使用许可协议
- 质控护士竞聘课件
- 谓语非谓语课件
- 2025版材料智能家居产品采购与销售合同
- 2025产品集成与定制化技术服务合同范本下载
- 2025年度河道疏浚工程土石方清运劳务分包合同
- 2025版建筑结构设计咨询及优化服务合同
- 2025年教育贷款担保合同范本大全
- 大学生职业发展与就业指导PPT完整全套教学课件
- 监理工程师之合同管理真题练习试卷A卷附答案
- 中国石油酸化缓蚀剂标准模板
- 画法几何与机械制图全套PPT完整教学课件
- 五年级上册音乐教学计划进度
- 幼儿园红色故事绘本:《鸡毛信》 课件
- 《室内空间设计》第一章课件
- 联合国和区域性国际组织
- 部编版二年级语文上册全册完整课件
- 《循证医学》病因和不良反应研究证据的评价和应用
- 钢结构设计计算书(毕业设计)
评论
0/150
提交评论