版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
高等仪器分析
-化学计量学主讲人:杜一平整理课件分析化学数据实验数据化学分析:单点数据仪器分析:多维数据数据维数增加0维-标量;1维-向量;2维-矩阵;3维-张量;…样本数量增大数据量越来越大趋势,数据库,海量数据,大数据(bigdata)大数据量显然信息量大,但挖掘有用信息难度也大;数据处理方法研究越来越重要:化学计量学方法应用不止局限于分析化学学科:相关学科整理课件不同产地南丰蜜桔HPLC指纹图谱收集江西(18个)、福建(18个)、湖南(18个)和广西(10个)南丰蜜桔样品,经有机溶剂提取后进行HPLC分析X:46×4632整理课件对64个HPLC色谱图进行主成分分析:X=USVT特征值:前3个主成分特征值的所占比例,58.0%、11.2%、8.4%,剩余21.4%Scores散点图:样本点分类整理课件光谱数据和定量校正曲线
0.32
0.36
0.40
0.44
0.48
0.52
0.56
0.60
0.64
0.68Absorbance
5000
6000
7000
8000
9000
10000Wavenumbers(cm-1)RegionforWaterCombinationBandCorr.Coeff.=0.9999RMSEC=0.070整理课件光谱成像数据图
三维成像光谱数据示意图整理课件蛋白质各级结构(a)Primarystructure(b)Secondarystructure
Alu-Glu-Val-Thr-Asp-Pro-Gly-
α-Helix
β-Sheet(c)Tertiarystructure(d)Quaternarystructure
图
肽链在空间卷曲特定的三维空间结构整理课件数据的表达-数字化0维-标量:x=2;1维-向量:x=[1357];2维-矩阵:X=;3维-张量:Z=[X1
X2
X3…]整理课件1971年,瑞典化学家Swante.Wold(Umeauniversity)在申请一项基金时,提出了化学计量学(Chemometrics)这个名词。Chem-istry–metricsChemometrics
Econo-mics–metricsEconometrics化学计量学简介整理课件BruceR.KowalskiUniversityofWashington他们被公认为是化学计量学的创始人。美国Bruce.R.Kowalski非常赞赏这一叫法。后来在1974年与Swante.Wold合作成立了国际化学计量学学会。化学计量学简介整理课件
一门运用数学、统计学、计算机科学以及其他相关学科的理论与方法,优化化学量测过程,并从化学量测数据中最大限度地获取有用的化学信息的学科。化学中的一门分支学科(分析化学)多学科交叉的新学科化学计量学定义解决问题策略:分析化学利用计算机为手段,利用数学和统计学方法实现数据的解析。整理课件早期的化学计量学,数理统计方法。从七十年代开始,统计学、数学、行为科学、经济计量学等领域研究,分析化学学科的一个独特分支--化学计量学。二十世纪七十年代以后,分析仪器、联用分析仪器的发展,数据容量迅速增加。大量的数据的有用信息,需要发掘方法。九十年代以后逐渐走向成熟,应用日广。计算机、分析仪器、其他学科发展;需求-生命科学、材料科学、能源等。化学计量学发展整理课件化学计量学的典型应用传统定性定量分析:多元分辨、多元校正仪器量测信号处理:数据处理方法、最优化方法模式识别:污染源识别、疾病诊断、中药识别、…;试验设计:分子设计和药物设计:新药发现及结构性能关系(QSAR)研究;过程分析:工业过程监测和控制。整理课件化学计量学基本特点多维数据:向量,矩阵,张量。多变量数据来自各种测量:典型的为仪器分析数据。信息提取方法:利用各种手段持续发展的科学充分利用量测信息整理课件采样测定数据处理采样理论实验设计化学最优化信号处理多元校正多元分辨化学模式识别化学构效关系计算机模拟化学计量学研究内容整理课件平滑求导拟合主成分分析化学计量学方法:常用数据处理方法整理课件平滑就是一种去除或减少噪声以提高信噪比的数学方法。平滑整理课件窗口移动平均法整理课件x=a0+a1j+a2j2+...+apjp
jj=i-2j=i-1j=ij=i+1j=i+2xxi-2xi-1xixi+1xi+2Savitzky-Golay平滑法-多项式拟合
整理课件
==ax=Ya
整理课件=(YtY)-1Ytx
=
x=a0+a1j+a2j2+...+apjp
整理课件窗口宽度2523211917151311975-12-253
-11-138-42
-10-33-21-171
-962-2-76-136
-8147159-51-21
-7222308424-6-78
-628743149897-13-11
-53435420414418420-36
-438763249189278799-21
-34227028422434122164414-2
-244775309249391472169393-3-146278324264421622484546120467793292694316725895971714627832426442162248454612244775309249391472169393-334227028422434122164414-2
438763249189278799-21
53435420414418420-36
628743149897-13-11
7222308424-6-78
8147159-51-21
962-2-76-136
10-33-21-171
11-138-42
12-253
归一化常数51758053059226132311051434292312135Savitzky-Golay平滑权重系数表(多项式阶次为2或3)整理课件提高信号的分辨率,减少干扰。紫外-可见光谱分析中用到的导数分光光度分析;近红外光谱分析中,常用2阶或1阶导数光谱进行定性定量分析;电化学分析中,有时利用对溶出伏安曲线求导来去除或减少其它组分的干扰,提高被测组分的信噪比。有很多种类的分析仪器已经把求导作为一种固定的方法,加入到仪器的数据处理软件中。求导整理课件1.差分法2.Savitzky-Golay拟合法x=a0+a1j+a2j2+...+apjp一阶导数:dx/dj=a1+2a2j+...+papjp-1当j=0时,dx/dj|j=0=a1二阶导数:d2x/dj2=2a2+6a3j+....+(p-1)papjp-2当j=0时,d2x/dj2|j=0=2a2
当j=0时(即对应窗口的中心点),各阶导数计算的通式
dqx/djq|j=0=q!ap整理课件窗口宽度k=9,p=4,3阶导数表达式,d3x/dj3|j=0=1/198(-14x-4+7x-3+13x-2+9x-1-9x1-13x2-7x3+14x4)整理课件拟合实验数据理论解释研究变量之间关系:y=f(x)整理课件多个变量y=f(x1,x2,…)整理课件函数拟合基本思想=f(a,x)Ei=-yi=f(a,xi)-yi差方和ΣE2最小。线性函数拟合y=a+bx1+cx2y=f(a,x)+e整理课件拟合计算工具ExcelMatlab:b=fit(X,y,fittype)功能强大点中曲线,右键选择添加趋势图整理课件主成分分析主成分分析,PrincipalComponentAnalysis,PCA最基本的化学计量学方法之一是很多复杂化学计量学方法的基础应用广泛整理课件主成分分析序号化合物保留指数WienerMTI0p1p2p3p3c4p12,2,3,3,4-五甲基戊烷953.41083908.57744.19345.12643.37642.3660.86622,2,3,3-四甲基丁烷728.695821473.254.52.252.5032,2,3,3-四甲基己烷928.81154168.41424.31074.88392.90532.2071142,2,3,3-四甲基戊烷855.13822987.70713.81074.48742.91422.20710.530352,2,3,4,4-五甲基戊烷921.71114028.57744.15475.45372.59812.87641.29962,2,3,4-四甲基戊烷822.07863127.65473.85414.39872.3661.866172,2,3,5-四甲基己烷873.31234468.36184.33724.89662.30341.97841.060782,2,3-三甲基-3-乙基戊烷965.71103968.41424.37134.51783.37131.97861.310792,2,3-三甲基丁烷641.46421566.07742.94343.52071.73211.65470102,2,3-三甲基庚烷914.41304728.19874.48144.40932.46911.57010.9433112,2,3-三甲基己烷823.18923347.49163.98144.05572.20011.57010.866122,2,3-三甲基戊烷738.98632306.78453.48143.67532.09081.57010.6124132,2,4,4-四甲基己烷888.61194328.41424.26785.25521.9662.76781.5607142,2,4,4-四甲基戊烷774.77883227.70713.70715.29811.06073.12131.591yX1314-异丙基庚烷9251314727.98314.71873.58142.26170.51.55261325-甲基壬烷957.41495427.824.80813.38962.1010.28871.24951335-甲基十二烷1252.433612369.94136.30814.45032.8510.28871.79331346-甲基十二烷1249.933412289.94136.30814.45032.8510.28871.8067整理课件四个产地南丰蜜桔样品HPLC分析X:46×4632整理课件对64个HPLC色谱图进行主成分分析:X=USVT特征值:前3个主成分特征值的所占比例,58.0%、11.2%、8.4%,剩余21.4%Scores散点图:样本点分类整理课件一种重要降维方法基本思想:对量测矩阵Y中的各个变量进行线性组合,形成新的变量,称为主成分。主成分计算原则是得到主成分表达的方差最大,化学意义就是所含信息最多。计算方法:按方差最大,计算各个变量的线性组合,得到第一主成分;对剩余的矩阵,即量测矩阵Y减去第一主成分表达部分,再按方差最大原则,计算各个剩余变量的线性组合,得到第二主成分;依次计算第三、第四、…主成分。新变量之间相互正交。方差代表表达的信息量,按顺序减少,可用来评估主成分解释的信息百分率。Matlab方法[U,S,V]=svds(X,n)主成分分析整理课件多个主成分,多个投影方向多维主成分分解(n)x=[x1x2...xn]将x投影到[vi1vi2…vin]t上得到新变量yi,[vi1vi2…vin]t就是系数向量,即投影方向。所有n个新变量组成矩阵Yyi=vi1x1+vi2x2+…+vinxn,(i=1,2,…,n)整理课件例高分子液晶材料在不同温度下结晶情况StructureandthephasetransitiontemperaturesofFLC-1.整理课件Infraredtransmissionspectraof11-layerLBfilmsofFLC-1measuredatroomandelevatedtemperatures.整理课件TemperaturedependencesofthefrequenciesoftheCH2symmetricstretchingband(a),C=Ostretchingbandofthepartnearthechiralcarbonatom(b)andthephenylringstretchingband(c)forthe11-layerLBfilmsofFLC-1.整理课件PC1vs.temperatureplotinboth40-80C(a)and27-55C(c)temperatureintervalsandthoseinfullmeasuredtemperaturerange(b)atrangeof1450-1745cm–1forthe11-layerLBfilmsofFLC-1.整理课件几种化学计量学方法简介多元校正多元分辨模式识别定量构效关系最优化方法整理课件校正-定量分析经典分析化学的校正方法--校正曲线
y=cx+e
多变量校正y=[y1y2...ym]
=c[x1x2...xm]
+e
y=c1x1+c2x2+...+cnxn+e
y=Xc+e
多变量校正整理课件多元线性回归MLR多元线性回归方法-最小二乘法:y=Xc+e
e=y-Xc残差平方和S=ete=(y-Xc)t(y-Xc)=yty-yt(Xc)-(Xc)ty+(Xc)t(Xc)=yty-ytXc-ctXy+ctXtXc=yty-2ytXc+ctXtXc
=-2Xty+2XtXc=0
则,XtXc=Xty
=(XtX)-1Xty
Matlab:c=inv(X’*X)X’*y
整理课件多元线性回归解具有优良的统计学性质多元线性回归解的性能指标=(XtX)-1Xty
,=X相关系数:R2==1-残差平方和RMS多元线性回归应用建模与浓度计算y=Xc+e整理课件常见多元校正方法多元线性回归,MLR,y=Xc+e
主成分回归法,PCR通过PCA计算主成分,取前面若干主成分Z=Xv进行MLR,y=Zc+e=Xvc+e偏最小二乘回归,PLS通过类似PCA方法计算主成分(称为PLS因子),取前面若干因子Z=Xv进行MLR,y=Zc+e=Xvc+e计算PLS因子时同时考虑X和y因素。支持向量机,SVM人工神经网络,ANN整理课件四种不同液体表面活性剂Type1bType1aType2aType2b显著的区别整理课件羟值相关性酸值相关性NIR光谱PLS校正结果(两个组分校正)整理课件分辨就是解决干扰问题,即从混合组分复合量测信号中分辨、解析出被测组分“纯”的分析信号。利用多个分析通道(如波长、保留时间等)的信息进行分辨就称为多变量分辨,又称多元分辨。多变量分辨近些年来,化学计量学中的多变量分辨方法研究和应用非常活跃,尤其是在解析色谱重叠峰上取得了很大成功。整理课件多变量分辨算法很多渐进因子分析法(EvolvingFactorAnalysis)窗口因子分析法(WindowFactorAnalysis)直观推导式演进特征投影法(HeuristicEvolvingLatentProjections)正交投影分辨法(OrthogonalProjectionresolution)子窗口因子分析法(SubwindowFactorAnalysis)
整理课件麦秸高温高压裂解气相产物,GCMS分析经HELP解析确定了整个保留时间内共有组分45个整理课件模式识别(PatternRecognition)就是研究对象的分类。20世纪60年代初开始迅速发展,首先在信息科学和人工智能领域使用,比如图像识别、语音识别。模式识别交叉学科:统计学、计算机科学、人工智能和专家系统、控制论、应用学科(如生物学、心理学、语言学、化学等)等。化学模式识别就是利用已有的模式识别技术和针对化学问题的特点而发展的模式识别技术,处理和分析化学数据,研究和解决化学问题,它是化学计量学的一个重要组成部分。化学模式识别方法已经用于分析化学、物理化学、无机化学、药物化学、食品化学、农业化学、医药化学和环境化学等学科,取得了不少成果。化学模式识别整理课件有监督的模式识别:距离判别分析法、Fisher判别分析法、Beayes判别分析法,逐步判别分析法、线性学习机、K邻域判别法、势函数判别法、人工神经网络判别法等无监督的模式识别:聚类分析特征投影的降维显示方法:主成分分析的投影显示法、SIMCA方法、基于偏最小二乘分解的特征投影法等模式识别方法:整理课件定量结构活性关系(QuantitativeStructureActivityRelationship,QSAR),简称定量构效关系,就是研究化学结构与化学物质的生物活性之间的关系,研究如何从物质的化学成分与结构来定量预测其化学特性。它是化学计量学的一个重要分支。定量构效关系整理课件药物设计:是现代化新药开发工作非常重要的一个环节,从20世纪60年代以来,经过40多年的不断探索和努力,现代药物设计的策略和方法已经大为丰富。最基本的药物设计方法就是从一组(例如几十个)小分子化合物的结构和生物活性数据出发,利用定量构效关系方法,研究其结构-活性关系的规律,在此基础上预测新化合物的生物活性(药效)和进行高活性分子的结构设计。分子设计:材料分子设计,荧光探针分子设计等。整理课件定量构效关系研究:化学结构描述符:化学结构数字化定量构效关系建模:建立模型整理课件现代最优化方法现代最优化方法-搜索全局最优解
模拟退火法遗传算法人工神经网络蚁群算法粒子群算法整理课件遗传算法(GeneticAlgorithm,GA)
达尔文进化论思想,适者生存模拟生物的自然进化过程进行最优解搜索。自然进化的特征在20世纪60年代得到美国Michigan大学的JohnHolland极大兴趣,他和他的学生们吸收了自然进化的思想,提出机器学习的新算法,Holland将其取名为遗传算法。1975年,Holland出版了颇有影响的专著AdaptationinNaturalandArtificialSystems,之后,遗传算法才逐渐被人们所知。整理课件遗传算法基本思想生物遗传基本单元个体染色体(基因)种群繁殖过程进化规则:优胜劣汰遗传算法基本思想个体编码:染色体--群体生成迭代运算:3种进化适应性值评估整理课件遗传算法由六个基本的操作组成:1)编码:根据要解决问题的特征,将问题的解在其解空间中表示成遗传空间的基因型串结构数据(染色体)。2)初始群体的生成:随机产生N个初始串结构数据,每个串结构数据称为一个个体,N个个体构成了一个群体。3)适应性值评估检测:适应性函数表明个体或解的优劣性。4)选择:目的是为了从当前群体中选出优良的个体,使它们有机会作为父代为下一代繁殖子孙。5)交叉:最主要的遗传操作。通过交叉换操作可以得到新一代个体,新个体组合了其父辈个体的特性。交叉换体现了信息交换的思想。随机产生交叉。6)变异:首先在群体中随机选择一个个体,对于选中的个体以一定的概率随机地改变串结构数据中某个串的值。随机性:保证不陷入局部最优整理课件整理课件遗传算法实例151种血脑屏障穿透化合物,利用遗传算法从154种分子结构描述符中选择有限数目的描述符,建立这些化合物结构与血脑屏障穿透能力之间的关系,本项工作的关键就是变量选择(即描述符选择)。整理课件解题难点变量优劣评价方法151个样本变量组与指标建模,考察模型好坏。变量选择方案穷举:变量组合数目及其庞大,,其中,继续计算outofmemory。无法计算。单因素轮换:单变量最优-加入第二变量-…-最后,从中选择最优结果,154+153+…+1=11935,贪婪算法,局部最优遗传算法思路随机安排初值三种进化机制优化变量进化过程随机性避免落入局部最优1)二进制编码:用154位的二进制串来表示变量,即表示154个结构描述符,如果串中某位为0表示对应的变量没有被选择,反之为1就是选择了该变量。整理课件2)适应性函数FIT:用选择的变量代表化合物结构,用多元线性回归方法MLR建立变量与血脑屏障穿透能力之间的构效关系模型,利用去一交互检验法LOO计算相关系数Q。式中的n是化合物数目,k为所选变量个数。FIT越大越好。整理课件3)群体大小为500,进化次数,即迭代次数定为5000次。4)遗传算法计算-随机性初始二进制编码为随机产生使用轮赌方式进行选择,交叉和变异发生的点位都随机产生,交叉时,将双亲二进制串从随机产生的交叉点向后的所有位进行交叉,变异时每次只是对随机产生的点进行变异。交叉和变异对进化过程影响非常大,所以对它们加以限制,即并非每次都发生交叉和变异,而是用概率来进行控制,交叉概率为0.6,变异概率为0.2。整理课件赌轮方式选择(根据FIT数值计算概率)选择4个个体根据FIT计算概率绘制赌轮0-1(0%-100%)随机产生一个数(0-1之间)确定选中的个体,进入配对库从配对库中随机配对,进行交叉整理课件交叉整理课件变异整理课件5)对这组数据进行计算后,最优结果选择了6个变量,得到的构
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 上海市松江区仓桥中心小学一年级数学加减法练习题
- 上海市杨浦区开鲁新村第一小学(开鲁新村一小)一年级数学加减法练习题
- 2026届江苏常熟市张桥中学高三下学期第一次阶段性评估检测试题化学试题含解析
- 26年银发护理多业态融合服务课件
- 2026年快递物流合作协议范本2026
- 2026年通版保密协议合同协议书
- 新沂市卫生健康委2026年面向社会公开招聘专业技术人员6人考试备考试题及答案解析
- 吉州区永叔街道办事处公开招聘公益性岗位工作人员考试参考试题及答案解析
- 2026年合肥市庐阳区新任教师公开招聘242名考试备考试题及答案解析
- 2026高新育才学校非编校医招聘1人考试参考试题及答案解析
- T/CNSS 018-2023预包装食品血糖生成指数标示规范
- 2025内蒙古赤峰林西县招聘社区工作者74人备考考试试题及答案解析
- 城市污水管网沿线绿化与恢复方案
- 新疆保密管理办法
- 肝性脑病合并糖尿病护理
- 方太电烤箱KQD50F-C2说明书
- 纵隔肿瘤手术麻醉管理
- 工艺报警分级管理制度
- 腾讯音乐2025年音乐营销手册
- 北京课改版五年级下册小学英语全册单元知识点小结
- 金矿投资合作协议书
评论
0/150
提交评论