化学 分析化学专业毕业论文化学信息学新算法及在化学、生物与食品科学中的应用研究_第1页
化学 分析化学专业毕业论文化学信息学新算法及在化学、生物与食品科学中的应用研究_第2页
化学 分析化学专业毕业论文化学信息学新算法及在化学、生物与食品科学中的应用研究_第3页
化学 分析化学专业毕业论文化学信息学新算法及在化学、生物与食品科学中的应用研究_第4页
化学 分析化学专业毕业论文化学信息学新算法及在化学、生物与食品科学中的应用研究_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、化学 分析化学专业毕业论文 精品论文 化学信息学新算法及在化学、生物与食品科学中的应用研究关键词:化学信息学 化合物性质 化合物结构 QSAR 化学传感器摘要:近年来,随着信息科学、计算机科学与互联网的高速开展,一种新的交叉学科-化学信息学(Chemoinformatics)也迅速成长起来了。化学信息学是一门利用信息学的方法来解决化学的问题,同时得到有关化学本质规律的的学科。化学信息学的研究范围十分广泛,内容丰富,例如化学试验设计与优化、定量校正理论、分析信号处理、化学模式识别、模型与参数估计、人工智能等。化学信息学产生于科学家们对化学知识规律的不断需要的过程中。 化合物结构与性质/活性定量关

2、系(quantitative structure-property/activity relationship,QSPR/QSAR)是化学信息学研究中的一个重要应用分支。该方法是指将化合物的结构参数同其生物活性数据以一定的数学模型相联系起来的定量关系。QSPR/QSAR的研究最初应用于生物领域是为了适应合理设计生物活性分子的需要而开展起来的。由于计算机技术的开展和应用,QSPR/QSAR的研究提高到了一个新的水平,且日趋成熟,其应用范围也迅速扩大,研究涉及生物,化学,药物科学,以及食品科学等诸多学科。人们期望用一个成功的数学模型,能从分子水平上理解其微观结构同其宏观性质/活性之间的关系,根据已

3、有的知识,探求化合物性质/活性与结构的相互作用规律,从而推论呈现化合物某些性质的影响因素,然后为设计,筛选或预测具有人们期望性质的化合物提供信息。 化学信息学的开展为化学各分支学科的开展提供了多种解决问题的新思路,新方法。本学位论文主要对化学信息学研究中的一些新算法进行了探讨,并把这些新算法成功应用于QSAR/QSPR研究领域中。该论文共包括五章节内容,每一个章节的具体内容如下所示: 第一章:简述了化学信息学的根本概念和研究现状,以及多种化学信息学算法,也详细讲述了化学信息学研究的分支之一-QSAR,包括QSAR演变历史,根本原理以及实现的步骤等等。 第二章:主要讨论了Quantitative

4、 structure-retention relationship(QSRR)方法在多肽色谱保存行为预测的应用研究。具体内容如下:(1)基于线性和非线性建模方法对反相液相色谱(RPIC)的101种多肽保存时间进行了定量结构保存关系建模研究。最正确多元线性回归(BMIR)方法用来选择与保存行为最为密切的分子描述符,并建立线性模型。另外两种非线性回归方法(径向基函数神经网络(RBFNN)和投影寻踪回归(PPR)用来构建非线性模型。RBFNN和PPR模型的训练集的相关系数(R2)分别为0.9787和0.9881;均方根误差(RMSE)为0.5666和0.4207。结果说明,RBF神经网络和投影寻踪回

5、归将是蛋白质组研究中一种简单且有效的工具,并有望应用于其他类似的研究领域。(2)新颖的化学信息学方法-局部懒惰回归(LLR)首次应用于预测278个多肽在固定金属亲和色谱(镍柱)的保存行为研究。该工作分别用BMLR,PPR和LLR三种方法建立线性和非线性QSRR模型。最正确的LLR模型的训练集和测试集的R2分别为0.9446和0.9252。该工作证明新颖机器学习算法LLR是一个非常有前途的研究工具,它可用于色谱保存行为研究领域,为协助设计和别离纯化蛋白质和多肽发挥一定的作用。 第三章主要描述了QSAR方法在农业和食品科学领域的应用研究,具体内容如下:(1)三种机器学习方法:遗传算法.多元线性回归

6、(GA-MLR),最小二乘支持向量机(LS-SVM),PPR用于100个稻瘟病抑制剂噻唑啉衍生物的杀菌活性研究。线性模型GA-MLR和非线性模型LS-SVM和PPR都得到了良好的预测结果,但非线性模型提供了更加精确的预测能力。结果说明,非线性LS-SVM和PPR方法可以更加准确地模拟噻唑啉分子结构与杀菌活性之间的关系,能够成为研究稻瘟病抑制剂良好的建模工具。此外,这项研究为稻瘟病抑制剂的设计和开发提供了一种新的,简单而且有效的方法,同时得到的与其密切相关的分子结构信息。(2)运用定量结构保存关系方法对藏红花内43种芳香组分的SPME-GC-MS保存时间进行了预测。应用最正确多元线性回归(BMI

7、R)和投影寻踪回归(PPR)方法分别建立了线性和非线性模型,两种方法均得到了较好的结果:线性模型的训练集和测试集的相关系数(R2)分别为0.9434和0.8725,非线性模型那么给出了较好的预测结果分别为0.9806和0.9456。通过对模型的稳定性和预测能力的比拟,可以看出非线性PPR方法可以较好的应用到SPME-GC-MS保存行为研究领域内,同时该工作又可以为其他植物和中草药的别离研究提供一种简便有效的方法。 第四章主要讨论了定量构效关系在生命科学和医药研究领域内的应用,主要有以下几局部组成:(1)利用QSRR方法对55种药物在固相人工膜色谱内的保存指数进行了线性和非线性建模研究。在该工作

8、中,线性BMLR方法被用来选取与保存指数最为相关的参数,同时建立线性回归模型;利用选取的描述符,应用PPR和LLR方法来建立更加准确的预测模型。通过模型比照,我们发现LLR作为一种新的建模方法,表达出较完美的预测能力,其训练集和测试集的预测结果为:复相关系数(R2),0.9540,0.9305;均方根误差(RMSE),0.2418,0.3949。结果显示,新型LLR建模方法在QSRR方法研究中表现出了较好的预测能力,同时该方法定会成功的应用于其它类似的色谱研究领域内。(2)利用线性和非线性建模方法研究了80个N-羟基-a-苯磺酰乙酰胺(N-hydroxy-a-phenylsulfonylace

9、tamide derivatives,HPSAs)衍生物对三种类型的基质金属蛋白酶的抑制活性。其中线性BMLR方法用来选取关键的结构参数,同时建立线性模型对所选化合物的抑制活性进行了预测;然后以全局格式搜索PPR方法利用选取的参数建立非线性回归模型。最终,线性和非线性模型均能提供较为满意的预测结果。在该工作中,非线性PPR方法首次与格式搜索(GS)方法相结合并成功应用于对HPSAs的抑制活性的建模研究,得到了令人满意的预测结果。该方法的成功为其他模型参数的优化与选取提供了一种捷径。(3)利用线性回归方法和非线性回归方法-格式搜索支持向量机(GS-SVM)和PPR方法对MT3褪黑激素结合位点的亲

10、和性进行了研究。在该工作中,遗传算法被用来选取与研究对象最为相关的结构参数,并建立线性回归模型对MT3褪黑激素结合位点的亲和性进行预测;利用选取的五个结构变量,采用非线性回归方法GS-SVM和PPR方法建立更加准确的模型。通过模型比照,我们发现非线性PPR方法能够对MT3褪黑激素结合位点的亲和性具有比拟准确的预测能力。该方法的建立,为设计和开发新型MT3褪黑激素的新型配体提供了一种新型的研究方法。 第五章:QSAR方法在化学感应系统相对灵敏度的预测研究。在本章中,BMLR,SVM和LLR三种方法用来完成64种VOCs的气味检测阀值(ODTs)和鼻腔辛辣味阀值(NPTs)相对敏感性的QSAR建模

11、研究,所得的预测结果和相应的实验数据根本吻合。相比之下,LLR方法能够获得更好的预测能力,因此,它在QSAR研究中是一种有效的机器学习算法。此外,本研究还确定了一些重要的分子结构信息,它们与VOC的相对敏感性密切相关。这些信息可以用来选择或制造一些新型的化学传感器,同时也说明LLR方法是一种很有前途的QSAR建模方法,可用于其他类似的化学传感器建模预测研究。正文内容 近年来,随着信息科学、计算机科学与互联网的高速开展,一种新的交叉学科-化学信息学(Chemoinformatics)也迅速成长起来了。化学信息学是一门利用信息学的方法来解决化学的问题,同时得到有关化学本质规律的的学科。化学信息学的

12、研究范围十分广泛,内容丰富,例如化学试验设计与优化、定量校正理论、分析信号处理、化学模式识别、模型与参数估计、人工智能等。化学信息学产生于科学家们对化学知识规律的不断需要的过程中。 化合物结构与性质/活性定量关系(quantitative structure-property/activity relationship,QSPR/QSAR)是化学信息学研究中的一个重要应用分支。该方法是指将化合物的结构参数同其生物活性数据以一定的数学模型相联系起来的定量关系。QSPR/QSAR的研究最初应用于生物领域是为了适应合理设计生物活性分子的需要而开展起来的。由于计算机技术的开展和应用,QSPR/QSAR

13、的研究提高到了一个新的水平,且日趋成熟,其应用范围也迅速扩大,研究涉及生物,化学,药物科学,以及食品科学等诸多学科。人们期望用一个成功的数学模型,能从分子水平上理解其微观结构同其宏观性质/活性之间的关系,根据已有的知识,探求化合物性质/活性与结构的相互作用规律,从而推论呈现化合物某些性质的影响因素,然后为设计,筛选或预测具有人们期望性质的化合物提供信息。 化学信息学的开展为化学各分支学科的开展提供了多种解决问题的新思路,新方法。本学位论文主要对化学信息学研究中的一些新算法进行了探讨,并把这些新算法成功应用于QSAR/QSPR研究领域中。该论文共包括五章节内容,每一个章节的具体内容如下所示: 第

14、一章:简述了化学信息学的根本概念和研究现状,以及多种化学信息学算法,也详细讲述了化学信息学研究的分支之一-QSAR,包括QSAR演变历史,根本原理以及实现的步骤等等。 第二章:主要讨论了Quantitative structure-retention relationship(QSRR)方法在多肽色谱保存行为预测的应用研究。具体内容如下:(1)基于线性和非线性建模方法对反相液相色谱(RPIC)的101种多肽保存时间进行了定量结构保存关系建模研究。最正确多元线性回归(BMIR)方法用来选择与保存行为最为密切的分子描述符,并建立线性模型。另外两种非线性回归方法(径向基函数神经网络(RBFNN)和投

15、影寻踪回归(PPR)用来构建非线性模型。RBFNN和PPR模型的训练集的相关系数(R2)分别为0.9787和0.9881;均方根误差(RMSE)为0.5666和0.4207。结果说明,RBF神经网络和投影寻踪回归将是蛋白质组研究中一种简单且有效的工具,并有望应用于其他类似的研究领域。(2)新颖的化学信息学方法-局部懒惰回归(LLR)首次应用于预测278个多肽在固定金属亲和色谱(镍柱)的保存行为研究。该工作分别用BMLR,PPR和LLR三种方法建立线性和非线性QSRR模型。最正确的LLR模型的训练集和测试集的R2分别为0.9446和0.9252。该工作证明新颖机器学习算法LLR是一个非常有前途的

16、研究工具,它可用于色谱保存行为研究领域,为协助设计和别离纯化蛋白质和多肽发挥一定的作用。 第三章主要描述了QSAR方法在农业和食品科学领域的应用研究,具体内容如下:(1)三种机器学习方法:遗传算法.多元线性回归(GA-MLR),最小二乘支持向量机(LS-SVM),PPR用于100个稻瘟病抑制剂噻唑啉衍生物的杀菌活性研究。线性模型GA-MLR和非线性模型LS-SVM和PPR都得到了良好的预测结果,但非线性模型提供了更加精确的预测能力。结果说明,非线性LS-SVM和PPR方法可以更加准确地模拟噻唑啉分子结构与杀菌活性之间的关系,能够成为研究稻瘟病抑制剂良好的建模工具。此外,这项研究为稻瘟病抑制剂的

17、设计和开发提供了一种新的,简单而且有效的方法,同时得到的与其密切相关的分子结构信息。(2)运用定量结构保存关系方法对藏红花内43种芳香组分的SPME-GC-MS保存时间进行了预测。应用最正确多元线性回归(BMIR)和投影寻踪回归(PPR)方法分别建立了线性和非线性模型,两种方法均得到了较好的结果:线性模型的训练集和测试集的相关系数(R2)分别为0.9434和0.8725,非线性模型那么给出了较好的预测结果分别为0.9806和0.9456。通过对模型的稳定性和预测能力的比拟,可以看出非线性PPR方法可以较好的应用到SPME-GC-MS保存行为研究领域内,同时该工作又可以为其他植物和中草药的别离研

18、究提供一种简便有效的方法。 第四章主要讨论了定量构效关系在生命科学和医药研究领域内的应用,主要有以下几局部组成:(1)利用QSRR方法对55种药物在固相人工膜色谱内的保存指数进行了线性和非线性建模研究。在该工作中,线性BMLR方法被用来选取与保存指数最为相关的参数,同时建立线性回归模型;利用选取的描述符,应用PPR和LLR方法来建立更加准确的预测模型。通过模型比照,我们发现LLR作为一种新的建模方法,表达出较完美的预测能力,其训练集和测试集的预测结果为:复相关系数(R2),0.9540,0.9305;均方根误差(RMSE),0.2418,0.3949。结果显示,新型LLR建模方法在QSRR方法

19、研究中表现出了较好的预测能力,同时该方法定会成功的应用于其它类似的色谱研究领域内。(2)利用线性和非线性建模方法研究了80个N-羟基-a-苯磺酰乙酰胺(N-hydroxy-a-phenylsulfonylacetamide derivatives,HPSAs)衍生物对三种类型的基质金属蛋白酶的抑制活性。其中线性BMLR方法用来选取关键的结构参数,同时建立线性模型对所选化合物的抑制活性进行了预测;然后以全局格式搜索PPR方法利用选取的参数建立非线性回归模型。最终,线性和非线性模型均能提供较为满意的预测结果。在该工作中,非线性PPR方法首次与格式搜索(GS)方法相结合并成功应用于对HPSAs的抑制

20、活性的建模研究,得到了令人满意的预测结果。该方法的成功为其他模型参数的优化与选取提供了一种捷径。(3)利用线性回归方法和非线性回归方法-格式搜索支持向量机(GS-SVM)和PPR方法对MT3褪黑激素结合位点的亲和性进行了研究。在该工作中,遗传算法被用来选取与研究对象最为相关的结构参数,并建立线性回归模型对MT3褪黑激素结合位点的亲和性进行预测;利用选取的五个结构变量,采用非线性回归方法GS-SVM和PPR方法建立更加准确的模型。通过模型比照,我们发现非线性PPR方法能够对MT3褪黑激素结合位点的亲和性具有比拟准确的预测能力。该方法的建立,为设计和开发新型MT3褪黑激素的新型配体提供了一种新型的

21、研究方法。 第五章:QSAR方法在化学感应系统相对灵敏度的预测研究。在本章中,BMLR,SVM和LLR三种方法用来完成64种VOCs的气味检测阀值(ODTs)和鼻腔辛辣味阀值(NPTs)相对敏感性的QSAR建模研究,所得的预测结果和相应的实验数据根本吻合。相比之下,LLR方法能够获得更好的预测能力,因此,它在QSAR研究中是一种有效的机器学习算法。此外,本研究还确定了一些重要的分子结构信息,它们与VOC的相对敏感性密切相关。这些信息可以用来选择或制造一些新型的化学传感器,同时也说明LLR方法是一种很有前途的QSAR建模方法,可用于其他类似的化学传感器建模预测研究。近年来,随着信息科学、计算机科

22、学与互联网的高速开展,一种新的交叉学科-化学信息学(Chemoinformatics)也迅速成长起来了。化学信息学是一门利用信息学的方法来解决化学的问题,同时得到有关化学本质规律的的学科。化学信息学的研究范围十分广泛,内容丰富,例如化学试验设计与优化、定量校正理论、分析信号处理、化学模式识别、模型与参数估计、人工智能等。化学信息学产生于科学家们对化学知识规律的不断需要的过程中。 化合物结构与性质/活性定量关系(quantitative structure-property/activity relationship,QSPR/QSAR)是化学信息学研究中的一个重要应用分支。该方法是指将化合物的

23、结构参数同其生物活性数据以一定的数学模型相联系起来的定量关系。QSPR/QSAR的研究最初应用于生物领域是为了适应合理设计生物活性分子的需要而开展起来的。由于计算机技术的开展和应用,QSPR/QSAR的研究提高到了一个新的水平,且日趋成熟,其应用范围也迅速扩大,研究涉及生物,化学,药物科学,以及食品科学等诸多学科。人们期望用一个成功的数学模型,能从分子水平上理解其微观结构同其宏观性质/活性之间的关系,根据已有的知识,探求化合物性质/活性与结构的相互作用规律,从而推论呈现化合物某些性质的影响因素,然后为设计,筛选或预测具有人们期望性质的化合物提供信息。 化学信息学的开展为化学各分支学科的开展提供

24、了多种解决问题的新思路,新方法。本学位论文主要对化学信息学研究中的一些新算法进行了探讨,并把这些新算法成功应用于QSAR/QSPR研究领域中。该论文共包括五章节内容,每一个章节的具体内容如下所示: 第一章:简述了化学信息学的根本概念和研究现状,以及多种化学信息学算法,也详细讲述了化学信息学研究的分支之一-QSAR,包括QSAR演变历史,根本原理以及实现的步骤等等。 第二章:主要讨论了Quantitative structure-retention relationship(QSRR)方法在多肽色谱保存行为预测的应用研究。具体内容如下:(1)基于线性和非线性建模方法对反相液相色谱(RPIC)的1

25、01种多肽保存时间进行了定量结构保存关系建模研究。最正确多元线性回归(BMIR)方法用来选择与保存行为最为密切的分子描述符,并建立线性模型。另外两种非线性回归方法(径向基函数神经网络(RBFNN)和投影寻踪回归(PPR)用来构建非线性模型。RBFNN和PPR模型的训练集的相关系数(R2)分别为0.9787和0.9881;均方根误差(RMSE)为0.5666和0.4207。结果说明,RBF神经网络和投影寻踪回归将是蛋白质组研究中一种简单且有效的工具,并有望应用于其他类似的研究领域。(2)新颖的化学信息学方法-局部懒惰回归(LLR)首次应用于预测278个多肽在固定金属亲和色谱(镍柱)的保存行为研究

26、。该工作分别用BMLR,PPR和LLR三种方法建立线性和非线性QSRR模型。最正确的LLR模型的训练集和测试集的R2分别为0.9446和0.9252。该工作证明新颖机器学习算法LLR是一个非常有前途的研究工具,它可用于色谱保存行为研究领域,为协助设计和别离纯化蛋白质和多肽发挥一定的作用。 第三章主要描述了QSAR方法在农业和食品科学领域的应用研究,具体内容如下:(1)三种机器学习方法:遗传算法.多元线性回归(GA-MLR),最小二乘支持向量机(LS-SVM),PPR用于100个稻瘟病抑制剂噻唑啉衍生物的杀菌活性研究。线性模型GA-MLR和非线性模型LS-SVM和PPR都得到了良好的预测结果,但

27、非线性模型提供了更加精确的预测能力。结果说明,非线性LS-SVM和PPR方法可以更加准确地模拟噻唑啉分子结构与杀菌活性之间的关系,能够成为研究稻瘟病抑制剂良好的建模工具。此外,这项研究为稻瘟病抑制剂的设计和开发提供了一种新的,简单而且有效的方法,同时得到的与其密切相关的分子结构信息。(2)运用定量结构保存关系方法对藏红花内43种芳香组分的SPME-GC-MS保存时间进行了预测。应用最正确多元线性回归(BMIR)和投影寻踪回归(PPR)方法分别建立了线性和非线性模型,两种方法均得到了较好的结果:线性模型的训练集和测试集的相关系数(R2)分别为0.9434和0.8725,非线性模型那么给出了较好的

28、预测结果分别为0.9806和0.9456。通过对模型的稳定性和预测能力的比拟,可以看出非线性PPR方法可以较好的应用到SPME-GC-MS保存行为研究领域内,同时该工作又可以为其他植物和中草药的别离研究提供一种简便有效的方法。 第四章主要讨论了定量构效关系在生命科学和医药研究领域内的应用,主要有以下几局部组成:(1)利用QSRR方法对55种药物在固相人工膜色谱内的保存指数进行了线性和非线性建模研究。在该工作中,线性BMLR方法被用来选取与保存指数最为相关的参数,同时建立线性回归模型;利用选取的描述符,应用PPR和LLR方法来建立更加准确的预测模型。通过模型比照,我们发现LLR作为一种新的建模方

29、法,表达出较完美的预测能力,其训练集和测试集的预测结果为:复相关系数(R2),0.9540,0.9305;均方根误差(RMSE),0.2418,0.3949。结果显示,新型LLR建模方法在QSRR方法研究中表现出了较好的预测能力,同时该方法定会成功的应用于其它类似的色谱研究领域内。(2)利用线性和非线性建模方法研究了80个N-羟基-a-苯磺酰乙酰胺(N-hydroxy-a-phenylsulfonylacetamide derivatives,HPSAs)衍生物对三种类型的基质金属蛋白酶的抑制活性。其中线性BMLR方法用来选取关键的结构参数,同时建立线性模型对所选化合物的抑制活性进行了预测;然

30、后以全局格式搜索PPR方法利用选取的参数建立非线性回归模型。最终,线性和非线性模型均能提供较为满意的预测结果。在该工作中,非线性PPR方法首次与格式搜索(GS)方法相结合并成功应用于对HPSAs的抑制活性的建模研究,得到了令人满意的预测结果。该方法的成功为其他模型参数的优化与选取提供了一种捷径。(3)利用线性回归方法和非线性回归方法-格式搜索支持向量机(GS-SVM)和PPR方法对MT3褪黑激素结合位点的亲和性进行了研究。在该工作中,遗传算法被用来选取与研究对象最为相关的结构参数,并建立线性回归模型对MT3褪黑激素结合位点的亲和性进行预测;利用选取的五个结构变量,采用非线性回归方法GS-SVM

31、和PPR方法建立更加准确的模型。通过模型比照,我们发现非线性PPR方法能够对MT3褪黑激素结合位点的亲和性具有比拟准确的预测能力。该方法的建立,为设计和开发新型MT3褪黑激素的新型配体提供了一种新型的研究方法。 第五章:QSAR方法在化学感应系统相对灵敏度的预测研究。在本章中,BMLR,SVM和LLR三种方法用来完成64种VOCs的气味检测阀值(ODTs)和鼻腔辛辣味阀值(NPTs)相对敏感性的QSAR建模研究,所得的预测结果和相应的实验数据根本吻合。相比之下,LLR方法能够获得更好的预测能力,因此,它在QSAR研究中是一种有效的机器学习算法。此外,本研究还确定了一些重要的分子结构信息,它们与

32、VOC的相对敏感性密切相关。这些信息可以用来选择或制造一些新型的化学传感器,同时也说明LLR方法是一种很有前途的QSAR建模方法,可用于其他类似的化学传感器建模预测研究。近年来,随着信息科学、计算机科学与互联网的高速开展,一种新的交叉学科-化学信息学(Chemoinformatics)也迅速成长起来了。化学信息学是一门利用信息学的方法来解决化学的问题,同时得到有关化学本质规律的的学科。化学信息学的研究范围十分广泛,内容丰富,例如化学试验设计与优化、定量校正理论、分析信号处理、化学模式识别、模型与参数估计、人工智能等。化学信息学产生于科学家们对化学知识规律的不断需要的过程中。 化合物结构与性质/

33、活性定量关系(quantitative structure-property/activity relationship,QSPR/QSAR)是化学信息学研究中的一个重要应用分支。该方法是指将化合物的结构参数同其生物活性数据以一定的数学模型相联系起来的定量关系。QSPR/QSAR的研究最初应用于生物领域是为了适应合理设计生物活性分子的需要而开展起来的。由于计算机技术的开展和应用,QSPR/QSAR的研究提高到了一个新的水平,且日趋成熟,其应用范围也迅速扩大,研究涉及生物,化学,药物科学,以及食品科学等诸多学科。人们期望用一个成功的数学模型,能从分子水平上理解其微观结构同其宏观性质/活性之间的关

34、系,根据已有的知识,探求化合物性质/活性与结构的相互作用规律,从而推论呈现化合物某些性质的影响因素,然后为设计,筛选或预测具有人们期望性质的化合物提供信息。 化学信息学的开展为化学各分支学科的开展提供了多种解决问题的新思路,新方法。本学位论文主要对化学信息学研究中的一些新算法进行了探讨,并把这些新算法成功应用于QSAR/QSPR研究领域中。该论文共包括五章节内容,每一个章节的具体内容如下所示: 第一章:简述了化学信息学的根本概念和研究现状,以及多种化学信息学算法,也详细讲述了化学信息学研究的分支之一-QSAR,包括QSAR演变历史,根本原理以及实现的步骤等等。 第二章:主要讨论了Quantit

35、ative structure-retention relationship(QSRR)方法在多肽色谱保存行为预测的应用研究。具体内容如下:(1)基于线性和非线性建模方法对反相液相色谱(RPIC)的101种多肽保存时间进行了定量结构保存关系建模研究。最正确多元线性回归(BMIR)方法用来选择与保存行为最为密切的分子描述符,并建立线性模型。另外两种非线性回归方法(径向基函数神经网络(RBFNN)和投影寻踪回归(PPR)用来构建非线性模型。RBFNN和PPR模型的训练集的相关系数(R2)分别为0.9787和0.9881;均方根误差(RMSE)为0.5666和0.4207。结果说明,RBF神经网络和

36、投影寻踪回归将是蛋白质组研究中一种简单且有效的工具,并有望应用于其他类似的研究领域。(2)新颖的化学信息学方法-局部懒惰回归(LLR)首次应用于预测278个多肽在固定金属亲和色谱(镍柱)的保存行为研究。该工作分别用BMLR,PPR和LLR三种方法建立线性和非线性QSRR模型。最正确的LLR模型的训练集和测试集的R2分别为0.9446和0.9252。该工作证明新颖机器学习算法LLR是一个非常有前途的研究工具,它可用于色谱保存行为研究领域,为协助设计和别离纯化蛋白质和多肽发挥一定的作用。 第三章主要描述了QSAR方法在农业和食品科学领域的应用研究,具体内容如下:(1)三种机器学习方法:遗传算法.多

37、元线性回归(GA-MLR),最小二乘支持向量机(LS-SVM),PPR用于100个稻瘟病抑制剂噻唑啉衍生物的杀菌活性研究。线性模型GA-MLR和非线性模型LS-SVM和PPR都得到了良好的预测结果,但非线性模型提供了更加精确的预测能力。结果说明,非线性LS-SVM和PPR方法可以更加准确地模拟噻唑啉分子结构与杀菌活性之间的关系,能够成为研究稻瘟病抑制剂良好的建模工具。此外,这项研究为稻瘟病抑制剂的设计和开发提供了一种新的,简单而且有效的方法,同时得到的与其密切相关的分子结构信息。(2)运用定量结构保存关系方法对藏红花内43种芳香组分的SPME-GC-MS保存时间进行了预测。应用最正确多元线性回

38、归(BMIR)和投影寻踪回归(PPR)方法分别建立了线性和非线性模型,两种方法均得到了较好的结果:线性模型的训练集和测试集的相关系数(R2)分别为0.9434和0.8725,非线性模型那么给出了较好的预测结果分别为0.9806和0.9456。通过对模型的稳定性和预测能力的比拟,可以看出非线性PPR方法可以较好的应用到SPME-GC-MS保存行为研究领域内,同时该工作又可以为其他植物和中草药的别离研究提供一种简便有效的方法。 第四章主要讨论了定量构效关系在生命科学和医药研究领域内的应用,主要有以下几局部组成:(1)利用QSRR方法对55种药物在固相人工膜色谱内的保存指数进行了线性和非线性建模研究

39、。在该工作中,线性BMLR方法被用来选取与保存指数最为相关的参数,同时建立线性回归模型;利用选取的描述符,应用PPR和LLR方法来建立更加准确的预测模型。通过模型比照,我们发现LLR作为一种新的建模方法,表达出较完美的预测能力,其训练集和测试集的预测结果为:复相关系数(R2),0.9540,0.9305;均方根误差(RMSE),0.2418,0.3949。结果显示,新型LLR建模方法在QSRR方法研究中表现出了较好的预测能力,同时该方法定会成功的应用于其它类似的色谱研究领域内。(2)利用线性和非线性建模方法研究了80个N-羟基-a-苯磺酰乙酰胺(N-hydroxy-a-phenylsulfon

40、ylacetamide derivatives,HPSAs)衍生物对三种类型的基质金属蛋白酶的抑制活性。其中线性BMLR方法用来选取关键的结构参数,同时建立线性模型对所选化合物的抑制活性进行了预测;然后以全局格式搜索PPR方法利用选取的参数建立非线性回归模型。最终,线性和非线性模型均能提供较为满意的预测结果。在该工作中,非线性PPR方法首次与格式搜索(GS)方法相结合并成功应用于对HPSAs的抑制活性的建模研究,得到了令人满意的预测结果。该方法的成功为其他模型参数的优化与选取提供了一种捷径。(3)利用线性回归方法和非线性回归方法-格式搜索支持向量机(GS-SVM)和PPR方法对MT3褪黑激素结

41、合位点的亲和性进行了研究。在该工作中,遗传算法被用来选取与研究对象最为相关的结构参数,并建立线性回归模型对MT3褪黑激素结合位点的亲和性进行预测;利用选取的五个结构变量,采用非线性回归方法GS-SVM和PPR方法建立更加准确的模型。通过模型比照,我们发现非线性PPR方法能够对MT3褪黑激素结合位点的亲和性具有比拟准确的预测能力。该方法的建立,为设计和开发新型MT3褪黑激素的新型配体提供了一种新型的研究方法。 第五章:QSAR方法在化学感应系统相对灵敏度的预测研究。在本章中,BMLR,SVM和LLR三种方法用来完成64种VOCs的气味检测阀值(ODTs)和鼻腔辛辣味阀值(NPTs)相对敏感性的Q

42、SAR建模研究,所得的预测结果和相应的实验数据根本吻合。相比之下,LLR方法能够获得更好的预测能力,因此,它在QSAR研究中是一种有效的机器学习算法。此外,本研究还确定了一些重要的分子结构信息,它们与VOC的相对敏感性密切相关。这些信息可以用来选择或制造一些新型的化学传感器,同时也说明LLR方法是一种很有前途的QSAR建模方法,可用于其他类似的化学传感器建模预测研究。近年来,随着信息科学、计算机科学与互联网的高速开展,一种新的交叉学科-化学信息学(Chemoinformatics)也迅速成长起来了。化学信息学是一门利用信息学的方法来解决化学的问题,同时得到有关化学本质规律的的学科。化学信息学的

43、研究范围十分广泛,内容丰富,例如化学试验设计与优化、定量校正理论、分析信号处理、化学模式识别、模型与参数估计、人工智能等。化学信息学产生于科学家们对化学知识规律的不断需要的过程中。 化合物结构与性质/活性定量关系(quantitative structure-property/activity relationship,QSPR/QSAR)是化学信息学研究中的一个重要应用分支。该方法是指将化合物的结构参数同其生物活性数据以一定的数学模型相联系起来的定量关系。QSPR/QSAR的研究最初应用于生物领域是为了适应合理设计生物活性分子的需要而开展起来的。由于计算机技术的开展和应用,QSPR/QSAR

44、的研究提高到了一个新的水平,且日趋成熟,其应用范围也迅速扩大,研究涉及生物,化学,药物科学,以及食品科学等诸多学科。人们期望用一个成功的数学模型,能从分子水平上理解其微观结构同其宏观性质/活性之间的关系,根据已有的知识,探求化合物性质/活性与结构的相互作用规律,从而推论呈现化合物某些性质的影响因素,然后为设计,筛选或预测具有人们期望性质的化合物提供信息。 化学信息学的开展为化学各分支学科的开展提供了多种解决问题的新思路,新方法。本学位论文主要对化学信息学研究中的一些新算法进行了探讨,并把这些新算法成功应用于QSAR/QSPR研究领域中。该论文共包括五章节内容,每一个章节的具体内容如下所示: 第

45、一章:简述了化学信息学的根本概念和研究现状,以及多种化学信息学算法,也详细讲述了化学信息学研究的分支之一-QSAR,包括QSAR演变历史,根本原理以及实现的步骤等等。 第二章:主要讨论了Quantitative structure-retention relationship(QSRR)方法在多肽色谱保存行为预测的应用研究。具体内容如下:(1)基于线性和非线性建模方法对反相液相色谱(RPIC)的101种多肽保存时间进行了定量结构保存关系建模研究。最正确多元线性回归(BMIR)方法用来选择与保存行为最为密切的分子描述符,并建立线性模型。另外两种非线性回归方法(径向基函数神经网络(RBFNN)和投

46、影寻踪回归(PPR)用来构建非线性模型。RBFNN和PPR模型的训练集的相关系数(R2)分别为0.9787和0.9881;均方根误差(RMSE)为0.5666和0.4207。结果说明,RBF神经网络和投影寻踪回归将是蛋白质组研究中一种简单且有效的工具,并有望应用于其他类似的研究领域。(2)新颖的化学信息学方法-局部懒惰回归(LLR)首次应用于预测278个多肽在固定金属亲和色谱(镍柱)的保存行为研究。该工作分别用BMLR,PPR和LLR三种方法建立线性和非线性QSRR模型。最正确的LLR模型的训练集和测试集的R2分别为0.9446和0.9252。该工作证明新颖机器学习算法LLR是一个非常有前途的

47、研究工具,它可用于色谱保存行为研究领域,为协助设计和别离纯化蛋白质和多肽发挥一定的作用。 第三章主要描述了QSAR方法在农业和食品科学领域的应用研究,具体内容如下:(1)三种机器学习方法:遗传算法.多元线性回归(GA-MLR),最小二乘支持向量机(LS-SVM),PPR用于100个稻瘟病抑制剂噻唑啉衍生物的杀菌活性研究。线性模型GA-MLR和非线性模型LS-SVM和PPR都得到了良好的预测结果,但非线性模型提供了更加精确的预测能力。结果说明,非线性LS-SVM和PPR方法可以更加准确地模拟噻唑啉分子结构与杀菌活性之间的关系,能够成为研究稻瘟病抑制剂良好的建模工具。此外,这项研究为稻瘟病抑制剂的

48、设计和开发提供了一种新的,简单而且有效的方法,同时得到的与其密切相关的分子结构信息。(2)运用定量结构保存关系方法对藏红花内43种芳香组分的SPME-GC-MS保存时间进行了预测。应用最正确多元线性回归(BMIR)和投影寻踪回归(PPR)方法分别建立了线性和非线性模型,两种方法均得到了较好的结果:线性模型的训练集和测试集的相关系数(R2)分别为0.9434和0.8725,非线性模型那么给出了较好的预测结果分别为0.9806和0.9456。通过对模型的稳定性和预测能力的比拟,可以看出非线性PPR方法可以较好的应用到SPME-GC-MS保存行为研究领域内,同时该工作又可以为其他植物和中草药的别离研

49、究提供一种简便有效的方法。 第四章主要讨论了定量构效关系在生命科学和医药研究领域内的应用,主要有以下几局部组成:(1)利用QSRR方法对55种药物在固相人工膜色谱内的保存指数进行了线性和非线性建模研究。在该工作中,线性BMLR方法被用来选取与保存指数最为相关的参数,同时建立线性回归模型;利用选取的描述符,应用PPR和LLR方法来建立更加准确的预测模型。通过模型比照,我们发现LLR作为一种新的建模方法,表达出较完美的预测能力,其训练集和测试集的预测结果为:复相关系数(R2),0.9540,0.9305;均方根误差(RMSE),0.2418,0.3949。结果显示,新型LLR建模方法在QSRR方法

50、研究中表现出了较好的预测能力,同时该方法定会成功的应用于其它类似的色谱研究领域内。(2)利用线性和非线性建模方法研究了80个N-羟基-a-苯磺酰乙酰胺(N-hydroxy-a-phenylsulfonylacetamide derivatives,HPSAs)衍生物对三种类型的基质金属蛋白酶的抑制活性。其中线性BMLR方法用来选取关键的结构参数,同时建立线性模型对所选化合物的抑制活性进行了预测;然后以全局格式搜索PPR方法利用选取的参数建立非线性回归模型。最终,线性和非线性模型均能提供较为满意的预测结果。在该工作中,非线性PPR方法首次与格式搜索(GS)方法相结合并成功应用于对HPSAs的抑制

51、活性的建模研究,得到了令人满意的预测结果。该方法的成功为其他模型参数的优化与选取提供了一种捷径。(3)利用线性回归方法和非线性回归方法-格式搜索支持向量机(GS-SVM)和PPR方法对MT3褪黑激素结合位点的亲和性进行了研究。在该工作中,遗传算法被用来选取与研究对象最为相关的结构参数,并建立线性回归模型对MT3褪黑激素结合位点的亲和性进行预测;利用选取的五个结构变量,采用非线性回归方法GS-SVM和PPR方法建立更加准确的模型。通过模型比照,我们发现非线性PPR方法能够对MT3褪黑激素结合位点的亲和性具有比拟准确的预测能力。该方法的建立,为设计和开发新型MT3褪黑激素的新型配体提供了一种新型的

52、研究方法。 第五章:QSAR方法在化学感应系统相对灵敏度的预测研究。在本章中,BMLR,SVM和LLR三种方法用来完成64种VOCs的气味检测阀值(ODTs)和鼻腔辛辣味阀值(NPTs)相对敏感性的QSAR建模研究,所得的预测结果和相应的实验数据根本吻合。相比之下,LLR方法能够获得更好的预测能力,因此,它在QSAR研究中是一种有效的机器学习算法。此外,本研究还确定了一些重要的分子结构信息,它们与VOC的相对敏感性密切相关。这些信息可以用来选择或制造一些新型的化学传感器,同时也说明LLR方法是一种很有前途的QSAR建模方法,可用于其他类似的化学传感器建模预测研究。近年来,随着信息科学、计算机科

53、学与互联网的高速开展,一种新的交叉学科-化学信息学(Chemoinformatics)也迅速成长起来了。化学信息学是一门利用信息学的方法来解决化学的问题,同时得到有关化学本质规律的的学科。化学信息学的研究范围十分广泛,内容丰富,例如化学试验设计与优化、定量校正理论、分析信号处理、化学模式识别、模型与参数估计、人工智能等。化学信息学产生于科学家们对化学知识规律的不断需要的过程中。 化合物结构与性质/活性定量关系(quantitative structure-property/activity relationship,QSPR/QSAR)是化学信息学研究中的一个重要应用分支。该方法是指将化合物的

54、结构参数同其生物活性数据以一定的数学模型相联系起来的定量关系。QSPR/QSAR的研究最初应用于生物领域是为了适应合理设计生物活性分子的需要而开展起来的。由于计算机技术的开展和应用,QSPR/QSAR的研究提高到了一个新的水平,且日趋成熟,其应用范围也迅速扩大,研究涉及生物,化学,药物科学,以及食品科学等诸多学科。人们期望用一个成功的数学模型,能从分子水平上理解其微观结构同其宏观性质/活性之间的关系,根据已有的知识,探求化合物性质/活性与结构的相互作用规律,从而推论呈现化合物某些性质的影响因素,然后为设计,筛选或预测具有人们期望性质的化合物提供信息。 化学信息学的开展为化学各分支学科的开展提供

55、了多种解决问题的新思路,新方法。本学位论文主要对化学信息学研究中的一些新算法进行了探讨,并把这些新算法成功应用于QSAR/QSPR研究领域中。该论文共包括五章节内容,每一个章节的具体内容如下所示: 第一章:简述了化学信息学的根本概念和研究现状,以及多种化学信息学算法,也详细讲述了化学信息学研究的分支之一-QSAR,包括QSAR演变历史,根本原理以及实现的步骤等等。 第二章:主要讨论了Quantitative structure-retention relationship(QSRR)方法在多肽色谱保存行为预测的应用研究。具体内容如下:(1)基于线性和非线性建模方法对反相液相色谱(RPIC)的1

56、01种多肽保存时间进行了定量结构保存关系建模研究。最正确多元线性回归(BMIR)方法用来选择与保存行为最为密切的分子描述符,并建立线性模型。另外两种非线性回归方法(径向基函数神经网络(RBFNN)和投影寻踪回归(PPR)用来构建非线性模型。RBFNN和PPR模型的训练集的相关系数(R2)分别为0.9787和0.9881;均方根误差(RMSE)为0.5666和0.4207。结果说明,RBF神经网络和投影寻踪回归将是蛋白质组研究中一种简单且有效的工具,并有望应用于其他类似的研究领域。(2)新颖的化学信息学方法-局部懒惰回归(LLR)首次应用于预测278个多肽在固定金属亲和色谱(镍柱)的保存行为研究

57、。该工作分别用BMLR,PPR和LLR三种方法建立线性和非线性QSRR模型。最正确的LLR模型的训练集和测试集的R2分别为0.9446和0.9252。该工作证明新颖机器学习算法LLR是一个非常有前途的研究工具,它可用于色谱保存行为研究领域,为协助设计和别离纯化蛋白质和多肽发挥一定的作用。 第三章主要描述了QSAR方法在农业和食品科学领域的应用研究,具体内容如下:(1)三种机器学习方法:遗传算法.多元线性回归(GA-MLR),最小二乘支持向量机(LS-SVM),PPR用于100个稻瘟病抑制剂噻唑啉衍生物的杀菌活性研究。线性模型GA-MLR和非线性模型LS-SVM和PPR都得到了良好的预测结果,但

58、非线性模型提供了更加精确的预测能力。结果说明,非线性LS-SVM和PPR方法可以更加准确地模拟噻唑啉分子结构与杀菌活性之间的关系,能够成为研究稻瘟病抑制剂良好的建模工具。此外,这项研究为稻瘟病抑制剂的设计和开发提供了一种新的,简单而且有效的方法,同时得到的与其密切相关的分子结构信息。(2)运用定量结构保存关系方法对藏红花内43种芳香组分的SPME-GC-MS保存时间进行了预测。应用最正确多元线性回归(BMIR)和投影寻踪回归(PPR)方法分别建立了线性和非线性模型,两种方法均得到了较好的结果:线性模型的训练集和测试集的相关系数(R2)分别为0.9434和0.8725,非线性模型那么给出了较好的

59、预测结果分别为0.9806和0.9456。通过对模型的稳定性和预测能力的比拟,可以看出非线性PPR方法可以较好的应用到SPME-GC-MS保存行为研究领域内,同时该工作又可以为其他植物和中草药的别离研究提供一种简便有效的方法。 第四章主要讨论了定量构效关系在生命科学和医药研究领域内的应用,主要有以下几局部组成:(1)利用QSRR方法对55种药物在固相人工膜色谱内的保存指数进行了线性和非线性建模研究。在该工作中,线性BMLR方法被用来选取与保存指数最为相关的参数,同时建立线性回归模型;利用选取的描述符,应用PPR和LLR方法来建立更加准确的预测模型。通过模型比照,我们发现LLR作为一种新的建模方法,表达出较完美的预测能力,其训练集和测试集的预测结果为:复相关系数(R2),0.9540,0.9305;均方根误差(RMSE),0.2418,0.3949。结果显示,新型LLR建模方法在QSRR方法研究中表现出了较好的预测能力,同时该方法定会成功的应用于其它类似的色谱研究领域内。(2)利用线性和非线性建模方法研究了80个N-羟基-a-苯磺酰乙酰胺(N-hyd

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论