




已阅读5页,还剩42页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 随着仪器和分析技术快速发展,蛋白质组学有了新的进展,并成为最重要的 生命科学领域之一,其实验数据庞大,要求高通量计算来提高多肽鉴定得分, 从而提高蛋白鉴定准确度。而液相色谱中多肽的保留时间信息始终没有得到很 好的利用,保留时间是色谱分析中重要的参数,如果能够更好地利用此参数可 以提高多肽鉴定质量,从而提高蛋白质的鉴定可靠性。本文试图利用这些信息 抓住多肽保留行为的特点,运用化学计量学,化学信息学中常用的方法p l s , k p l s ,s v r 等建立多肽保留时间的q s a r 模型,提高多肽鉴定质量,从而提高 蛋白质鉴定的数量和质量。 本文研究的对象多肽与其他化合物不同,多肽是由2 0 种氨基酸组成,反映 它们结构的数据目前并没有直接显示,许多学者都是假设多肽的各种物化性质 是通过组成它们的氨基酸的性质加和来反映的。本文以文献中搜集到的3 个数 据集为研究对象逐级深入地研究多肽结构和保留时间的关系,并提出了变量优 化的方法和新的局部变量,创造性地以局部变量结合全局变量建立q s a r 模型, 为q s a r 的研究开辟了新的研究方向,并建立了共识模型,得到0 9 6 以上的相 关性系数,远远高于文献值。 具体研究步骤如下:首先大规模的搜集2 0 种氨基酸的物化性质,以及多肽 研究中新产牛的各种组合变量。以数据集1 复旦大学张祥民实验室所得1 3 6 个多肽为研究对象,通过变量筛选后运用p l s ,k p l s ,s v r 对其建模预报。同 时因为单个氨基酸的保留时间来自文献,与1 3 6 个多肽的保留时间的实验条件 不同,所以剔除了这个变量再次建模预报,并运用共识模型预报所得的相关性 系数达到0 8 3 优于文献值0 8 1 。但这个结果远远没有达到本文的要求,故希望 寻找新的更多的多肽数据集,寻找潜在的新的变量,特别是尝试局部变量在多 肽结构与保留时间关系中的应用。 接着以数据集2 3 4 6 个多肽为研究对象,提出了与位置有关的变量和与 性质强度有关的变量,利用p l s ,k p l s ,s v r ,共识模型等方法建模预报,所 得相关性系数0 9 6 以上由于文献所得的o 9 2 。 最后以数据集3 8 3 4 个多肽为验证对象,用同样的方法,同样的变量, 摘要 建模预报,所得相关性系数达到0 9 7 ,远远高于文献的o 9 3 。并得出结论:局 部变量和全局变量相结合的方法有效的反映了多肽结构和保留时问的关系,为 多肽鉴定和蛋白质鉴定奠定基础。 关键词:q s a r ,蛋白质组学,保留时问,局部变量,共识模型 a b s t r a c t a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fa p p a r a t u sa n dt e c h n o l o g y , p r o t e o m i c sh a v em a d e n e wp r o g r e s sa n db e c o m et h em o s ti m p o r t a n to n eo ft h el i f es c i e n c e s ;t h e e x p e r i m e n t a ld a t ai sh u g e ,a n do n l yt h eh i g h t h r o u g h p u tc a l c u l a t i o nc o u l di m p r o v e p e p t i d ei d e n t i f i c a t i o ns c o r e ,s o 硒t oe n h a n c et h ei d e n t i f i c a t i o no fp r o t e i n b u tt h e r ei s n o tag o o dm e t h o dt ob e u s e de f f e c t i v e l yi nt h ep e p t i d er e t e n t i o nt i m ef r o m l c m s m s ,s ow et r yt ob u i l dt h eq s a rf o rt h ep e p t i d er e t e n t i o nt i m eu s i n gt h e m e t h o d sp l s ,k p l s ,s v ra n de n h a n c et h eq u a l i t yo f p r o t e i ni d e n t i f i c a t i o n t h ep e p t i d e s 嬲t h eo b j e c ti n t h i sp a p e ri sd i f f e r e n tf r o mo t h e ro b j e c t sl i k e c h e m i c a lc o m p o u n d ,w h i c hi sc o m p o s e db y2 0a m i n oa c i d s b e c a u s eu n t i ln o wt h e r e a r en ot o o l st om e a s u r et h ep r o p e r t i e sf o rp e p t i d e sd i r e c t l y , m a n ys c h o l a r ss u p p o s e p e p t i d e sp r o p e r t i e sd e p e n do na m i n oa c i d s p r o p e r t i e s t h i sp a p e ri sv a l i d a t e db y3 d a t af r o ml i t e r a t u r e s ,i n n o v a t i v e l yb u i l dt h eq s a rm o d e lb yl o c a la n dw h o l e v a r i a b l e sa n dg e tt h eg o o dr e l a t i v ec o e f f i c i e n to 9 6 w h i c hi sh i g h e rt h a nt h ev a l u eo f l i t e r a t u r ea n do p e nt h en e wr e s e a r c hd i r e c t i o nf o rq s a r t h em a i nc o n t e n t sa r ef o l l o w i n g : f i r s ts t e p ,c o l l e c tm o s to ft h ep r o p e r t i e so f 2 0a m i n oa c i d sa n dt h eg r o u p v a r i a b l e so fp e p t i d et ob u i l dt h em o d e lb y9 8a n d101p e p t i d e s s p l i t t i n gt h ev a r i a b l e s o ft h e ma n ds h o wt h a tt h es i g n a la m i n oa c i dc o u l dn o tr e f l e c tt h ep r o p e r t i e so fp e p t i d e w e l l ,b u tt h es u mo f e a c ha m i n oa c i d sp r o p e r t i e sm a n a g e dt or e p r e s e n tt h er e a l p r o p e r t i e so fp e p t i d e sa n de s t a b l i s ht h et h e o r e t i cf o rt h el a r e rr e s e a r c h s e c o n ds t e p ,w eb u i l dt h em o d e lb yd a t a13 6p e p t i d e s ,f r o mf u d a nl a b j u s t b e c a u s et h ee x p e r i m e n tc o n d i t i o n sa r ed i f f e r e n ta m o n gt h ep e p t i d er e t e n t i o nt i m ea n d a m i n oa c i dr e t e n t i o nt i m e w et r yt oe l i m i n a t et h ev a r i a b l e sw h i c ha r ec h a n g e db y d i f f e r e n te x p e r i m e n t a lc o n d i t i o n sa n db u i l dt h ec o n s e n s u sm o d e lt og e tt h eb e t t e r r e l a t i v ec o e f f i c i e n t a n dt h e na d dt h ev a r i a b l e sa b o u tt h es i t eo fa m i n oa c i d si nd a t a3 4 6p e p t i d e s ,g e t t h er e l a t i v ec o e f f i c i e n t so fc o n s e n s u sm o d e l i s0 9 5 a n da d dt h es e r i o u sa m i n oa c i d s w i t ht h es t r o n gh y d r o p h o b i a g e tt h er e l a t i v ec o e f f i c i e n t si s0 9 7 t h e nu s et h ed a t a i i i a b s t r a c t 8 3 4p e p t i d e st ov a l i d a t et h em o d e l ,g e tt h er e l a t i v ec o e f f i c i e n t so fc o n s e n s u sm o d e li s 0 9 6 4 0 t h i r ds t e p g e tt h e c o n c l u s i o nt h a tt h e s el o c a lv a r i a b l e sa n dw h o l ev a r i a b l e sc o u l d s h o wg o o dm o d e la n dg e tt h eg o o dr e s u l tt or e f l e c tt h er e l a t i o n s h i pb e t w e e nt h e p e p t i d ep r o p e r t i e sa n dt h el ce l u t i o nt i m e k e yw o r d :q s a r , p r o t e o m i c s ,l ce l u t i o nt i m e ,l o c a lv a r i a b l e s ,c o n s e n s u sm o d e l i v 同济大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行 研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文 的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的 作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集 体,均己在文中以明确方式标明。本学位论文原创性声明的法律责任 由本人承担。 签名:徐戎天 俨7 年弓月7 7 e l 学位论文版权使用授权书 本人完全了解同济大学关于收集、保存、使用学位论文的规定, 同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版 本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、 扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提供 本学位论文全文或者部分的阅览服务;学校有权按有关规定向国家有 关部门或者机构送交论文的复印件和电子版;在不以赢利为目的的前 提下,学校可以适当复制论文的部分或全部内容用于学术活动。 学位论文作者签名:徐魂萄文 伽7 年弓月zh 经指导教师同意,本学位论文属于保密,在年解密后适用 本授权书。 指导教师签名:学位论文作者签名: 年月日年月 日 第l 章引言 第1 章引言 1 1 化学计量学与生物信息学 1 1 1 化学计量学 化学计量学是通过统计学或数学的方法将对化学体系的测量值与体系的状 态之间建立联系的学科,是分析化学的三级学科。化学计量学的研究对象是有 关化学量测的基础理论和方法学。其研究内容包括:统计学和统计方法,分析 信息理论,采样,试验优化与设计,构效关系研究,人工智能和专家系统,人 工神经元网络与自适应化学模式识别等。 化学计量学的产生始于计量学与化学数据的结合。1 9 2 0 年一些经济学家引 入了数学中的主成分分析、因子分析等方法对经济的海量信息进行处理,获得 空前的成功。后来随着各种光谱、质谱、核磁共振谱等技术的产生和分析仪器 的出现也产生了很多的实验数据,1 9 6 0 年,c r a w f o r d 及m o r r i s o n 以计量学方法处 理质谱数据取得成功,开启了化学计量学的大门。1 9 7 2 年b r u c ek o w a l s k i 发展了 适应于化学数据的处理方法“线性学习机器 程序,这个方法的诞生标志着化 学计量学的产生。1 9 7 4 年国家化学计量学学会成立,标志着化学计量学作为一 门新兴学科得到了国际学术界的承认1 1 。 化学计量学早期的方法主要是:主成分分析法、因子分析、典型相关性方 法等,7 0 年代出现了线性学习机器、非线性映射等方法,8 0 年代出现了专家系 统和数据库技术,9 0 年代又出现了人工神经网络、模拟退化、遗传算法等。 2 0 0 5 年1 0 月,化学计量学与化学信息学专家学者提出学科未来的发展方向 弘j ,重点在以下几方面:要面向生命科学,以牛命体系和各种“组学为研究对 象;增强解决化学、生命、环境、材料等学科中的各种复杂实际问题的能力; 对海量的化学结构数据和化学测试数据进行深层次挖掘,进行化学结构与各种 化学性质和化学行为的定量关系研究;结合实际问题进行新算法研究等。( 如图 1 1 ) 就是化学计量学,化学信息学中各种方法与生物信息学各学科的关系。 第1 章引言 m p i x s y s t e m a t i c a n l 畸i i n d u s t d 嗣 p r o c 0 5 s h a 0 = t 钿n i z a t j o c h e m o m e t r i c sc h e m o l n r o r m a t i c s m e t h o d s :p a l t e r nr e c o g n i t i o na n d c l u s t e r i n g 。r e g r e s s i o n 。d a t a b a s ea n d o a t am i n i n g g e n e l t ca l g o r i t h ma n d lm o l e c u l a r g i o b a lo p t l m i z a t i o n 。d a t ac o m p r e s s l o n 、im a c h e n i s m d a t at r a n s f e r m a d o na n dw a v e l e t , a n n lio o c k i n a j i r e s e a r c hl i l l e r e s t s :q s a r q 8 p 只 lm o l e c u l a r s p e c i r a ie l u c i d a t i o n m o l e c u l a r l s i m u l a t i o n 聊e a s u r e m e n t a l tf l n g e r p r | n qs i m i l a r i t y 7 一 a n d 獭v e r s 嘲? i r o r m a n c s s c e n o m t c s n e w d r u g s 图1 1 化学计量学,化学信息学与生物信息学的关系 1 1 2 生物信息学 生物信息学是在生命科学的研究中,以计算机为工具对生物信息进行储存、 检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一,同时 也是2 l 世纪自然科学的核心领域之一。其研究重点主要体现在基因组学 ( g e n o m i c s ) 和蛋白组学( p r o t e o m i c s ) 两方面。 随着人类基因组计划和生物科学的迅猛发展,生物信息学历史性的成为新 世纪生命科学浪潮中的热门学科,2 0 世纪9 0 年代人类基因组计划( h u m a ng e n o m e p r o j e c t ,h g p ) 正式实施以来,人们对基因组序列信息的计算分析的方法研究成为 牛物信息学最集中的研究内容之一,而随着h g p 于2 0 0 3 年被宣布完成之后,对 蛋白质组的全面研究将逐渐成为2 1 世纪前期的另一项重要任务【3 1 。 近些年来人们又发现蛋白质间亦存在类似于m r n a 分子内的剪切、拼接, 具有自身特有的活动规律。这种自丰性不能从其基因编码序列中预测,而只能 通过对其最终的功能蛋白进行分析。因此说,基因虽是遗传信息的源头,而功 能性蛋白却是基因功能的执行体。基因组计划的实现固然为生物有机体全体基 2 第1 章引言 因序列的确定、为未来生命科学研究奠定了坚实的基础,但是它并不能提供认 识各种生命活动直接的分子基础,其问必须研究生命活动的执行体一蛋白质这 一重要环节。蛋白质组学( p r o t e o m i c s ) 研究即旨在解决这一问题。 蛋白质组学的目标是分析细胞和组织中的所有蛋白质,研究重点是蛋白的 组成,结构和功能。其研究策略与技术汇集了当今最尖端的仪器、最先进的技 术与方法以及最优化的配置与策略,是实现现代科学研究的代表之一。其研究 策略已经从个体化发展到规模化,由还原论的科学思想向系统论科学思想拓展, 创立系统化、集成化及规模化的研究设施。蛋白质组学的研究领域汇聚着生命 科学、医学、药学、分析科学、材料科学、微电子学、信息科学、数理科学等 众多学科,呈现出显著的大科学时代的特点。高效、有机地融合各类科学技术 的最新进展和成果,并整合、发展出新的交义学科与新技术,从而构建成集成 化、尖端化、系统化的立体式科学研究基础设施平台,是蛋白质组学迅速发展 与优势的关键。从分析化学的角度来看,蛋白质的研究首先需要高分辨率、高 精确度的蛋白质分离与鉴定技术,能够快速分析出成千上万种组分;其次,它 要求有很高的灵敏度,能够同时分析丰度差几个数量级的多肽组分;最后,它 要求能够进行定性定量分析,特别是生物标记物的准确定量分析。目前快速发 展的先进的测序和分析技术虽然帮助科学家们获取越来越多的与结构功能相关 的信息,但同时也产生了超大规模数据。如何从不断增长的海量数据中挖掘出 最有用的信息,是对化学计量学和牛物信息学的一个巨大挑战。本文针对多肽 在l c m s m s 分析中的保留时间这个信息加以研究利用,并对q s a r 进行变量 优化和寻求新变量,进而提高多肽保留时间的预测准确度,提高多肽鉴定质量。 1 2 课题的来源及意义 现阶段蛋白质组学的研究内容不仅包括对各种蛋白质的识别和定量化,还 包括确定它们在细胞内外的定位、修饰、相互作用、活性和最终确定它们的功 能。主要包含下述几个方面:组成蛋白质组学( c o m p o s i t i o n a l p r o t e o m i c s ) ,即针 对有基因组或转录组数据库的生物体,组织或细胞,建立其蛋白质组或亚蛋白 质组( 或蛋白质表达谱) 及蛋白质组连锁群的研究;比较蛋白质组学 ( c o m p a r a t i v e p r o t e o m i c s ) ,是以人类重大疾病或重要牛命现象为对象,研究在不 第1 章引言 同生理和病理条件下细胞中各种蛋白质之问的相互作用关系及其调控网络,以 及蛋白质的翻译后修饰情况等;蛋白质组学支撑技术平台和生物信息学的研 究。本文就是利用q s a r 中的p l s ,k p l s ,s v r 等方法对计算蛋白质组学 ( c o m p u t a t i o n a lp r o t e o m i c s ) 中多肽结构与保留时间的关系展开研究。 下面以蛋白质的分析路线( 图1 2 ) 为例:蛋白质的分析主要分两条路线, 一条是二维凝胶路线,通过m a l s i t o f m s 对蛋白质分析;一条是液质联用路 线,通过l c m s m s 对蛋白质分析。两条路线最终都通过计算机对其产生的海量 数据进行分析,由经过验证、结果可信、大家公认的网络服务程序来完成蛋白 质鉴定的任务。特别是对于成百上千蛋白质的大规模鉴定,鉴定质量对数据处 理依赖性很大。目前通用的鉴定策略有两类【4 1 :一类是通过匹配的方法比较实验 数据与现有的蛋白质数据库的理论酶解数据,根据匹配规则打分,根据得分高 低,判定蛋白质归属;另一类是从头计算( d en o v o ) ,根据实验质荷比的差值, 识别氨基酸,然后将它们连成多肽。两种方法各有优缺点,匹配方法很好地利 用了己知的蛋白质知识,抗干扰能力强,鉴定结果内容丰富,是计算蛋白质组 学主要方法。d en o v o 可以发现新的蛋白质,但其结果需要进一步验证。目前常 用的鉴定软件中使用的匹配打分算法主要有s e q u e s t 软件的互相关( c r o s s c o r r e l a t i o n ) 分析【5 】和m a s c o t 软件的基于概率的打分算法【0 1 。这些算法在蛋白质鉴 定方面还没有达到满意的程度,存在问题较多,能可靠鉴定的蛋白质数量不多, 有些蛋白置信度较低,假阳性难以区别,数据的有效利用率很低,并且费时费 力,因此质谱实验数据处理已成为蛋白质组学发展的瓶颈。为了解决上述困难 和挑战,近年来涌现出许多新的算法和工具【7 1 ,不断提高计算蛋白质组学的分 析能力。但目前广泛运用的著名软件没有考虑多肽的保留行为,多肽在液相色 谱中的洗脱时间一直没有被充分利用使得蛋白质分析识别的策略中存在较大缺 陷。本文就是通过研究多肽结构与保留时间的关系来提高多肽的鉴定质量,从 而提高蛋白质的鉴定质量和数量。 4 第1 章引言 b1 d s d s r 吣e 蠢矗臁垂霎篓 鬻粪 ,二_ 。摩主i 三兰要 i 。e x 。c i s 。e 。p 。r o 。t e 。i n ,, l ”4 “ 、二,广 o ;0 “p t i “。 lm l d i fm s l l :i ;篙盘翟 l :。i g 。e s a t , e x t r 。a g 。t 飞。 厂、,j l - 一一s i j l 舢l | | l乳山山。 m z 1 3 本文主要研究内容 图1 2 蛋白质组学的分析路线 本实验室一直从事分析化学领域的理论研究,从化学训量学到化学信息学 到生物信息学。如上所述本篇文章旨在以l c - m s m s 进行多肽分析,研究多肽保 留时间及其结构的关系,建立q s a r 模型,有效利用l c - m s l m s 的信息,为蛋白 质的鉴定做出贡献。 这个研究过程如图( 13 ) 首先对多肽序列通过编码提取特征向量,通过q s a r 中各种算法建立模型,然后对多肚结构进行预测,从而预测蛋白质结构功能寻 找牛物内部存在的规律。 第1 章引言 生物内部存在的规律 圈13 多肚结构与保留时间建模 而这个过程实际就是在建立一个保窘时间( y ) 与结构( x ) 之间的函数关 系y = f ( x ) ,也就是所谓的o s a r 模型。q s a r f n 心【9 】就是将将各种电子 的、量测的、计算的、拓扑的分子描述符作为自变量同应变量活性联系起来。 寻找( 1 ) x 子集中影响y 的变量的选择;( 2 ) x 与y 关系表达式的选择;( 3 ) 表 达式参数的确定。目前建模方法已经根成熟,本文主要运用实验室白编程序p l s , k p l s ,网上的s v m 方法以及近期提到的共识模型方法,重点在于寻求新的变量 提高模型的预报准确率。 本实验室之前已在利用多肽局部保留时间提取数据特征方面做了初步尝 试。并以1 8 标准蛋白混合体系的3 号色谱馏分的质谱数据为例,选取相对保留 时间范围在仉2 r a i n 以内,质量相近的多肽( 质量容忍度为士1 d a ) ,合并其二级 质谱,母离子质量取各母离子质量的平均值。对符合条件的1 1 条多肚进行了处 理,结果发现对于真实蛋白l p h u b ( i p i i d ) 得分由处理之前的4 6 8 提高到4 7 8 , 而假阳性蛋白得分几乎没有变化。目前我们正在研究蛋白质打分系统,希望把 多肽保留时间预测模型作为一个打分依据,从而提高蛋白鉴定质量。 本文主要涉及三个数据集分别为1 3 6 个多肽,3 4 6 个多肽和8 3 4 个多肽的保 留时间,以及6 0 多项氨基酸物化性质。首先大规模的搜集2 0 种氨基酸的物化 性质,以及多肽研究中新产生的各种组合变量。并对9 8 个多肽和1 0 1 个多肽进 第1 章引言 行了变量拆分,说明单个氨基酸的性质并不能很好的反映多肽的结构,而其加 和得到的变量可以较真实地反映多肽的结构,也为本文的后续工作奠定了理论 基础。 接着以数据集1 复旦大学张祥民实验室所得1 3 6 个多肽为研究对象,通 过变量筛选后运用p l s ,k p l s ,s v r 对其建模预报。同时因为单个氨基酸的保 留时间来自文献,与1 3 6 个多肽的保留时间的实验条件不同,所以剔除了这个 变量再次建模预报,并运用共识模型方法所得的相关性系数达到o 8 3 优于文献 值o 8 1 。但这个结果远远没有达到本文的要求,故希望寻找新的更多的多肽数 据集,寻找潜在的新的变量,特别是尝试局部变量在多肽结构与保留时间关系 中的应用。 之后以数据集2 3 4 6 个多肽为研究对象,提出了与位置有关的变量和与 性质强度有关的变量,利用p l s ,k p l s ,s v r ,共识模型等方法建模预报,所 得相关性系数0 9 6 以上由于文献所得的o 9 2 。 最后以数据集3 8 3 4 个多肽为验证对象,用同样的方法,同样的变量, 建模预报,所得相关性系数达到0 9 6 4 0 ,远远大于文献的o 9 3 。并得出结论: 局部变量和全局变量相结合的方法有效的反映了多肽结构和保留时间的关系, 为多肽鉴定和蛋白质鉴定奠定基础。 7 第2 章q s a r 2 1q s a r 的发展现状 第2 章q s a r 定量构效关系( q s a r ) 是通过一些数理统计方法建立一系列化合物的生理 活性或某种性质与其物理化学性质之间的定量关系。通过这些定量关系可以推 测化合物的牛理活性或某些性质,指导我们设计出具有更高活性的化合物,或对 未知化合物做出性能预测。早在1 8 6 7 年,c r u m b r o w 和f r a s e r 就提出了构效关 系的概念,但是未建立明确的函数模型。1 9 0 0 年前后,o v e a o n 和m e y e r 等提出 了麻醉作用的类脂学说,即化学结构各异的麻醉剂其活性随着脂水分配系数增 加而增加的现象,这可能是最早提出的化合物生理活性和物理化学性质之间的 定量分配关系模型。后来h a m m e r 1 0 提出线性自由能关系( l f e r ) 开启了q s a r 的大门。直到1 9 6 2 年h a n s c h 提出h a n s c h 方程【1 l 】才是最早可以实施的q s a r 方法。 几乎在同时f r e e e 等人提出t f r e e w i l s o n 方法【l2 1 ,后来这两种方法被称为二维定 量构效关系,因为它们均是将分子作为一个整体考虑其性质。 随后随着计算机技术的发展和多变量解析技术的引入,定量构效关系方法 才逐渐发展和应用起来。二十世纪8 0 年代,c r i p p e n 1 3j 提出距离几何学的 3 d q s a r ;1 h o p f m g e r 1 4 】等提出分子形状分析方法;c r a m e r t l 5 j 等提出比较分子 场方法( c o m f a ) ,此法后来广泛应用于药物设计中。 2 2q s a r 的结构参数 影响化合物活性的参数大致可以分为3 类:物理化学参数、分子拓扑指数、 理论计算参数。 2 2 1 物理化学参数 1 疏水性参数( 1 i p o p h i l i co rh y d r o p h o b i cp a r a m e t e r s ) 疏水性参数最常用的是体内脂相与水相问的脂水分配系数p 的对数( 1 0 9 p ) 和 取代基的疏水性常数。化学_ j t _ l o g p 为在平衡时化合物在有机相中的浓度与其在水 相中的浓度的比值的对数。为了从理论上计算化合物的分配系数,后来提出了 第2 章q s a r a l o g p 1 6 1 ,s m i l o g p t l7 1 ,c l o g p f 1 引,k l o f p l 1 9 】等基于原子加和和片段加和的 方法。 2 电性效应参数( e l e c t r o n i cp a r a m e t e r s ) 分子( 或离子) 间的相互作用会影响化合物与生物组织作用的强度和范围。这 些相互作用力包括永久偶极一永久偶极问( 取向力) 、永久偶极透导偶极问( 诱导 力) 、瞬问偶极一瞬问偶极间( 色散力) 以及离子一离子问、离子一偶极间的相互 作用,其强度可用电性参数来描述。在电性参数中,应用最为广泛的就是h a m m e r 等提出的。取代基常到2 0 1 。o 值的大小反映了基团吸电子( 或给电子) 能力的大 小,o 值越大,吸电子能力越强;反之,o 值越小,给电子能力越强。 3 立体参数( s t e r i cp a r a m e t e r s ) 立体参数中使用较多的是几类从化学反应性导出的参数,包括脂肪类化合 物的酸性催化水解反应得到的e s 2 1 1 ,按照超共轭效应校正的e c s 值2 2 1 ,及由具有 邻位取代基的苯甲酸酸性水解得到的e o s 2 3 】等。另外还有与分子或取代基形状及 大小有关的摩尔折射度m r 、分子摩尔体积m v 、范德华半径和原子间距离等。 2 2 2 分子拓扑指数( m o l e c u l a rt o p o l o g i ci n d e x ) 分子拓扑指数能反映分子骨架中原子的种类、数目及键的数目,不饱和键 的位置和数目,环的大小和数目,碳桥的位置及数目,原子的排列顺序等。在 构效关系研究中丰要有w i e n e 指数【2 4 1 ,h o s o y a 指数洲,r a n d i c 分子连接性指数2 4 1 等。 2 2 3 理论计算参数 1 电子结构参数。主要通过量子化学计算得到。结构参数有:最高占有轨道 能级、最低空轨道能级;原子静电荷、前线轨道电子密度等;分子静电势、键 级等。 2 几何参数。用量子力学、分子力学等方法,计算分子的原子间距、键角、 二面角和两平面问夹角等几何参数。 3 分子形状参数。用量子化学、分子力学等方法计算分子体积、分子表面积 以及分子的溶剂可及性表面等分子形状参数,反应分子与受体结合时的几何形 状是否匹配。 9 第2 章q s a r 2 3q s a r 的变量选择方法 由化合物的结构我们可以衍生出诸多的变量,如拓扑的,几何的和电子的。 从统计学出发我们希望尽可能少的变量表征尽可能多的信息,如多元回归分析。 过多的变量不仅计算量大,而且可能导致所得的数学模型不稳定,使预测结果 较差。因此,需要对变量进行压缩,以剔除较差的变量。另外,不同变量的组 合所得结果可能差别很大,这就需要采用一定的算法对变量进行选择,而变量 的选择是一个非常费时和复杂的工作。变量选择的好坏对数学模型的稳定性及 准确性有至关重要的影响。按照q s a r 建模方法大致可以分为三类: 2 3 1 基于多元线性回归分析的变量选择方法 1 前进法( f o r w a r ds e l e c t i o n ) 每次加入一个自变量到模型中,直到剩余的变量不再有显著的回归系数, 或者所有的变量已全部进入模型。 2 后退法( b a c k w a r de l i m i n a t i o n ) 开始全部变量均在模型中,然后逐一地将之剔除。直到模型中所有的变量 都是显著的,或者模型中仅剩下一个变量时计算停止。 3 逐步回归法( s t e p w i s er e g r e s s i o n ) 前两种方法的混合,直到剩余变量不能被引入而模型中的变量也不能被剔 除为止。 4 正交变换法( g r a m s c h m i d t ) 设变量集x 有n 个元素,若按一定规则排序为x 1 ,x 2 ,x n 。第一步,取 x i 为第一个正交基ql ,使x 2 ,x n 和x 1 正交。则x 1 作自变量,x 2 为因变 量进行一元回归,得x 2 1 - - x 2 ( 实际值) 一x 2 ( 计算值) ;和) 【2 一样由其它变量得到 x i l 。第二步,取x 2 1 为正交基q 2 ,使其它变量x i l 和q 2 正交。重复如上过程 直至得到n 个正交变量。由于变量问彼此正交,因而,各变量的作用可以单独 进行测试而不受其他变量的影响。所以只要对正交变量和因变量进行一元回归 得到相关系数r i ,即可求组合后的回归系数r r :( y ”尺? ) 互 ( 2 1 ) 式中r i 为正交化的变量i 与因变量间的相关系数。 1 0 第2 章q s a r 2 3 2 基于偏最小二乘( p l s ) 的变量选择方法 主要包括修j 三p l s 权重或系数以消除模型中无用变量的方法,j t h l i n d g r e n 等 的i v s p l s 法,c e n t n e r 等的u v e p l s 法,还有b a r o n i 等的g o l p e 法,按照一定方 式选择变量组合从而得到较优模型。 2 4q s a r 的建模方法 q s a r 建模多采用多元线性回归。多元线性回归分析要求化合物或样本数大 于描述变量数。通常要求样本数至少是描述子的3 倍,最好l o 倍以上。由于上述 条件限制,m l r 现在单独应用不多,常与其他计算方法配合使用。后来研究者 开发了新的方法j t h p c r ,p l s ,a n n ,s v m 等来更好地建立q s a r 模型。 2 4 1 偏最d r - - 乘法( p a r t i a ll e a s ts q u a r e s ) 偏最小二乘法是一种新型的多元统计数据分析方法,它于1 9 8 3 年由伍德 ( s w o l d ) 和阿巴诺( c a l b a n o ) 等人首次提出。近几十年来,它在理论、方法和应 用方面都得到了迅速的发展。 偏最小二乘法可以同时实现回归建模( 多冗线性回归) 、数据结构简化( 丰 成分分析) 以及两组变量之问的相关性分析( 典型相关分析) 。此分析同样采用 成分提取的方法。但它与主成分回归分析的不同在于:它在成分提取的时候, 不仅考虑了预测变量数据中的信息,而且考虑了因变量数据中的信息,并且使 预测变量数据和因变量数据中提取的信息之间的相关性达到最大。 目前偏最小二乘同归分析己成为q s a r 研究中最为常用的建模方法。许青松 和梁逸曾等人 2 5 , 2 6 1 提出了广义p l s 算法,并研究 m o n t ec a r l o 交叉验证法用于 p l s 成分数目的确定。本实验室【2 7 , 2 8 把g a ,g p 和p l s 结合起来用于非线性问题的 求解。 和丰成分回归类似,交叉验证也是确定p l s 丰成分数目的好方法,主要有 l e a v e o n e o u t l g l l e a v e g r o u p o u t 两种 2 9 , 3 0 , 3 1 】。 第2 章q s a r 2 4 2k p l s 算法 构效关系中的大量非线性关系的存在,使非线性关系的数学描述很重要。 二二次函数和样本函数是函数高于一次的拟线性关系。实际计算表明,这两种p l s 的处理,也能取得较好的结果。但对于更复杂的非线性关系,算法必须应用非 线性拟合和解非线性方程组来描述构效关系。 为此,近年来提出了多种非线性p l s 算法。对于线性系统,通常可由交叉验 证等方法选定前几个主要的p l s 成分,其余成分则被视为随机噪音或可忽略的复 共线因素。然而对非线性系统,这些成分可能还包括着很重要的非线性信息。 非线 生p l s 模型应避免丢失这些有用的信息,它们既要克服自变量间的相关性, 又要能反映出自变量与因变量问的非线性关系。这样的模型会有相当高的拟合 精度,并能得到足够准确的预测结果,因此也是相当稳健的。运用核函数与p l s 相结合建立的非线性模型称为k p l s 。 核函数算法在化学计量学中被看成是k n n 法的一个变种。其优越性就在于 它能将一个在原有空间中的非线性问题转化为另一个称为特征空间中的线性问 题,而且实际所涉及的计算又只需在原有空间进行。这就为人们开拓了一条解 决非线性算法的捷径。 核函数性能的好坏直接取决于特征变换的好坏。利用m e r c e r 核函数的性质构 造核函数,就是利用核函数集合在某些运算下封闭的性质,组合现有的一些核 函数构造出的新的函数。用协方差函数定义核函数。协方差函数可以看作是样 本问相似程度的度量。用距离函数定义核函数。距离函数可以看作是样本间的 相异度度量。因此很多跟距离有关的定义,都可以借鉴过来用于核函数的定义。 距离的概念是广泛的。它不仅包括两个样本问的距离函数,还包括某个泛函空 间中范数的定义【3 2 】。 k p l s 3 3 , 3 4 , 3 5 , 3 6 , 3 7 1 的算法与p l s 大部分相同,唯一不同的是在p l s 之前用核函 数将原输入数据转化为核矩阵,即p l s 进行双线性分解的不再是原始数据而是体 现了某种特征关系的核矩阵。实际是将传统p l s 方法中x x l 用核函数替代。 2 4 3s v m 算法 支持向量机( s v m ) 是一种比较好的实现了结构风险最小化思想的方法。 它的机器学习策略是结构风险最小化原则为了最小化期望风险,应同时最小化 1 2 第2 章q s a r 经验风险和置信范围。 支持向量机方法的基本思想: 1 它是专门针对有限样本情况的学习机器,实现的是结构风险最小化:在 对给定的数据逼近的精度与逼近函数的复杂性之间寻求折衷,以期获得最好的 推广能力; 2 它最终解决的是一个 二次规划问题,从理论上说,得到的将是全局最 优解,解决了在神经网络方法中无法避免的局部极值问题; 3 它将实际问题通过非线性变换转换到高维的特征空间,在高维空间中构 造线性决策函数来实现原空间中的非线性决策函数,巧妙地解决了维数问题, 并保证了有较好的推广能力,而且算法复杂度与样本维数无关。 目前,s v m 算法在模式识别、回归估计、概率密度函数估计等方面都有应 用,且算法在效率与精度上已经超过传统的学习算法或与之不相上下。 对于经验风险r ,可以采用不同的损失函数来描述,如e 不敏感函数、 q u a d r a t i c 函数、h u b e r 函数、l a p l a c e 函数等。 核函数一般有多项式核、高斯径向基核、指数径向基核、多隐层感知核、 傅立叶级数核、样条核、b 样条核等,虽然一些实验表明在分类中不同的核函数 能够产生几乎同样的结果,但在回归中,不同的核函数往往对拟合结果有较大 的影响。 支持向量回归( s v r ) 算法i 丰要是通过升维后,在高维空间中构造线性决策 函数来实现线性回归。用e 不敏感函数时,其基础主要是e 不敏感函数和核函数算 法。若用拟合的数学模型表达多维空间的某一曲线,则根据e 不敏感函数所得的 结果,就是包括该曲线和训练点的“e 管道 。在所有样本点中,只有分布在“管 壁”上的那一部分样本点决定管道的位置。这一部分训练样本称为“支持向量”。 为适应训练样本集的非线性,传统的拟合方法通常是在线性方程后面加高阶项。 此法诚然有效,但由此增加的可调参数未免增加了过拟合的风险。支持向量回 归算法采用核函数解决这一矛盾。用核函数代替线性方程中的线性项可以使原 来的线性算法“非线性化 ,即能做非线性回归。与此同时,引进核函数达到了 “升维 的目的,而增加的可调参数使过拟合依然能被控制。 第3 章变量优化与共识模型 第3 章变量优化与共识模型 3 1 多肽保留时间研究历史 多肽保留时间研究已有5 0 多年历史了。早在1 9 5 1 年f i s h e r , k n i g h t 和p a r d e e 用薄层色谱预测了合成小肽的r f 值。1 9 8 0 年m e e l d 臣过小肽研究发现小肽的保留 时间丰要依赖于氨基酸的组成。1 9 8 1 年m e e k 又用1 0 0 个肽进一步证实了多肽和 每个氨基酸残基的疏水性的关系并得到更为准确的每个氨基酸的保留系数。 m
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年新能源行业人才流失原因分析与对策报告
- 声测管注浆施工方案
- 美术培训机构宣讲
- 上海市延安实验初级中学2026届九年级英语第一学期期末监测模拟试题含解析
- 高胆红素血症的护理措施
- 行为管理安全培训
- 2026届石狮七中学英语九年级第一学期期末质量检测试题含解析
- 黑龙江省哈尔滨市松北区2026届化学九年级第一学期期中调研试题含解析
- 山东省济南市育英中学2026届九上化学期中质量检测模拟试题含解析
- 2026届吉林省长春市中学九年级化学第一学期期中达标测试试题含解析
- 糖尿病足的影像学鉴别诊断
- 象棋入门课件教学
- 2024-2030年能源行业市场深度分析及竞争格局与投资价值研究报告
- 休学申请书家长
- 香港买卖黄金佣金合同模板
- 3.2 摩擦力 课件 高一上学期物理人教版(2019)必修第一册
- 初中九年级数学中考复习讲义(20讲全)
- 2024年指标房转让买卖合同范本
- 排球课教案完整版本
- 2024土建工程承包合同范
- 广东高职高考数学题分类
评论
0/150
提交评论