已阅读5页,还剩63页未读, 继续免费阅读
(计算机应用技术专业论文)基于svm的蛋白质折叠子识别研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
i :海大学硕_ - 【= 学位论文 摘要 蛋白质的三维空间结构很大程度上影响其生物学功能,理解氨基酸序列如 何形成蛋白质三维空间结构一直分子生物学中重要的研究目标之一。随着已知 氨基酸序列的蛋白质数目快速增长,用传统实验方法蛋白质探测结构的速度远 远跟不上序列测序速度,使用理论计算方法预测蛋白质结构和功能成为牛物信 息学的一个重要研究方向。 理论计算方法的预测依据是蛋白质序列信息。如何在不依赖于序列相似性 的条件下,应用计算机技术对生物蛋白质序列数据进行分析,找出蛋白质折叠 子类型,己成为计算机科学和牛物学交叉学科的研究热点问题。 木文基于计算机技术和生物学原理,以蛋白质序列中蕴含的牛物信息分类 为依据,对蛋白质中口类、类、口+ 类及口炒类中样本数量较多的2 7 类折 叠子类型进行识别研究,提出了一种基于统计量“矩”的特征向量表示法,并 进一步构建i d a g s v m 多分类器进行识别,其主要研究为以下几方面: 第一,提出了矩描述子特征向量表示法。在研究了d u b c h a k 特征向量表示 法的基础上,利用统计学中的“矩 来描述氨基酸残基的顺序和位置信息,构 建了矩描述子特征向量集。“矩”的引入,克服了d u b c h a l ( 不能描述蛋白质氨基 酸序列的顺序和耦合信息的缺点,使得新特征向量表示法能够有效的描述氨基 酸组成、顺序和耦合信息等重要蛋白质序列特征。 第二,设计了i d a g s v m 多分类器。对常见支持向量机多类分类算法( “一 对多”、“一对一”和有向无环图d a g ) 的原理和优缺点进行研究和分析。在此 基础上,引入了一种以类样本分布情况生成有向无环图思想,提出改进的有向 无环图多分类算法( i d a g ) ,用于蛋白质折叠子识别领域。 第三,通过实验,验证提出的矩描述子特征向量表示法和i d a g s v m 多分 类算法。结果表明,本文采用的预测结果优于d i n g 等人的预测结果【l 】,总体预 测精度从d i n g 等人的5 6 0 提高到6 0 7 。同时对“一对多”、“一对一”、d a g 和i d a g 四种支持向量机多分类算法进行性能横向比较分析,比较了四种算法 v i :海大学硕十学位论文 的分类效果,通过实验证明本文提出的i d a g 多分类算法在性能上,优于其他 三种多分类算法。 关键词:蛋白质折叠子识别,多分类器系统,矩描述子,蛋白质 序列特征提取,支持向量机 v i 上海大学硕1 :学位论文 a b s t r a c t b i o l o g i c a lf u n c t i o no fp r o t e i n sd e p e n d sl a r g e l yo nt h e i rt h r e e - d i m e n s i o n a ls p a c es t r u c t u r e i t h a sb e e na ni m p o r t a n to b j e c t i v ei nm o l e c u l a rb i o l o g ys t u d yt ou n d e r s t a n dh o wa m i n oa c i d s e q u e n c e st oc o n s t r u c tt h r e e d i m e n s i o n a l s i n c et h eg a pb e t w e e ns h a r p l yi n c r e a s i n gk n o w n s e q u e n c e sa n ds l o wa c c u m u l a t i o no fk n o w ns t r u c t u r e si st e n d i n gt ob el a r g er a p i d l y , i ti s i m p o r t a n tt os e a r c ha n du s et h et h e o r e t i c a lo rc o m p u t a t i o n a lm e t h o d sf o rp r e d i c t i n gt h es t r u c t u r e a n df u n c t i o no fap r o t e i n o n eo ft h ei m p o r t a n ta p p r o a c h e st os t r u c t u r ea n a l y s i si sp r o t e i nf o l d r e c o g n i t i o n ,w h i c hi so f t e na p p l i e dw h e nt h e r ei sn os i g n i f i c a n ts e q u e n c es i m i l a r i t yb e t w e e n s t r u c t u r a l l ys i m i l a rp r o t e i n s t h i sp a p e rw o r ko np r o t e i nf o l d sr e c o g n i t i o n i ti s c r o s s d i s c i p l i n a r yo fb i o l o g ya n d c o m p u t e rw h i c hu s ew h i c hu s ec o m p u t e rs c i e n c ea n di n f o r m a t i o ns c i e n c er e l a t e dk n o w l e d g et o p r e d i c tp r o t e i nf o l dc l a s sw i t hp r o t e i ns e q u e n c e b a s e do np r e v i o u sw o r k ,w eh a v es t u d i e dt h e p r o t e i nf o l dr e c o g n i t i o np r o b l e m ,u s i n gu s u a l2 7p r o t e i nf o l dc l a s s e s w eu s ean e wf e a t u r e r e p r e s e n t a t i o n ,m o m e n td e s c r i p t o r ( m d ) ,t od e s c r i b et h ec h a r a c t e r i s t i c so fp r o t e i ns e q u e n c e s a n d ,b u i l dan e wm u l t i c l a s s i f i e r sb a s e do ns u p p o r tv e c t o rm a c h i n e s ( i d a g - s v m ) f o r i d e n t i f y i n gp r o t e i nf o l d s t h i sp a p e r sm a i nr e s e a r c hc o n t e n ta n da c h i e v e m e n ta sf o l l o w s : f i r s t ,w ep r o p o s ean e wf e a t u r ep r e s e n t a t i o no fp r o t e i ns e q u e n c e ,m o m e n td e s c r i p t o rf e a t u r e p r e s e n t a t i o n w i t ht h ev i e wo fs t a t i s t i c a lt h e o r y , t h ep r e s e n t e dm e t h o da n a l y s e sa m i n oa c i d c o m p o s i t i o n ( a a c ) a n dc o n s i d e rt h ei n f o r m a t i o no fa m i n oa c i d sp o s i t i o ni np r o t e i ns e q u e n c e , a n dt h e nu s e sa m i n oa c i dc o o r d i n a t em e a n ( a a m ) a n dc o o r d i n a t ev a r i a n c e ( a a v ) t o r e s p e c t i v e l yr e p r e s e n tt h ee x p e c t a t i o na n dv a r i a n c eo f i t sp o s i t i o ni nap r o t e i ns e q u e n c e s e c o n d ,w ed e s i g n e dam u l t i c l a s s i f i e rb a s e do ni m p r o v e dd i r e c t e da c y c l i cg r a p hs u p p o r t v e c t o rm a c h i n e ( i d a g s v m ) w ec o m p a r e dt h eu s u a lm u l t ic l a s s i f i c a t i o na l g o r i t h m ( o n ev s o t h e r , o n ev so n ea n dd i r e c t e da c y c l i cg r a p h ) w i t ht h et h o u g h tt h a tc o n s t r u c t i n gd i r e c t e da c y c l i c g r a p ha c c o r d i n gt ot h ed i s t r i b u t i o no fs a m p l e s ,w ed e s i g n e di d a g s v ma l g o r i t h mf o rp r o t e i n f o l d sr e c o g n i t i o n t h 矾,t h r o u g ht h ee x p e r i m e n t s ,w ev e r i f i e dt h a tt h em e t h o dw ep r o p o s e di se f f e c t i v ei n 上海大学硕1 :学位论文 p r o t e i nf o l dr e c o g n i t i o n t h er e s u l t ss h o w e dt h a to u rc l a s s i f i c a t i o na c c u r a c yb e t t e rt h a nd i n g “s l 】 i n c r e a s e dt h ea c c u r a c yf r o m5 6 0 ( d i n g ) t o6 0 7 w ea l s od oah o f i z o n m ls t u d yw i t h ”o v r ”, ”o v o ”,d a ga n di d a gf o u rm u l t ic l a s s i f i c a t i o na l g o r i t h m s c o m p a r e dt h ep e r f o r m a n c eo ff o u r t y p e sc l a s s i f i c a t i o na l g o r i t h m s ,t h er e s u l t ss h o w e dt h a ti d a gm u l t ic l a s s i f i c a t i o na l g o r i t h m p e r f o r m a n c eb e t t e rt h a nt h eo t h e r sa l g o r i t h m k e y w o r d s :p r o t e i nf o l dr e c o g n i t i o n ,m u l t i - c l a s s i f i e rs y s t e m , m o m e n td e s c r i p t o r s ,p r o t e i ns e q u e n c ef e a t u r ee x t r a c t i o n ,s u p p o r t v e c t o rm a c h i n e v i i i j :海大学硕上学位论文 原创性声明 本人声明:所呈交的论文是本人在导师指导下进行的研究工作。 除了文中特别加以标注和致谢的地方外,论文中不包含其他人已发 表或撰写过的研究成果。参与同一工作的其他同志对本研究所做的 任何贡献均已在论文中作了明确的说明并表示了谢意。 本论文使用授权说明 本人完全了解上海大学有关保留、使用学位论文的规定,即: 学校有权保留论文及送交论文复印件,允许论文被查阅和借阅;学 校可以公布论文的全部或部分内容。 ( 保密的论文在解密后应遵守此规定) i i 聋丛日期:羔翠j f :海大学硕卜学位论文 第一章绪论 1 1 研究的目的和意义 随着信息技术和牛物技术的不断发展,特别是人类基因组计划( h g p ) 的 完成,人们已经获得海量的牛物数据,并且其积累速度正以指数的态势不断增 加【2 】。这些数据具有丰富的内涵,解释这些数据的内涵,进而得到对人类有用 的信息,将是生物学家和其它领域的科学家所面临的一个严峻挑战。其中生物 信息学就是近年来为迎接这种挑战而发展起来的一门新型交叉学科。生物信息 学是以牛物大分子( d n a 序列和蛋白质) 为分析对象,运用信息学、计算机科学、 牛物计算数学、物理学、比较生物学等学科的观点和方法对其进行分析,研究 生物大分子所包含的各种信息,特别是d n a 序列中的遗传及调控信息,研究 蛋白质序列、结构及功能之间的关烈2 。3 1 。研究的目的在于通过这样的分析逐步 认识生命的起源、进化、遗传和发育的本质,破译隐藏在d n a 序列中的遗传 语言,揭示人体生理和病理过程的分子基础,为人类疾病的诊断、预防和治疗 提供合理有效的方法或途径【4 】。生物科学的重点和潜在的突破点已经由二十世 纪的试验分析和数据积累转移到数据分析及其指导下的试验验证上来,牛物科 学也正在经历着一个从分析还原思维到系统整合思维的转变。近年来,蛋白质 结构数据的快速增长,使蛋白质三维结构的处理分析也归入到牛物信息学的范 畴。蛋白质折叠问题是分子生物学研究的中心课题。它所要解决的是蛋白质一 级结构中的氨基酸序列最终怎样折叠成三维空间结构的问题。 目前测定蛋白质三维空间结构的实验方法主要有两种:x 一射线晶体学( x r a y c r y s t a l l o g r a p h y ) 方法和核磁共振波谱学( n u c l e a rm a g n e t i cr e s o n a n c e ( n m r ) s p e c t r o s c o p y ) 方法。以大分子结构数据库p d b ( p r o t e i nd a t ab a n k ) 为例,在其收 录的大分子结构中,约8 5 是通过x r a y 解析出来的,约1 4 是通过n m r 技 术解析出来,剩余1 为其他实验方法解析【5 】。这两种丰要的实验方法的局限性 在于:n m r 方法精度较差,且对蛋白质的体积的大小有所要求;而x r a y 方法 对蛋白质晶体制备要求苛刻,有些蛋白质很难获得晶体结构。此外,两种方法 i :海大学硕七学位论文 都具有周期长、成本高、技术难度大等缺点。因此,应用实验方法已测定的蛋 白质空间结构的数量,远远少于己知蛋白质序列的数量。图1 1 为近年来蛋白 质序列数据库s w i s s p r o t 收录的蛋白质序列的数量增长趋势【6 】,图1 2 为p d b 数据库收录的己测定空间结构的蛋白质数量情况【5 】。对比两图,可见蛋白质序 列的数量远远多于已测定空间结构的蛋白数量,即己知序列的蛋白质绝大部分 未被测定结构,解决这一问题的有效途径是利用计算机技术和信息技术,对蛋 白质序列进行分析和研究,使用理论预测方法预测蛋白质的结构。 3 0 0 2 5 0 燎2 0 0 宅1 5 0 鬈t o o 5 0 o o一04口卜o v-qn_四扣 毋西昏矛西。西oo o o o o o o aoooooo口ooo 口 hh_,-g-畸h_hhnnn n nnnn 年份 图1 1s w i s s p r o t 收录的蛋白质序列的数量增长趋势 5 0 ,、t o 誊3 0 嘲2 0 糍l o o 一一。- 。- 。lii 1ill l 累;:g 髻茎譬誉容累累吕ggg 苫昌兽g s :22 :2 :竺竺竺器是呙悬是器器高 年份 图1 2p d b 数据库收录的己测定空间结构的蛋白质数量 本课题对蛋白质折叠子识别法的特征表示和分类算法进行研究和改进。目 前蛋白质的理论预测方法丰要分三类:1 同源建模法 1 0 - 1 2 】;2 折叠子识别法【1 , 1 3 】: 3 从头预测法【1 4 1 。折叠子识别法是当前蛋白质结构预测的研究热点,它的优点 在于目标蛋白质不需要已知结构的蛋白质作模板,就可以采用该方法进行三维 结构预测。折叠子识别法可以应用于没有同源结构的情况,且可以绕过二级结 构预测准确性不高的局限,因此是一种具有潜力的预测方法。 折叠识别法的丰要原理是把未知蛋白的序列和己知的结构进行匹配,找出 2 上海大学硕l 二学位论文 一种或几种匹配最好的结构作为未知蛋白的预测结构。它的实现过程是总结出 已知的独立的蛋白质结构模式做为未知结构进行匹配的模板,然后用经过对现 有的数据库的学习总结出最佳的匹配方式。 1 2 国内外研究现状 2 0 世纪6 0 年代,a n f i n s e n 3 4 】通过实验发现,变性的核糖核酸酶 ( r i b o n u c l e a s e ) 可以重新折叠并恢复生物活性。这说明蛋白质一级结构中隐含 了编码蛋白质三级结构的所有信息【3 5 1 。这一发现,为蛋白质结构预测提供了理 论依据。也就是说,在完全掌握了蛋白质序列和结构之间的关系后,就可以通 过分析一级结构序列特性,预测其三维空间结构。 1 9 9 5 年,m u r z i n 等人证明非同源蛋白质中存在相似的折叠子后 3 8 , 3 9 】,折叠 子识别作为蛋白质三级结构预测的一个重要领域,一直是生物信息学的一个研 究热点,各种折叠子识别算法开始出现。根据算法所用的方法不同,可以被分 为两大类,一类就是基于蛋白质氨基酸序列信息【4 0 删或者蛋白质二级结构信息 4 5 4 引,这类算法主要是根据氨基酸序列信息或者预测的二级结构信息,判断两 个蛋白质是否具有相同的折叠子结构。另一类基于蛋白质的牛化特性信息【4 9 巧, 这类算法通过构建能量函数对氨基酸序列进行折叠子类型的匹配。 2 0 世纪9 0 年代中期,国外就有研究小组开始研究如何通过蛋白质序列寻 找非同源蛋白质之间的相同折叠子。1 9 9 9 年,d u b c h a k 研究小组 1 3 , 1 5 1 提出了 d u b c h a k 特征向量表示法,使2 7 类常见折叠子的预测精度达到4 7 9 ;2 0 0 1 年, d i n g 等人【l 】使用支持向量机算法对蛋白质折叠子识别预测,预测精度最好达到 5 6 ;2 0 0 8 年,t h e m i s 研究小组【3 6 】对蛋白质序列进行数据挖掘分析,采用挖掘 特征序列的方法对折叠子进行识别预测,也取得不错效果,预测精度达到5 6 。 近几年,国内也有一些研究小组开始研究这个问题,张绍武【37 】等人把特征融合 技术引入蛋白质折叠子识别问题,取得了很好的效果,最好预测精度达到 6 0 7 。 上海大学硕j :学位论文 1 3 课题的主要研究内容 本文是对蛋白质折叠于识别问题的研究。针对氨基酸序列的特征描述,提 出矩描述子特征向量表示法,应用改进的有向无环图多分类策略构建基于s v m 多分类器,对蛋白质折叠子进行识别预测。主要做了以下工作: 第一,提出了矩描述子特征向量表示法。目前基于支持向量机的蛋白质折 叠子识别研究,大多沿用d u b c h a k 研究小组【1 3 , 1 5 1 提出的1 2 5 维特征向量表示法。 该编码方式仪仅考虑了不同氨基酸残基的百分比含量,而没有办法表达氨基酸 残基的顺序和位置信息。在研究了d u b c h a k 的特征向量表示法后,本文提出了 一种新的特征向量表示方法,用统计学中的“矩”来描述氨基酸残基的顺序和 位置信息,取代d u b c h a k 表示法中的氨基酸百分比含量,构建了矩描述子特征 向量集。 第二,对常见支持向量机多类分类算法( “一对多1 7 】”、一对一【1 7 , 1 8 】和 有向无环图d a g t l 9 1 ) 进行研究和分析,提出一种以类样本分布情况生成有向无 环图的有向无环图多分类算法( i d a g ) ,并应用于蛋白质折叠子识别领域。 第三,对我们提出的矩描述子特征向量表示法和i d a g 多分类算法,进行 了实验比较分析。在实验中,我们首先把预测精度实验结果和d i n g 等人的实验 结果进行比较;接下来,对“一对多”、“一对一、d a g 和i d a g 四种支持向 量机多分类算法进行性能横向比较分析,比较了四种算法的分类效果。 4 上海大学硕十学位论文 第二章蛋白质结构预测原理 2 1 蛋白质结构层次 2 1 1 氨基酸编码 蛋白质分子是由2 0 种不同的氨基酸通过共价键连接而成的线性多肽链,每 一种蛋白质在天然条件下都有自己特定的空间结构。这2 0 种氨基酸的具体编码 见表2 1 : 表2 - 1 氨基酸标准符号表 数字编号氨基酸化学编码拉丁字母编码 a l a n i n e a r g i n i n e a s p a r a g i n e a s p a r t i ca c i d c y s t e i n e g l u t a m i n e g 1 u t a m i ca c i d g l y c i n e h i s t i d i n e i s o l e u c i n e l e u c i n e l y s i n e m e t h i o n i n e p h e n y l a l a n i n e p r o l i n e s e r i n e 5 a l a a r g a s n a s p c y s g 1 n g l u g l y h i s d e l e u l y s m e t p h e p r o s e r a r n d c q e g h l k m f p s 0 1 2 3 4 5 6 1 2 3 4 5 6 7 8 9 1 1 1 1 l 1 1 i :海大学硕上学位论文 1 7 1 8 1 9 2 0 t h r e o n i n et l :l r t r y p t o p h a nt r p t y r o s i n et y r v a l i n ev a l t w y v 2 1 2 蛋白质结构层次 早在二十世纪三十年代,人们就已经开始研究蛋白质的空间结构,然而直 到1 9 5 2 年丹麦生物化学家l i n d e r s t r o nl a n g 提出蛋白质一级结构、二级结构和 三级结构的概念2 们,才使得蛋白质结构的研究有了质的飞跃。后来随着越来越 多的蛋白质结构被测定,又提出了四级结构、超二级结构和结构域等概念2 1 之2 1 。 图2 1 以树状表示了蛋白质的结构层次及其关系。 otlualcrar3、蹦文“结 ,7 ,r 、 l c 九l :h ,黝精鬻,h l n i f ,j 0 专 咖a ”叫枞删“吣轧m # 糟 ,、,专 + , i 。j 。 ,广i = ? “畔”妇坶“ j、i 、j ! | 。、j |! 一k ,:,k4 1 k:- 一z 蛾”吡”、u n ”。 一毒l ,矗 ,- 耘 - 一 r 砰1 m 辑j 艄r 硅d 址f e l 础k 朗厶、哪u 。愆c i 图2 1 蛋白质结构层次图 蛋白质的一级结构( p r i m a r ys t r u c t u r e ) 就是指以肽键相互连接氨基酸的线 性序列,可以说,这是一个没有空间概念的结构。当氨基酸序列在空间发牛折 叠时,就形成某种形式的三维空间结构,包括二级结构、三级结构和四级结构, 通常称为蛋白质的高级结构。二级结构( s e c o n d a r ys t r u c t u r e ) 也称构象单元,是 指多肤链区段的规则折叠,最常见的二个折叠类型为螺旋( h e l i x ) 和折叠片 ( p l e a t e ds h e e t ) 。三级结构( t e r t i a r ys t r u c t u r e ) 也称蛋白质的三维结构、空间结构 或构象( c o n f o r m a t i o n ) ,是指氨基酸序列中相距甚远以及彼此邻近的氨基酸的特 殊空间排布,如果一个蛋白质仅包含一条多肤链,这个蛋白质就只有三级结构。 四级结构( q u a t e r n a r ys t r u c t u r e ) 由一条以上的多肤链构成,每一条单链形成特定 6 上海大学硕十学位论文 的三级结构,称为亚基,四级结构表示了多肤亚基的空间排布和它们之间相互 作用的性质。 折叠子反映了一个蛋白质核心结构的拓扑结构模式,是从蛋白质二级结构 单元出发进行的一种描述【2 3 1 。它包含了蛋白质分子空间结构组成的三个主要方 面,即二级结构单元,二级结构单元的相对排布,以及蛋白质多肤链的整个路 由关系( 即肤链走向) 【2 4 2 5 1 。 在蛋白质结构分类研究中,一般地讲,折叠子包含一个或多个蛋白质超家 族( s u p e r f a m i l y ) ,超家族中蛋白质的核心结构相同,一个蛋白质超家族又包含 一个或多个家族2 6 t2 7 1 。蛋白质折叠子( p r o t e i nf o l d s ) 在蛋白质多层次结构中所 处的位置如图1 2 所示。 图1 2 折叠子在蛋白质多层次结构中所处位置示意图 每一个折叠子的结构内核有确定的结构特征,具有相同折叠子的不同蛋白 具有相同的内核结构特征。具有相同折叠子的蛋白,在结构上的相似性可能与 蛋白肤链拓扑学,以及肤链空间排布与侧链堆积的物理化学因素有关。根据蛋 白肤链的拓扑相似性,可以定义一系列的折叠子。对蛋白质折叠子的研究将有 助于三级结构研究。 7 一卜海大学硕十学位论文 2 2 蛋白质三级结构预测 目前,关于蛋白质结构理论预测方法大致可分为二类,一类为经验自由能 势函数最小化方法【2 8 3 1 】;另一类为统计方法【3 2 1 ,也就是对现有己知空间结构的 蛋白质进行总结,发现序列和空间结构之间、结构与结构之间的关系,进而得 到某种法则或经验准则,即所谓的“基于知识的蛋白质结构预测”,主要有同源 建模,折叠子识别法,从头预测方法。 1 ) 同源建模法 也称比较建模法( c o m p a r a t i v em o d e l i n g ) ,是目前蛋白质三级结构预测比较 成功的一种方法。它的依据就是同源蛋白质的结构常常是相似的,因为它们可 能由同一种“祖先”蛋白质分化而来。如果知道了一个或几个同源蛋白质的三 级结构,把他们作为模板,就可以推算出序列已知而结构未知的目标蛋白质结 构。目前对于序列同源性大于6 0 的蛋白质序列,己经能够相当精确地预测出 它的结构模型【1 4 】,且已拥有许多优秀的预测软件,如: s w i s s - m o d e l ( w w w e x p a s y c h s w i s s m o d ) , c p h m o d e l s ( w w w c b s d t u d k s e r v i c e s c p h m o d e l s ) 等。 目前,同源建模方法要求序列同源性在3 0 以上。否则,其结果的可信度 难以保证。实际研究表明,也有一些蛋白质,它们具有较低的序列同源性,但 却具有相当高的结构同源性。例如硫一磷酸盐结合蛋白、铁传递蛋白和胆色素 原脱氢酶之间没有明显的序列同源性,但有相似的双叶阴离子结合结构。这说 明序列相似性与结构相似性之间具有复杂的非线性关系:序列很相似,结构会 相似;序列不相似,结构也可能会很相似。 2 ) 折叠子识别法 折叠子识别算法最初是基于这样的事实:有些蛋白质没有明显的序列相似 性,却有相似的折叠结构【2 4 , 3 3 】。它所要解决的问题为:给出一定数量的不同类 别折叠子,寻找一个决策函数将目标蛋白质序列进行分类。d u c h a k 研究小组根 据序列上氨基酸的物理化学和结构特性,构造出一系列特征参数向量来表示蛋 白质序列,然后应用神经网络和支持向量机分类方法对蛋白质折叠子进行分类 上海大学硕1 :学位论文 研究【1 , 1 3 , 1 5 】。 3 ) 从头预测法 无论是同源建模法还是折叠子识别法都需要将己知的蛋白质结构作为模 板,因此这两种方法都不能得到未知的新颖结构,而且在缺乏模板结构的情况 下很难应用。与之相比,从头预测方法不需要已知结构信息【1 4 】,可直接从蛋白 质序列预测其空间结构,因而是一种比较理想的方法。 有些研究小组运用距离几何方法得到了非常有希望的结果。将简化的力场 与动态优化策略相结合,虽然得到的结果不算太精确,但很有意义,表明这样 的工作非常有希望突破。目前从头预测方法主要在下列3 个方向开展研究: ( 1 ) 一种蛋白质几何的表示方法:由于表示和处理所有原子和溶剂环境的 计算开销非常大,因此需要对蛋白质和溶剂的表示形式作近似处理; ( 2 ) 一种能量函数及其参数,或者一个合理的构象得分函数,以便计算各 种构象的能量。通过对己知结构的蛋白质进行统计分析,可以确定蛋白质构象 能量函数中的各个参数或者得分函数; ( 3 ) 一种构象空间搜索技术:必须选择一个优化方法,以便对构象空间进 行快速搜索,迅速找到与某一全局最小能量相对应的构象。其中,构象空间搜 索和能量函数的建立是从头预测方法的关键。 2 3 蛋白质结构序列数据库 2 3 1p ir 和p s d t 5 2 】 p i r 国际蛋白质序列数据库( p s d ) 是由蛋白质信息资源( p i r ) 、慕尼黑 蛋白质序列信息中心( m i p s ) 和日本围际蛋白质序列数据库( j i p i d ) 共同维 护的国际上最大的公共蛋白质序列数据库。这是一个全面的、经过注释的、非 冗余的蛋白质序列数据库,包含超过1 4 2 0 0 0 条蛋白质序列( 至1 9 9 9 年9 月) , 其中包括来自几十个完整基因组的蛋白质序列。所有序列数据都经过整理,超 过9 9 的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。 p s d 的注释中还包括对许多序列、结构、基因组和文献数据库的交叉索引,以 9 i :海大学硕十学位论文 及数据库内部条目之间的索引,这些内部索引帮助用户在包括复合物、酶一底 物相互作用、活化和调控级联和具有共同特征的条目之间方便的检索。每季度 都发行一次完整的数据库,每周可以得到更新部分。 p s d 数据库有几个辅助数据库,如基于超家族的非冗余库等。p i r 提供三 类序列搜索服务:基于文本的交互式检索;标准的序列相似性搜索,包括 b l a s t 、f a s t a 等;结合序列相似性、注释信息和蛋白质家族信息的高级搜索, 包括按注释分类的相似性搜索、结构域搜索g e n e f i n d 等。 p i r 和p s d 的网址是:h t t p :p i r g e o r g e t o w n e a u 。 数据库下载地址是:邱:n b r f a g e o r g e t o w n e d u p i r 。 2 3 2s w is s p r o t t 5 3 】 s w i s s p r o t 是经过注释的蛋白质序列数据库,由欧洲牛物信息学研究所 ( e b i ) 维护。数据库由蛋白质序列条目构成,每个条目包含蛋白质序列、引用 文献信息、分类学信息、注释等,注释中包括蛋白质的功能、转录后修饰、特 殊位点和区域、二级结构、四级结构、与其它序列的相似性、序列残缺与疾病 的关系、序列变异体和冲突等信息。s w i s s p r o t 中尽可能减少了冗余序列, 并与其它3 0 多个数据建立了交叉引用,其中包括核酸序列库、蛋白质序列库和 蛋白质结构库等。 利用序列提取系统( s r s ) 可以方便地检索s w i s s p r o t 和其e b i 的数据 库。s w i s s p r o t 只接受直接测序获得的蛋白质序列,序列提交可以在其w 曲 页面上完成。 s w i s s p r o t 的网址是:h t t p :l l w w w e b i a c u k s w i s s p r o t 。 2 3 3p r o s i t e t 5 4 】 p r o s i t e 数据库收集了生物学有显著意义的蛋白质位点和序列模式,并能 根据这些位点和模式快速和可靠地鉴别一个未知功能的蛋白质序列应该属于哪 一个蛋白质家族。有的情况下,某个蛋白质与已知功能蛋白质的整体序列相似 1 0 i :海大学硕上学位论文 性很低,但由于功能的需要保留了与功能密切相关的序列模式,这样就可能通 过p r o s i t e 的搜索找到隐含的功能m o t i f ,因此是序列分析的有效工具。 p r o s i t e 中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结 合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等;除了序 列模式之外,p r o s i t e 还包括由多序列比对构建的p r o f i l e ,能更敏感地发现序 列与p r o f i l e 的相似性。p r o s i t e 的丰页上提供各种相关检索服务。 p r o s i t e 的网址是:h t t p :w w w e x p a s y c h p r o s i t e 。 2 3 4p d b l 5 5 蛋白质结构数据仓库( p d b ) 是国际上唯一的生物大分子结构数据档案库, 由美国b r o o k h a v e n 国家实验室建立。p d b 收集的数据来源于x 光晶体衍射和 核磁共振( n m r ) 的数据,经过整理和确认后存档而成。目前p d b 数据库的维护 由结构牛物信息学研究合作组织( r c s b ) 负责。r c s b 的丰服务器和世界各地 的镜像服务器提供数据库的检索和下载服务,以及关于p d b 数据文件格式和其 它文档的说明,p d b 数据还可以从发行的光盘获得。使用r a s m o l 等软件可以 在计算机上按p d b 文件显示生物大分子的三维结构。 r c s b 的p d b 数据库网址是:h t t p :w w w r c s b o r g p d b 。 2 3 5s c o p 3 8 】 蛋白质结构分类( s c o p ) 数据库详细描述了已知的蛋白质结构之间的关系。 分类基于若干层次:家族,描述相近的进化关系;超家族,描述远源的进化关 系;折叠子( f o l d ) ,描述空间几何结构的关系;折叠类,所有折叠子被归于全 q 、全b 、q 1 3 、q + b 和多结构域等几个大类。s c o p 还提供一个非冗余的 a s t r a i l 序列库,这个库通常被用来评估各种序列比对算法。此外,s c o p 还 提供一个p d b i s l 中介序列库,通过与这个库中序列的两两比对,可以找到与 未知结构序列远缘的已知结构序列。 s c o p 的网址是:h t t p :s c o p r o t e l m b c a m a c u k s c o p 。 上海大学硕士学位论文 2 3 6h s s p l 5 6 】 与d s s p 5 7 】和f s s p 相关的另一个蛋白质结构数据库是同源蛋白数据库 ( h o m o l o g yd e r i v e ds e c o n d a r ys t r u c t u r eo f p r o t e i n s ,简称h s s p ) 。该数据库不但 包括已知三维结构的同源蛋白家族,而且包括未知结构的蛋白质分子,并将它 们按同源家族分类。 2 4 实验数据集的建立 实验数据集的合理构建,对于发展新的算法和客观评价研究结果是非常重 要的,本文的训练集和测试集来自于文献【1 】,数据集中含有常见的2 7 类折叠 子,训练集基于p d b 数据库建立,共有3 1 3 个样本,在超过8 0 个残基的序列 片段上,任意二条序列的一致性小于3 5 。测试集基于p d b 数据库5 5 1 而建立, 共有3 8 5 个样本,任意二条序列的一致性小于4 0 。由于文献使用的训练集 和测试集来自于d u b c h a k 1 5 1 早期的数据库( 此数据库中,蛋白质折叠子被分为 1 2 8 类,文献【1 】仅选择了折叠子数目较多的2 7 类) ,而目前p d b 数据库更新 又较快,因而某些蛋白质代码有变动,根据文献【1 】提供的蛋白折叠子代码, 在目前的p d b 数据库中,无法找到某些蛋白质折叠子序列。故我们对文献【1 】 上的数据库做了些变动,根据d i n g 所提供的折叠子代码,替换了目前无法从 p d b 数据库中找到的那些样本。蛋白质的折叠子类别及训练集、测试集样本数 见表2 2 。 表2 - 2 实验数据集的蛋白质折叠类别及数鼍 g l o b i n - l i k e c y t o c h r o m ec d n a b i n d i n g3 - h e li c a l b u n d l e 4 - h e lic a lu p a n d d o w n b u n d l e 4 h e lic a lc y t o kin e s a l p h a :e f - h a n d im m u n o g l o b u lin lik e b e l t a s a n d w i c h c u p r e d o xi n s 1 2 、j1 6 9 加 8 9 9 必 抡 埒7 圪 7 9 7 9 3 4 7 9 加 捣 l :海大学硕,1 :学位论文 注:表中i n d e x 列第卜1 1 类为a l p h a ,第2 0 3 9 类为b e l t a ,第4 6 6 9 类为a l p h a b e l t a ,第7 2 - 110 类为a l p h a + b e l t a 表2 2 中f o l d 列表示蛋白质折叠子名称,i n d e x 栏的内容表示折叠子分类, n t r a i n 栏里的数字是训练集的蛋白质数目,n t e s t 栏内容是测试集中各类折叠子 的数目。 2 5 本章小结 蛋白质生物学上的功能很大程度上取决于蛋白质的空间结构,随着全基因 组测序工作的不断深入,越来越多的未知结构的蛋白质氨基酸序列呈现在我们 面前。如何通过氨基酸序列来预测蛋白质的空间机构,成为近几年生物信息学 1 3 i :海大学硕f - 学位论文 重要研究领域。 本章阐述了蛋白质结构预测的方法原理。首先,研究了氨基酸编码组成和 蛋白质层次结构方面的内容;阐述了蛋白质三级结构预测的方法和研究现状; 讨论了几个主要的生物信息数据库和若干个在蛋白质结构预测领域中占有重要 地位的蛋白质数据库。最后,给出了在本文实验中使用的实验数据集,为后面 的实验分析打下良好的基础。 1 4 卜海大学硕一i :学位论文 第三章矩描述子特征向量 本章主要研究了如何更好的选取特征向量来表达一个蛋白质氨基酸序列。 选取适当的特征向量,是折叠子识别问题中的一个重要环节,确定了表达氨基 酸序列的特征向量集后,折叠子识别问题就转化为了一个多分类问题。目前, 基于支持向量机的折叠子预测问题多采用的是d u b c h a k t l 3 , 1 5 1 提出的1 2 5 维特征 向量集。本章在研究了d u b c h a k 特征向量表示法的基础上,提出了一种矩描述 子特征向量表示法,能够更好的描述蛋白质序列的组成、顺序以及氨基酸残基 之间的耦合信息。 3 1d u b c h a k 特征向量表示法 d u b c h a k 等人提出的1 2 5 维特征向量集包含了蛋白质序列的氨基酸组成成 分( a m i n oa c i dc o m p o s i t i o n ) 、极性( p o l a r i t y ) 、极化。i 生( p o l a r i z a b i l i t y ) 、范德瓦尔斯 量( n o r m a l i z e dv a nd e rw a a l sv o l u m e ) 、疏水。l 生( h y d r o ph o b i c i t y ) 和预测的二级结构 ( p r e d
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 输尿管双J管并发症的处理与护理
- 麻醉护理团队协作图
- 骨科护理在儿科护理中的应用
- 金融工具考研试题及答案
- 阳极泥冶炼工岗位操作考核试卷含答案
- 搪瓷窑炉司炉工岗位安全知识考核试卷含答案
- 模型开发师诚信道德测试考核试卷含答案
- 纺织印花制版工岗前规章考核试卷含答案
- 玻璃制品热加工工操作知识考核试卷含答案
- 印花电脑分色工操作安全考核试卷含答案
- 2026广东东莞市公安局茶山分局警务辅助人员招聘18人(第2批)笔试备考题库及答案解析
- 2026天津市政投资有限公司社会招聘2人考试参考题库及答案解析
- 医师处方权授予通知单
- AI驱动的Figma产品原型设计:从效率提升到协作革新
- 立卧复合加工中心-团体标准(征求意见稿)编制说明
- 中央纪委国家监委驻中国国家铁路集团有限公司招聘笔试题库2026
- NB-T31111-2017风电机组高电压穿越测试规程
- 公园设施维修投标方案
- 2023年重庆市永川区社区工作者招聘考试真题
- 23秋国家开放大学《液压气动技术》形考任务1-3参考答案
- 2023年湖北天门市事业单位招考聘用157人笔试题库含答案解析
评论
0/150
提交评论