




已阅读5页,还剩66页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
p r o t e i nt e r t i a r ys t r u c t u r ep r e d i c t i o nb a s e do n f l e x i b l en e u r a lt r e ea n di t si n t e g r a t i o n h u a n g x i u u n d e rt h es u p e r v i s i o no f p r o f c h e ny u e h u i a t h e s i ss u b m i t t e dt ot h eu n i v e r s i t yo fj i n a n i np a r t i a lf u l f i l l m e n to ft h er e q u i r e m e n t s f o rt h ed e g r e eo fm a s t e ro fe n g i n e e r i n g u n i v e r s i t yo fj i n a n j i n a n ,s h a n d o n g ,p r c h i n a j u n e ,2 0 1 1 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下, 独寺进行研究所取得的成果。除文中已经注明引用的内容外,本 论文不包含任何其他个人或集体己经发表或撰写过的科研成果。 对本文的研究作出重要贡献的个人和集体,均已在文中以明确方 式标明。本人完全意识剑本声明的法律责任由本人承担。 论文作者签名:多:垄 日 期: 关于学位论文使用授权的声明 本人完全厂解济南人学有关保留、使用学位论文的规定,同 意学校保留或向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借鉴;本人授权济南大学町以将学位论文 的全部或部分内容编入有关数据库进行检索,町以采用影印、缩 印或其他复制手段保存论文和汇编本学位论文。 口公开口保密(年,解密后应遵守此规定) 论文作者签名:互趁 导师签名: 燃日期:飞生l q 济南上学硕j :学位论文 目录 摘要v a b s t r a c t 1 ,ii 第一章绪论1 1 1 相关知识背景1 1 2 蛋白质结构的霞要性2 1 3 论文内容安排2 第二章蛋白质i 级结构预测 3 2 1 蛋白质相关知识及其三级结构概述3 2 1 1 蛋白质相关知识3 2 1 2 蛋白质三级结构概述5 2 2 蛋白质i 级结构预测方法6 2 2 1 比较建模法6 2 2 2 从头预测方法7 2 2 3 折叠模式识别7 2 3 应用于牛物信息学领域的机器学习方法8 2 3 1 神经网络9 2 3 2 贝叶斯网络1 l 2 3 3 隐马尔可夫模型1 2 2 3 4 支持向量机1 3 第二三章柔性神经树及其理论基础1 5 3 1 概述1 5 3 2 编码规则1 5 3 3 适应值函数1 6 3 4 参数优化1 7 3 4 1 多表达式编程1 7 3 4 2 粒子群优化算法2 0 3 4 3 多表达式编程算法和粒子群优化算法的优点2 2 3 5 柔性神经树算法流程2 3 第四章集成学习2 5 4 1 集成学习的概念2 5 基f 军性神经树及兑集如竞的蛋e l 质。级结构预测 ; 4 2 基本分类器的构造2 6 4 2 1 处理训练数据集2 6 4 2 2 对输入特征进行处理2 7 4 2 3 通过处理类标号2 8 4 2 4 通过处理学习算法0 2 9 4 3 分类器集成方法1 2 9 4 4 集成方法的性能2 9 第在章预测模型设计与结果分析3 1 5 1 引言3 1 5 2 数据集3 l 5 2 1c 2 0 4 数据集3 2 5 2 22 5 p d b 数据集3 2 5 2 36 4 0 数据集3 2 5 2 411 8 9 数据集3 2 5 3 编码规则与分类方法3 2 5 3 1 考虑顺序的编码方法3 2 5 3 2 不考虑顺序的编码方法3 3 5 3 3 多分类问题3 8 5 4 柔性神经树预测蛋白质j 级结构3 9 5 4 1 实验设计3 9 5 4 2 结果分析4 l 5 5 集成柔性神经树预测蛋白质三级结构4 4 5 5 1 集成柔性神经树设计4 4 5 5 2 结果分析4 6 第六章总结与展望4 9 6 1 全文总结4 9 6 2 展望5 0 参考文献5 1 致谢5 5 附录5 7 一、在校期间发表的学术论文5 7 n 济南大学硕卜学位论文 二、在校期间获奖情况5 7 m 基f 柔性神经料及箕集成的蛋 j 质i 级结构预测 i v 济南大学硕士学p 论文 摘要 随着结构基因组的出现,通过结构进行生物功能预测已经发展成为结构生物 学和生物信息学的主要目的之一。蛋白质的功能大体由它的三级结构决定的。研 究蛋白质的结构有非常重要的意义,可以有助于了解蛋白质的作用,了解蛋白质 如何行使其生物功能,了解蛋白质与蛋白质之间的相瓦作用,而且对生物学、医 学和药学都有非常重要的作用。因此了解蛋白质的三级结构是了解其功能的前 提。 本文系统的介绍厂蛋白质二三级结构、蛋白质表示方法、柔性神经树以及集成 学习的基本理论,在总结前人研究的摹础1 - _ ,提出了使用柔性神经树及其集成预 测蛋白质三级结构,其中采用多表达式编程算法对柔性神经树树结构进行优 化,模型中各个参数采用粒子群优化算法进行优化。集成学习采用了纠错 输出编码,并且详细的对纠错输出编码的基本原理和结果决策方法进行了 阐述,将多分类问题巧妙的转化成两分类问题,从而达到较好的预测结果。 本文使用柔性神经树预测蛋白质二级结构卡要分为三个阶段:蛋白质特征提 取、建立预测模璎和集成学习。 ( 1 ) 蛋白质特征提取。为了方便计算机更好的处理数据,首先要对蛋白质进 行特征提取,即将蛋白质的氨基酸残基序列转化为输入空问向量的过程,也称为 编码过程。特征的选取对f 预测结果非常重要,目前常用的表示蛋白质特征的方 法有主要有氨基酸组成模型( a a ) 、多肽组成模型、伪氨基酸组成( p s e a a ) 、疏 水模式等。本文重点运用伪氨基酸组成作为输入特征,并结合其它特征进行特征 融合。实验表明使用伪氨基酸组成和其他特征的融合取得了较好的预测精度。 ( 2 ) 建立预测模型。柔性神经树克服了其它非线性模型存在的速度慢、网络 结构不易调整等缺陷,具有以下优点:不需要事先设计网络的输入、输出和网络 结构,柔性神经树模型可以自动的设计和优化网络结构和参数;各层之间的连接 不必是完全的,允许跨层之间的连接;柔性神经树的进化结果通常要比一般神经 网络结构简单、泛化推广效果好;本文选用柔性神经树作为预测模璎,其中采用 多表达式编程算法对紊睦神经树结构进行优化,模型中各个参数采用粒子群优化 算法进行优化。 v 居f 秉性伸绎料及其集成的蛋e l 质一i 级结构预测 ( 3 ) 为了进一步提高分类器的性能,最后将分类器进行集成学习。通过使用 数据集c 2 0 4 和6 4 0 进行结果验证表明集成学习对最后的预测精度有很大的提 高。 关键词:蛋白质三级结构;特征提取;伪氨基酸组成;柔性神经树; 集成学习 v l 、 济南上学够 学g 沦文 ab s t r a c t w i t ht h ee m e r g e n c eo fs t r u c t u r a lg e n o m i c s ,t h r o u g hs t r u c t u r et op r e d i c tt h e b i o l o g i c a l f u n c t i o nb e c o m eo n eo ft h em a i np u r p o s e so fs t r u c t u r a l b i o l o g ya n d b i o i n f o r m a t i c s p r o t e i nf u n c t i o nd e t e r m i n e dl a r g e l yb yi t st e r t i a r ys t r u c t u r e s t u d yt h e s t r u c t u r eo ft h ep r o t e i ni ss i g n i f i c a n t ,c a nh e l pt ou n d e r s t a n dt h er o l eo f p r o t e i n sa n d u n d e r s t a n dh o wt oe x e r c i s et h e i rb i o l o g i c a lf u n c t i o n sp r o t e i n s ,a n du n d e r s t a n d p r o t e i n p r o t e i ni n t e r a c t i o n s ,b u ta l s of o rb i o l o g y , m e d i c i n ea n dp h a r m a c ya r ev e r y i m p o r t a n t t h e r e f o r e ,u n d e r s t a n d i n gt h et e r t i a r ys t r u c t u r eo fp r o t e i n si sap r e r e q u i s i t e f o ru n d e r s t a n d i n gi t sf u n c t i o n t h i sp a p e ri n t r o d u c e dt h ep r o t e i nt e r t i a r ys t r u c t u r e ,p r o t e i n r e p r e s e n t a t i o n , f l e x i b l en e u r a lt r e ea n dt h eb a s i ct h e o r yo fi n t e g r a t e dl e a r n i n g b a s e do np r e v i o u s r e s e a r c h ,t h i sp a p e ru s e dt h ef l e x i b l en e u r a lt r e ea n di t si n t e g r a t i o nt op r e d i c tp r o t e i n t e r t i a r ys t r u c t u r e w eu s e dm u l t i e x p r e s s i o np r o g r a m m i n ga l g o r i t h mt oo p t i m i z et h e f l e x i b l en e u r a lt r e es t r u c t u r e ,a n du s e dp a r t i c l es w a r mo p t i m i z a t i o na l g o r i t h mt o o p t i m i z et h ep a r a m e t e r so ft h em o d e l 。 e n s e m b l el e a r n i n gu s e de r r o rc o r r e c t i n go u t p u tc o d e s a l s od e t a i l so nt h eb a s i c p r i n c i p l e s o fe r r o rc o r r e c t i n go u t p u tc o d e sa n dr e s u l t sd e c i s i o n - m a k i n gm e t h o d s c l e v e rc o n v e r sm u l t ic l a s s i f i c a t i o np r o b l e m si n t ot w oc a t e g o r i e s ,s oa st oa c h i e v e b e t t e rp r e d i c t i o nr e s u l t s i nt h i sp a p e r ,u s i n gt h ef l e x i b l en e u r a lt r e et op r e d i c tt h ep r o t e i nt e r t i a r ys t r u c t u r e i sd i v i d e di n t ot h r e es t a g e s :e x t r a c tp r o t e i nf e a t u r e s ,b u i l dt h ep r e d i c t i o nm o d e la n d i n t e g r a t e dl e a m i n g ( i ) p r o t e i nf e a t u r e se x t r a c t i o n i no r d e rt of a c i l i t a t eb e t t e rh a n d l i n gd a t af o r c o m p u t e r ,w em u s tf i r s t e x t r a c tt h ef e a t u r e so fp r o t e i n ,t h a ti st h e p r o c e s so f c o n v e r s i n gp r o t e i na m i n oa c i ds e q u e n c ei n t ot h ei n p u tv e c t o rs p a c e ,a l s ok n o w na st h e e n c o d i n gp r o c e s s f e a t u r e ss e l e c t i o ni sv e r yi m p o r t a n tf o rt h ep r e d i c t i o n , t h a tt h e c o m m o n l yu s e dm e t h o do fp r o t e i nc h a r a c t e r i s t i c sh a v ea m i n oa c i d s ( a a ) ,p e p t i d e s c o m p o s e dm o d e l ,p s e u d o a m i n oa c i dc o m p o s i t i o n ( p s e a a ) ,h y d r o p h o b i cm o d e ,e t c t h ep a p e rf o c u s e so nu s i n gp s e a aa si n p u tf e a t u r e s ,a n dc o m b i n ew i t ho t h e rf e a t u r e s e x p e r i m e n t ss h o wt h a tu s i n gp s e u d oa m i n oa c i dc o m p o s i t i o na n do t h e rc h a r a c t e r i s t i c s o ft h ei n t e g r a t i o na c h i e v e dg o o dp r e d i c t i o na c c u r a c y v i i 罄 二震件砷绎辩段奠集成的蛋n 赝:级结构预测 ( 2 ) b u i l dt h ep r e d i c t i o nm o d e l f l e x i b l en e u r a l t r e em o d e lo v e r c o m e dt h e d r a w b a c ko fo t h e rn o n l i n e a rm o d e lt h a ts l o w , d i f f i c u l tt oa d j u s tt h en e t w o r ks t r u c t u r e , w i t ht h ef o l l o w i n ga d v a n t a g e s :n o tp r e - d e s i g n e dt h ei n p u t ,t h eo u t p u t ,a n dt h e s t r u c t u r eo fn e t w o r k , f l e x i b l en e u r a lt r e em o d e lc a na u t o m a t i c a l l yd e s i g na n do p t i m i z e t h en e t w o r ks t r u c t u r ea n dp a r a m e t e r s ;t h ec o n n e c t i o nb e t w e e nt h el a y e r sn e e dn o tb e c o m p l e t l y , a l l o w i n gt h ec o n n e c t i o nb e t w e e nt h ec r o s s - l a y e r ;e v o l u t i o n a r yr e s u l t so f t h ef l e x i b l en e u r a lt r e ei su s u a l l ys t r u c t u r es i m p l ea n dg e n e r a l i z a t i o ne f f e c tt h a n g e n e r a ln e u r a ln e t w o r k t h i sp a p e ru s e dt h ef l e x i b l en e u r a lt r e ea sp r e d i c t i o nm o d e l , i nw h i c hm u l t i e x p r e s s i o np r o g r a m m i n ga l g o r i t h mt oo p t i m i z et h ef l e x i b l en e u r a lt r e e s t r u c t u r e ,t h ep a r t i c l es w a r mo p t i m i z a t i o na l g o r i t h mt oo p t i m i z et h ep a r a m e t e r so ft h e m o d e l ( 3 ) i no r d e rt of u r t h e ri m p r o v et h ec l a s s i f i c a t i o np e r f o r m a n c e ,f i n a l l yw el e tt h e c l a s s i f i e rt oi n t e g r a t e b yu s i n gt h ed a t a b a s eo fc 2 0 4a n d6 4 0t ot e s t , t h er e s u l t ss h o w t h a ti n t e g r a t el e a r n i n gh a sg r e a t l yi m p r o v e dt h ef i n a lp r e d i c t i o na c c u r a c y k e yw o r d s :p r o t e i nt e r t i a r ys t r u c t u r e ;f e a t u r ee x t r a c t i o n ;p s e u d o a m i n oa c i d c o m p o s i t i o n ;f l e x i b l en e u r a lt r e e ;i n t e g r a t e dl e a r n i n g v i i i 1 1 相关知识背景 第一章绪论 人类基因组草图于2 0 0 0 年中期完成【l l ,但是还有一些基因的功能和作用并 没有阐明,因此生物信息学的研究迎来了后基因组时代,同时越来越多的研究学 者开始转向蛋白质组学的研究。因为蛋白质决定了生命体的多样性、复杂性以及 功能,蛋白质组图谱的绘制,将揭示人类基因组中绝大部分基因的功能。并且蛋 白质组学的研究对其他领域的发展也有重大的意义,例如在揭示生命活动的规律 和本质、研究重大疾病的发生、发展机制都有意义。由此蛋白质与生物遗传性状 的关系、蛋白质与鼋大疾病的关系以及蛋白质药物的斤发已成为乍物学、医学和 药学领域的研究热点。 对有机体的整个乍命过程起作用的一。切蛋白质的总称称为蛋白质组。它是生 物体的霞要组成部分,足,t 命活动的执行体,也是研究生命科学与医药产业及生 物经济的纽带和桥梁,是极其霞要而义有限的生物战略资源。 蛋e j 质组的研究小仪町以实现弓基冈组的对接和确认,进而揭示,e 命活动的 规律和本质特点以及人类霞大疾病的发生与发展的病理机制,而且也i f 泛的推 动, 命科学基础学科以及自然科学最活跃的学科领域。 理论表明,对蛋白质组学的研究比对基因组学的研究更加困难,冈为基冈的 功能由碱基序列完全确定,但是蛋白质的功能则是由氨基酸序列确定的、不同空 间结构来实现的。结构完全不同的蛋白质町能具有类似的氨基酸序列,同时结构 k h l r i j 的蛋白质其氨基酸序列差别可能很大【2 1 。在结构水平上,c h o t h i a 预测蚩自质 三级结构的数量是有限的,虽然p d b 数据库中的蛋白质结构呈指数增长,但足 发现新结构类型的速率却在f 降i3 1 ,由此得出蛋白质的结构种类大大小丁二蛋白质 的数量。这也是人们通过计算机从蛋白质一级序列预测蛋白质高级结构的依据。 在2 l 世纪生命科学已经从基因组的研究进入功能基因组或结构基因组的研 究,即要在蛋白质结构的基础上研究基因编码的各种蛋白质的功能,进而从传统 的对单一蛋白质的研究发展到对细胞内蛋白质群体的研究,使得能够更加深入地 揭示生命活动的奥妙。 甚卜震忭 由绛树及其集成的蛋( 1 质级结构预冽 1 2 蛋白质结构的重要性 绝人多数细胞的核心功能和结构都是通过蛋白质介导调控的,从而构成了生 命活动的基础。蛋白质的一项非常+ 重要的并且几乎是独具的功能是对细胞内、外 的化学转化反应起酶促催化作用,而人体内的激素也是蛋白质。 生物学真j f 的中心法则足顺序决定结构,结构决定功能。现在科学家对于蛋 白质功能的思考和讨论都足围绕着对蛋白质结构的研究展开的。各式各样的蛋白 质的结构决定了特异性化学基团在_ 一维窄间上的特异性排列与分布。j f 由于这种 特异性排列与分布使得蛋白质可以作为催化剂参与到各种各样的化学反应中。 我们知道蛋白质的功能足以它们对与之相巨作用的分子的高度特异性为基 础的,这种关系类似于钥匙与锁的关系。这种关系要求蛋白质具有相:刍刚性的空 问结构。这也是蛋白质的功能j 其i 级结构的刚性密切相关的原因。这些结构即 使有一点损伤也会使蛋白质的活性丧失或发,e 变化,更不用说结构被破坏了。 要想了解蛋e l 质如何行使其功能就必须先了解蛋白质三级结构的有关知 识。通过实验的方法或者理论的方法分析蛋白质的三级结构,分析结构域,从而 获得厂设计新的蛋白质、改造已有蚩白质的依据,叮以加速药物的发现过程,而 改善人类的卫卢健康,对于生物学的研究是非常重要的【4 1 。 1 3 论文内容安排 第搴绪论,介绍了论文的相关背景知识以及蛋白质结构的蘑要性。 第_ 章蛋白质二三级结构预测,董要介绍蛋白质相关知识及其二三级结构概述、 以及蛋白质一t 级结构预测常用方法,包括同源建模法、穿针引线方法、折叠识别 方法和从头预测方法。 第三葶重点介绍柔性神经树及其理论基础。介绍厂柔性神经树的基本原理, 编码规则、结构和参数优化方法等。 第四章阐述了集成学习的基本理论。包括集成学习的概念,以及几种基本分 类器的构造方法。 第五章模犁设计与结果分析,重点介绍了预测模型的设计方法,并对结果进 行分析。 第八章结束语,总结全文、同时对朱来的研究和发展做出展望。 2 济南上7 硕l 学促论文 第二章蛋白质三级结构预测 2 1 蛋白质相关知识及其三级结构概述 2 1 1 蛋白质相关知识 要进行蛋f l l 质的t 级结构预测首先要了解蛋白质的基本知识。蛋f j 质足由一 条或多条多肽组成的大分子,每条多肽链都是一个线性的氨基酸链。蛋白质序列 的肇本单位是氨基酸,氨基酸是一类小分子,包括一个氨基基团( n h 2 ) ,一个 羧基基团( c o o h ) 和一个连接在中心a l p h a ( 口) 碳上的氢原子,此外氨基酸 还有一个连接在a l p h a ( 口) 碳e 的侧链( 也称r 基团) ,正是这个摹团使氨基酸 之间存在l x = 别。同时,侧链的不同使氨基酸具有不同的化学性质。图2 1 表示氨 基酸分子结构。 h 2 n ? h - c o o h f i g 2 1t h em o l e c u l a r s t r u c t u r eo fa m i n oa c i d s 在天然状态卜构成蛋白质的标准氨基酸共有2 0 种,表2 1 列出r2 0 种基本 氨基酸。 3 幕f 震。n 砷绎杠 眨托第f 1 甓的蛋 i 所:绑结构预颡q 表2 12 0 种基本氨堆酸的英文简写 里堡垒! 竺! :! 兰翌墨! i ! 皇璺皇望堡! 垒! ! 竺翌旦! 三竺堡垒璺i 曼! 婴i 翌旦皇里! 璺! 氨基酸名称英文缩t ;简写氨摹睃名称英文缩写简写 甘氨酸g l y g 幺幺氦酸 s e rs 丙氨酸 a l a a苏氨酸t h r t 缬氨酸 v a l v 天冬酰胺 a s nn 异亮氦酸 h ei 谷酰胺 g i n q 亮氨酸l e u l酪氨酸t y r y 苯丙氧酸p h e f绢氨酸h i s h 脯氨酸p r o p 天冬氨酸a s p d 甲硫氨酸 m e tm 谷氨酸 g l u e 色氨酸t r l 0 w 赖氨酸l y s k 半胱氨酸 c y s c 精氮酸a r g r 经过多年的研究现在已经揭示了一些蛋白质结构的自然规则以及蛋白质的 结构足如何影响其功能的。科学家们将这唑规则总结和归纳成四个层面来描述蛋 白质,分别为蛋白质级结构、二级结构、三级结构和四级结构,如图2 3 。这 种结构的划分小在于能够准确的描述影响蛋ej 质结构形成的物理法则,而更多的 被认为足一种提炼,能够使研究人员对于蛋白质结构的研究更加简便易懂【5 l 。 一级结构( p r i m a r ys t r u c t u r e ) 指一个多肽的氨基酸序列。主要的化学键是肽 键和:硫键。一级结构足蛋白质宅问结构和卢- 物学功能的基础,窄i 、日j 构象遭破坏 的多肽链只要其肽键未断,一级结构未被破坏,就能恢复到原来的一二级结构,功 能依然存在。 蛋e 1 质二级结构( s e c o n ds t r u c t u r e ) 是由分子内的氧键产生的有舰则的、重 复的局部空间结构。二:级结构的t 要包括:口螺旋结构、折叠和无规则卷曲。 当两个相距阴个残基的肽单元之间形成氧键时就会出现口螺旋结构,口螺旋通常 足右手螺旋。口螺旋结构中的肽键排成了一行,让整个结构有一个明显的偶极矩 ( d i p o l e m o m e n t ) ,但是键角足锐角的。口螺旋的大小变化是4 4 0 个残基,对应 于l 1 2 圈螺旋。相反,折叠结构是在多肽链的键角完令扩展的域形成,几 个折叠股可以排列成平行、反、f 行或者混合型的阵列。在一些结构中口螺旋和 折叠结合在一起,它们是通过一些连接区域结合的,这些连接区域利用的是其 本身的:级结构,将这种:二级结构称为转角( t u r n ) 结构。常见的几种二二级结构 中,螺旋是最具刚性、最致密、最稳定的构象,也是构成蛋白质高级结构的基本 4 济南尺学硕仁学位论文 要素。如图 2 2 是口螺旋和夕折叠的空间结构。 辆唧 g r u e t a _ r t 叠 图2 2 口螺旋和折叠的宅间结构 f i g 。2 2t h es p a t i a ls t r u c t u r eo fas p i r a la n d8f o l d i n g 凌晌 删懿 蜘 幽谢鞋结 舳搬穗孵 g r u e t m 蠡煳6 l i d 强抽面虹 图2 3 蛋白质的一级结构、二级结构、三级结构和四级结构 f i g 2 3p r o t e i np r i m a r ys t r u c t u r e ,s e c o n d a r ys t r u c t u r e ,t e r t i a r ys t r u c t u r ea n dq u a t e r n a r y s t r u c t u r e 2 1 2 蛋白质三级结构概述 蛋白质的三级结构( t e r t i a r ys t r u c t u r e ) 是- - 种紧密的折叠形态,由不同的二级 5 基f 柔性神绎两及更集成的蛋臼质级结构预测 结构元件紧密包围而成,并由许多弱相互作用所稳定。蛋白质三级结构主要指的 是主链和侧链在分子空间中的走向。蛋白质中,侧链基团的定位是由它们的极性 安排的。蛋白质特定的空间构象由氢键、离子键、偶极与偶极问的相互作用、范 德华力以及疏水作用等作用力维持,其中疏水作用是主要的作用力。 随着越来越多的蛋白质结构被解析,需要发展一种针对蛋白质二级结构的分 类方法。c y r u sc h o t h i a 和m i c h a e ll e v i t t 建锣了一种分类方法,基本原理是根据 蛋白质内部二级结构元件的分布情况对蛋白质进行分类【6 1 。根据这种方法蛋f 质 三级结构分为四个大类:全口蛋白、全蛋白、a p 蛋白和口+ 蛋白。全口蛋 白,几乎全部由口螺旋结构组成;全夕蛋白几乎全部是折叠;酬结构是口螺 旋和折叠的混合,经常是平行的卢片层结构通过口螺旋连接和组织在一起; 口+ 蛋白结构是由离散不连续的口螺旋和折叠组成,两种一:级结构单元并不 交替出现。 2 2 蛋白质三级结构预测方法 蛋白质三级结构预测是蛋白质结构与功能研究:【作的重要组成部分川。从前 面论述我们知道蛋白质的功能大体由它的三级结构决定的。因此了解蛋白质的三 级结构是了解其功能的前提。虽然通过实验解析蛋白质结构的速度越来越快,但 是自然界生物种类繁多,每种生物的蛋白质组又不完全相同,所以通过实验的方 法解析所有蛋白质的结构不可能的。当越来越多的蛋白质三级结构被解析后,人 们就可以从中找到蛋白质由一级结构折叠成高级结构的规律。通过几十年的努 力,人们预测蛋白质三级结构的技术取得了巨大的进步。蛋白质三级结构预测方 法大体分为三种:( 1 ) 比较建模法;( 2 ) 从头预测;( 3 ) 穿针引线方法或折叠识 别。 2 2 1 比较建模法 比较建模( c o m p a r a t i v em o d e l i n g ) 也称为同源建模( h o m o l o g ym o d e l i n g ) , 基本原理是对于一个未知的蛋白质,如果我们已经知道某个蛋白质的结构和这个 未知蛋白质的结构密切相关,并且已知结构的蛋白质可以作为未知蛋白质的结构 预测的模板,那么由比较建模方法就可以比较精确地预测出未知蛋白质的三级结 构。如果两个序列有8 0 个或更多的残基相似性大于3 0 ,则预测通常会很成功。 6 矿喜誊萨。# 一 济南大学硕七学位论文 比较建模方法中重要的一步是寻找合适的模板,实现方法是通过搜索同源蛋 白质序列和识别已经解析结构的蛋白质。然而很多情况下不一定能够找到合适的 已知蛋白。因此模板结构的缺乏也就成了比较建模的局限性。如果找到了合适的 模板,就可以利用一定的算法把模板蛋白质的序列和未知蛋白的序列进行联配。 精确的联配对于最终结构模型的准确度是非常关键的。因此,模板蛋白和未知蛋 白的关系程度越密切,那么得到的结构模型质量就越好。 2 2 2 从头预测方法 由上一节我们知道比较建模法的局限性是只能预测有合适模板的蛋白质结 构,从头预测方法( a b i n i t i o ) 没有这个缺陷,它不用任何的结构信息,直接从 第一原理来预测蛋白质的三级结构。基本原理是首先定义一个肽链和周围溶剂的 数学表面特征,再定义一个准确表示蛋白质物理化学性质的能量函数,然后用一 个算法来搜索具有最低自由能的肽链的构象。 从头计算方法也存在问题,现实中很短的多肽链也能折叠出一个无穷大数字 的结构数目。我们把足够多的溶剂分子组合到模型中时,这个系统会变得十分复 杂,此时如果不加入已知蛋白质结构的某些行为知识,就不能继续研究这个系统。 冈此如果一个蛋白质序列超过2 0 0 个氨基酸残基,那么它的结构预测采用从头计 算方法是不可行的;对于短一些的多肽,研究成果还是比较町观的,尤其最近的 研究结果。大约有三分之一的长度小于1 5 0 个残基的所有多肽中,部用从头计算 方法分析过,有些结构模型与真实的结构相当接近。然而,由于每一个模型的分 辨率都比较差,从头计算方法预测的实际应用还是有限的。 2 2 3 折叠模式识别 理论上讲,一个多肽链可能有很多的不同构象,但是我们的判断力推测,绝 大部分的构象都是能量不利的,有可能在自然界中根本不存在。无论蛋白质折叠 的途径是围绕着一个成核位置的浓缩,还是经过一些含有二级结构的中间态,都 会限制可能构象的总体数目。现在我们知道,蛋白质折叠类型在结构世界中的总 数目大概有几千个。 已知的这些理论启发我们,如果真育几千个能鼍稳定的折叠模式存在的话, 那么为了寻找一个多肽链折叠的能量而从头到尾搜索整个构象空间可能是浪费 7 堆f 柔性种经树及兵集成的蛋白质:级结构预测 的。有许多看起来可能具有与p d b 同源的结构的假想蛋白,但是缺乏序列的同 源或者经验结构信息,那么这种关系就无法被识别。为了解决这种问题,提出了 折叠模式识别( f o l dr e c o g n i t i o n 或t h r e a d i n g ) 方法,该方法通过探测寻找与给定 的问询序列相匹配的折叠模式,而这些折叠模式可以用于在序列水平没有同源性 结构的预测。 折叠模式识别方法不是用序列来预测折叠模式,而是折叠模式要与序列相一 致,即识别出一个与给定的问询序列相匹配的折叠模式。折叠模式识别方法主要 包括以下几个过程:首先搜索已知的被称为折叠库的蛋白质结构库;然后为折叠 模式打分并识别适合序列的折叠模式;最后将问询序列与打分最高的蛋白质进行 序列匹配。匹配一致则剩下的过程与比较建模的过程相同。折叠模式识别方法通 常是基于两方面:序列相似性搜索和结构信息。例如,三维位置特异打分矩阵 ( 3 d p s s m ) 方法通过p s i b l a s t 算法发现与问询序列关系较远的序列,同时 用一些结构的信息来完善搜索。结构的信息包括疏水氨基酸存在j 二蛋白质结构内 核的趋向和二级结构预测。折叠模式识别方法可以用来探测远缘关系的序列,缺 陷足由于序列联配误差的限制,结构预测的准确度有差异。 2 3 应用于生物信息学领域的机器学习方法 人们研究机器学习最初是为了让计算机系统具有人类的一些学习能力,进而 实现人。r 智能。后来计算机技术的迅猛发展,人类在收集数据、存储数据方面的 能力有了很大的提高,一些领域例如科学研究领域和社会生活领域,都积累了大 量的数据。也引发人们思考怎么对这螳数据进行分析,寻找其中的规律,这也成 为所有领域的共同需求,这使得机器学习方法越来越受到广泛的关注。现在,在 人工智能领域中,机器学习已经成为计算机学科中最活跃并且应用潜力最明显的 领域之一,成为专家系统之后的一个莺要的研究领域。 机器学习的概念至今也没有统一的定义。一种广义的定义是:机器学习是一 门研究如何使用计算机来模拟人类活动学习的学科。一种狭义的定义是:机器学 习是研究机器获取新知识和新技能,并识别现有知识的一门学问【8 】。 上世纪8 0 年代初,生物学中的大规模的数据计算开始使用计算机 9 1 。实验 生物学家对于复杂的生物学问题开始采用计算方法进行建模,而且开始与其他领 域的科学家进行合作。人们越来越认识到计算机技术的重要性和潜在的价值,尤 济南大学硕t 学位论文 其在模拟和分析生物学数据方面。早期的生物信息学家通过利用一些计算机算法 开发的计算机程序来分析生物学方面的数据。但这哇计算机程序存在一蝗缺陷, 一方面由于生物系统是一个庞大并且复杂的系统并且当时没有分子水平上的基 础理论作为指导,因此计算机程序并不能很切合实际地解决实验中遇到的问题; 另一方面,生物学方面的数据通常数目庞大,并且处于快速膨胀阶段,传统的数 据处理方法还不能有效的处理这些数据。机器学习方法能有效的克服上述困难, 逐渐被应用于生物信息学领域。基于机器学习方法编制的程序可以从已知数据中 自动地学习并且产乍有用的假设,因此机器学习方法成了目前生物信息学领域中 比较常用的方法。其中运用在蛋白质三级结构预测中的机器学习方法包含以下几 种方法:人工神经网络、贝叶斯网络、隐马尔可夫模型、遗传算法和支持向量机 1 0 】竺 寸0 2 3 1 神经网络 神经网络虽然是一门新兴的交叉学科,但已经应用在许多的研究领域并受到 了高度的蘑视,取得了不少突破性的成果。 神经网络的性质e 要取决于两个方面:一个是网络的拓扑结构,一个是网络 的学习舰则。神经网络是由很多节点构成的网状结构,网状结构中每一个节点都 可以被赋予数值。神经网络一般包含三个层次:输入层、隐含层和输出层。根据 神经网络内部节点的组织形式不同,神经网络可以分为不同的结构类型。比较常 见的足在层状结构中的单层神经网络和多层神经网络。 ( 1 ) 单层神经网络 单层神经网络包含输入层和输出层两层网络。如图2 4 所示输入层神经元的 输出为x 1x :,x 。,z 。,z :,z 。是输出层神经元。这种网络输入层没有计算, 只足简单的接受外界的输入,然后传给输出层;而输出层有计算功能,所以这样 的网络称为单层神经网络。如下图2 4 所示: 9 肇f 柔性神绛树及其囊成的蛋白质:级结构预测 x l x 2 x ,l 图2 4 单层神经网络 f i g 2 4t h es i n g l en e u r a ln e t w o r k 表示输入层第f 个神经元和输出层第个神经元的连接权值,可以得出输 出层神经元z ,的输出: y j = 厂l 薯一够l ( j - - l ,2 ,川) ( 2 1 ) 扭l 式( 2 1 ) 中口,是神经元z ,的阂值。厂是激励函数。 ( 2 ) 多层神经网络 多层神经网络包括输入层、隐含层和输出层,这就形成了多层神经网路。实 验表明相对于单层网络,多层神经网络具有更好的处理信息的能力,尤其对复杂 信息的处理能力。图2 5 所示为一个:层神经网络。 y1 y2 ym 图2 5 二:层神经网络 f i g 2 5t w ol a y e rn e u r a ln e t w o r k 其中域表示输入层中第f 个神经元与隐层第h 个神经元之间的连接权值。 1 0 济南大学硕卜学位论文 同理,仞管为隐层第h 个神经元与输出层第j 个神经元的连接权重。隐层第h 个 神经元的输出为: m 。:f 【,兰础一掣、l h :1 , 2 ,k ( 2 2 ) 。= i 国一掣i = , ( 2 2 ) i - l 则输出层第j 个神经元输出为: ,k、 j ,j = 卅缈m 膏一彰2 l ,= l ,2 ( 2 3 ) i = l 多层神经网
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 王厚军消防课件
- 2025年中国无线路由器行业市场前景预测及投资战略研究报告
- 交通行为预测分析-洞察及研究
- 显生宙生物辐射-洞察及研究
- 畜牧业政策工具创新-洞察及研究
- 机扩根管治疗讲课件
- 唐山师范学院《生理学实验》2023-2024学年第二学期期末试卷
- 新疆天山职业技术大学《基础乐理知识》2023-2024学年第二学期期末试卷
- 河北司法警官职业学院《油气井管柱及工具》2023-2024学年第二学期期末试卷
- 跨部门文化认同构建-洞察及研究
- 2025年中考物理考前押题密卷(哈尔滨卷)(全解全析)
- 2024-2025学年人教新目标英语八年级下册期末综合检测卷(含答案)
- 医院法律、法规培训2024:药事管理与药物治疗指导
- 环境影响评价的国际比较
- 2025届江苏省苏州市英语高三第一学期期末达标检测试题含解析
- 浙江大学《概率论与数理统计》第9章
- 校际教研联合体活动方案及案例
- 2024年版《代谢相关脂肪性肝病防治指南》解读1
- 2025年重点高中自主招生考试数学模拟试卷试题(含答案)
- 【京东第三方物流管理及供应链关系探析15000字(论文)】
- 北京市通州区2024-2025学年四年级语文下学期期末试卷新人教版
评论
0/150
提交评论