




已阅读5页,还剩95页未读, 继续免费阅读
(生物医学工程专业论文)蛋白质结构预测模型的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
天津医科大学博士学位论文 体准确率仍比应用3 状态h m m 提高了3 1 1 ,三态片断重叠准确率s o v 提高 了6 1 5 ,三态各自准确率中的珧提高明显,为6 4 9 ;应用1 5 状态h m m , 整体准确率9 比应用7 状态h m m 提高了o 1 8 ,s o v 准确率提高了1 8 ,三 态各自准确率中的纽提高了5 7 4 ;在1 5 状态h m m 基础上加入序列的同源信 息后,q 3 准确率比单序列1 5 状态h m m 提高了8 3 6 ,s o v 准确率提高了8 2 , 三态各自准确率幽,m ,妨分别提高了1 0 8 ,1 5 8 ,3 9 。 应用1 5 状态h m m 与b p n n 相结合的混合模型,预测的整体准确率q 3 比 典型的两个b p n n 的串联模型提高了1 1 1 ,s o v 准确率提高了1 6 9 ,三态各 自准确率妇,q e ,纷分别提高了1 3 ,1 0 2 ,4 6 。 二硫键配对连接的预测中,在相同b p n n 结构下( 窗口宽度= 1 5 ,隐含层个 数= 5 0 ) ,2 5 2 条蛋白质序列上的4 交叉验证结果中,加入蛋白质二级结构信息后 的预测敏感性比未加入蛋白质二级结构信息前提高了3 0 6 ,特异性提高 了0 6 9 ,相关系数m c c 提高0 0 4 1 ,总体二硫键配对预测准确率q c 提高了1 1 , 总体蛋白质预测准确率q 提高了2 7 8 。 结论: 1 7 状态h m m 预测蛋白质二级结构的性能优于3 状态h m m ,1 5 状态 h m m 总体预测性能和7 状态h m m 相当,但对1 3 折叠预测能力好;在1 5 状态 h m m 基础上加入序列同源信息后,预测性能更好。 2 应用b p n n 和h m m 的混合模型预测蛋白质二级结构,比典型的两个 b p n n 的串联模型预测准确率高。 3 在b p n n 的基础上,综合蛋白质序列的p s s m 矩阵和蛋白质二级结构信 息进行蛋白质空间结构中的二硫键配对连接的预测,方法是可行且有效的。 关键词:蛋白质二级结构预测7 状态隐马尔可夫模型 1 5 状态隐马尔可夫模型b p 神经网络二硫键预测 i i 天津医科大学博士学位论文 a b s tr a c t o b j e c t i v e t h ep u r p o s eo ft h i ss t u d yi st oi m p r o v et h ea c c u r a c ya n de f f i c i e n c yo fp r o t e i n s t r u c t u r ep r e d i c t i o na se x p a t i a t e df o l l o w i n g s : l 。o nt h eb a s i so f3 - s t a t eh i d d e nm a r k o vm o d e l ( h m m ) f o r p r o t e i ns e c o n d a r y s t r u c t u r ep r e d i c t i o n , p r o p o s e d - s t a t ea n d15 一s t a t eo p t i m i z e dh m m s ;c o m b i n e dt h e s e o p t i m i z e dh m m sw i t hb pn e u r a ln e t w o r k ( b p n n ) b a s e do ns e q u e n c e - p r o f i l e b a s e d h m mt oi m p r o v et h ea c c u r a c yo fp r o t e i ns e c o n d a r ys t r u c t u r ep r e d i c t i o n 2 g i v e np r o t e i ns e c o n d a r ys t r u c t u r e sa sw e l l 舔e v o l u t i o n a r yi n f o r m a t i o nt o p r e d i c td i s u l f i d ec o n n e c t i v i t yo fp r o t e i n f o l d i n gp r e d i c t i o n , e x p e c t i n gt os t r o n g l y r e d u c et h es e a r c hi nt h ec o n f o r m a t i o n a ls p a c e ,t oi m p r o v et h ep r e d i c t i o ne f f i c i e n c y m e t h o d s t h eo b j e c to fo p t i m i z e dh m m sw a sad a t a s e tc o n t a i n i n g4 9 2p r o t e i n s ,8 2 2 7 2 a m i n oa c i dr e s i d u e s ,w h i c hf i l t e r e df r o mt h ed a t a s e tc b 513c o l l e c t e db yc u f fa n d b a r t o n r a n d o m l yd i v i d e dt h e s ep r o t e i n si n t o7s u b s e t sa n dt h es e c o n d a r ys t r u c t u r e c o n t e n t sw e r es i m i l a ri na l lt h es u b s e t s :a b o u t3 5 o fr e s i d u e si na - h e l i x ,2 3 i 蟪 1 3 - s t r a n da n d4 2 i nc o i lw i t hd s s pa s s i g n m e n t a p p l i e d7 - s t a t e ,15 一s t a t eh m ma n d h y b r i dm o d e l so fb p n n h m m t op r e d i c tp r o t e i ns e c o n d a r ys t r u c t u r e ,e v a l u a t e dt h e i r p r e d i c t i o na c c u r a c yb y7 - f o l dc r o s sv a l i d a t i o n f i n a l l y , a n a l y z e da n dc o m p a r e dt h e s e p r e d i c t i o nr e s u l t s t h eo b j e c to fd i s u l f i d ec o n n e c t i v i t yp r e d i c t i o nw a sad a t a s e tc o n t a i n i n g2 5 2 p r o t e i ns e q u e n c e ss e l e c t e df r o mt h es w i s s p r o td a t a b a s e ,e a c hp r o t e i nh a v i n ga t l e a s tt w oa n da tm o s tf i v ei n t r a - c h a i nd i s u l f i d eb o n d s f i r s t l y , a n a l y z e dt h eb i a si nt h e s e c o n d a r ys t r u c t u r ep r e f e r e n c eo ff r e ec y s t e i n e sa n dc y s t i n e sa n dt h e nd e v e l o p e da b p n n t h ei n p u t so ft h en e u r a ln e t w o r kw e r et h es y m m e 蕊cf l a n k i n gr e s i d u e sa b o u t b o mc y s t i n e so fap o t e n t i a ld i s u l f i d eb o n d ,a l o n gw i t ht h es e c o n d a r ys t r u c t u r eo ft h e r e s i d u e sa n dp s i b l a s t - d e t e r m i n e de v o l u t i o n a r yi n f o r m a t i o n ( p s s m ) f i n a l l y , e v a l u a t e dt h ep r e d i c t i o na c c u r a c yb y4 - f o l dc r o s sv a l i d a t i o na n d a n a l y z e dp r e d i c t i o n r e s u l t s i l l 天津医科大学博士学位论文 r e s u l t s t h eq 3a n ds o vo f7 - s t a t eh m m a r ei n c r e a s e db y3 11 a n d6 15 c o m p a r e d 晰t h3 - s t a t eh m m s ( 狺i si m p r o v e d6 4 9 ;t h eq 3a n ds o vo f15 一s t a t eh m m a r e 0 18 a n d1 8 b e t t e rt h a nt h o s eo f7 - s t a t eh m m 1 2 i si m p r o v e d5 7 4 ;t h e 盆 3 a n ds o vo f15 s t a t eh m mc o m b i n e dw i t he v o l u t i o n a r yi n f o r m a t i o nh a v eb e e nf o u n d t ob e8 3 6 a n d8 2 b e t t e rt h a nt h o s eo fs i n g l es e q u e n c e15 一s t a t eh m m 如如 q ba t ei m p r o v e d1 0 8 ,1 5 8 ,3 9 r e s p e c t i v e l y c o m p a r e dt h ep r e d i c t i o na c c u r a c yo fh y b r i dm o d e l sw i t ht w ol a y e r sb p n n s , t h e0 3a n ds o v a t e1 1 1 a n d1 6 9 b e t t e rt h a nt h o s eo f t w ol a y e r sb p n n s q 珐q s , 量 ca r ei m p r o v e d1 3 ,1 0 2 ,4 6 r e s p e c t i v e l y i nt h es t u d yo fd i s u l f i d ec o n n e c t i v i t yp r e d i c t i o n , u n d e rt h es a m eb p n n a r c h i t e c t u r e ( t h el e n g t ho fw i n d o w = 1 5 ,t h en u m b e ro fh i d d e nu n i t = 5 0 ) ,t h es ,勘 m c c ,qa n dq o fc o m b i n e dt h es e c o n d a r ys t r u c t u r e sa r ei n c r e a s e db y3 0 6 ,0 6 9 , 0 0 41 ,1 1 a n d2 7 8 c o m p a r e dw i t ho n l yp s s m se n c o d i n g c o n c l u s i o n s 1 t h er e s u l t ss h o wt h a tp r o t e i ns e c o n d a r ys t r u c t u r ep r e d i c t i o np e r f o r m a n c eo f 7 - s t a t eh m mi sb e t t e rt h a n3 - s t a t eh m m ;15 一s t a t eh m mi ss i m i l a rt o7 - s t a t eh m m , b u tb e n e f i t sp - s t r a n dp r e d i c t i o n ;a d d i n ge v o l u t i o n a r yi n f o r m a t i o no nt h eb a s i so f 15 一s t a t eh m m ,t h ep r e d i c t i o np e r f o r m a n c ei sb e t t e r 2 t h eh y b r i dm o d e l so fb p n na n dh m m t op r e d i c tp r o t e i ns e c o n d a r ys t r u c t u r e c a r lg e th i g h e rp r e d i c t i o na c c u r a c yt h a nt w ol a y e r sb p n nm o d e l 。 3 o nt h eb a s i so fb p n n ,c o m b i n e dt h ep r o t e i ns e c o n d a r ys t r u c t u r e sw i t h p s s m st op r e d i c td i s u l f i d ec o n n e c t i v i t yi sf e a s i b l ea n de f f e c t i v e k e y w o r d s :p r o t e i ns e c o n d a r ys t r u c t u r ep r e d i c t i o n 7 - s t a t eh m m 15 - s t a t eh m mb pn e u r a ln e t w o r kd i s u l f i d eb o n dp r e d i c t i o n i v 天滓医科大学博士学位论文 缩略语 a n n a u c b l a s t b 翮蝌 c c a s p d s s p e h h m m 疆n n h s m m m e m m n m r p d b p s i b l a s t p s s m r o c s o v s v m 符号说明 英文 a r t i f i c i a ln e u r a ln e t w o r k a r e au n d e rc u r v e b a s i cl o c a la l i g n m e n ts e a r c h o l b a c kp r o p a g a t i o nn e u r a ln e t w o r k c o i l c r i t i c a la s s e s s m e n to ft e c h n i q u e sf o r p r o t e i ns t r u c t u r ep r e d i c t i o n d a t a b a s eo fs e c o n d a r ys t r u c t u r eo f p r o t e i n 9 - s h e e t a - h e l i x h i d d e nm a r k o vm o d e l h i d d e nn e u r a ln e t w o r k h i d d e ns e m i m a r k o vm o d e l m a x i m u me n t r o p ym a r k o vm o d e l n u c l e a rm a g n e t i cr e s o n a n c e p r o t e i nd a t ab a n k p o s i t i o n - s p e c i f i ci t e r a t e db l a s t p o s i t i o n - s p e c i f i cs c o r i n gm a t r i x r e c e i v e ro p e r a t i n gc h a r a c t e r i s t i c s e g m e n to v e r l a ps c o r e s u p p o 曩v e c t o rm a c h i n e v i l 中文 人王神经网络 r o c 凿线下面积 基本局部比对搜索工具 反向传播神经网络 无规卷曲 蛋白质结构预测技术 评估大赛 蛋冬质二级结构 数据库 b 折叠 a 螺旋 隐马尔哥夫模型 隐神经网络 隐半马尔可夫模型 最大熵马尔可夫模型 核磁共振 蛋自质大分予结构 数据库 位置特异性叠代b l a s t 位置特异性得分矩阵 接受者操作特性 片断重叠准确率 支持向量枕 学位论文原创性声明 本人郑重声明:所呈交的论文是我个人在导师指导下独立进行研究工作取 得的研究成果。除了文中特别加以标注引用的内容和致谢的地方外,论文中不 包含任何其他个人或集体已经发表或撰写过的研究成果,与我一同工作的同志 对本研究所做的任何贡献均已在论文中作了明确的说暖并表示了谢意。 学位敝作者龋皿嗍矿纷绷p 雹 学位论文版权使用授权书 本学位论文作者完全了解天津医科大学有关保留、使用学位论文酶规定, 帮:学校有权将学位论文的全部或部分内容编入有关数据库进行检索,并采用 影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国家有 关部门或机构送交论文,并编入有关数据库。 保密口,在年解密磊适用本授权书。 本论文属于 不保密臣酉。 ( 请在以上方框内打“) 学位论文作者签名:丝日期: 导师签名:叟笪蜀期: p 8 冬参髓l p b 矿多年参冀妒曷 天津医科大学博士学位论文 第一章前言 l 。l 研究背景 核酸和蛋白质包含了调控和维持生命现象的分子信息。以核酸和蛋盘质失 核心的分子生物学技术自从二十世纪末以来迅速发展,改变了生命科学的研究 模式。生命科学的研究已经从实验研究到理论研究的层次,特别是近年来分子 生物海量的数据,例如,仅人类基因组就包含了3 0 亿个碱基对的数据,分析和 解释这些数据成为本世纪的重大科学问题,它需要生命科学、数学、计算机科 学、信息科学等多学科的交叉,产生了交叉前沿学科生物信息学。生物信 息学的任务不仅要对生物数据库系统的开发、维护和管理,还要对海量的数据 进行计算和分桥,从中得出规律和生物学意义。蛋自质结构和功能的预测是生 物信息学的核心研究内容之一 2 l 。 冒前测定蛋白质三维空间结构的实验方法主要有两种:x 射线晶体学( x r a y c r y s t a l l o g r a p h y ) 方法和核磁共振波谱学( n u c l e a rm a g n e t i cr e s o n a n c e ( n m r ) s p e c t r o s c o p y ) 方法。以大分子结构数据库p d b ( p r o t e i nd a t ab a n k ) 为例,在其收录 的大分子结构中,约8 5 是通过x r a y 解析出来的,约1 4 是通过n m r 技术解 析出来,剩余l 为其他实验方法解析p 】。这两种主要的实验方法的局限性在于: n m r 方法精度较差,且对蛋自质的体积的大小有所要求;丽x - r a y 方法对蛋自 质晶体制备要求苛刻,有些蛋白质很难获缛照体结构。此外,两种方法都具有 周期长、成本高、技术难度大等缺点。 因此,应用实验方法已测定的蛋皇质空阗结梅的数量,远远少于毫知蛋白 质痔列的数量。图l - l 为近年来蛋白质序列数据库s w i s s p r o t 收录的蛋白质序列 的数量增长趋势t 4 1 ,图1 - 2 为p d b 数据库收录的已测定空间结构的蛋自质数量 情况翻。对比两图,可见虽囱质序列的数量远远多子已测定空间结构的蛋白数量, 即己知序列的蛋白质绝大部分未被测定结构。 酱前蛋白旗结构测定的速度远远不能满足实际的研究与应用需求,髌决这 一问题的有效途径是从理论上从已知的蛋囱质序列中预测蛋白质的结构。 天津医科大学博士学位论文 3 0 0 2 5 0 燎2 0 0 伽 山1 5 0 骤l o o 5 0 o 5 0 哇0 莽3 0 一 删2 0 撩王o o 一- i ii ii i _ 一- 。i i i i 。_ _ i i _ 。i i i i i一- _ 一。一。一。一,i 。_ ,一。- 。i 。 天津医科大学博士学位论文 蛋岛质结构预测的基本思想是将基予蛋白质结构预测的经验知识与计算化 学、统计物理学、信息学的方法结合,从理论上预测蛋自质的空间结构1 6 - 8 1 。近 年来,预测方法更多地应用了信息学技术,例如人工神经网络( a r t i f i c i a ln e u r a l n e t w o r k , a n n ,简称神经网络) 、支持向量机( s u p p o r tv e c t o rm a c h i n e ,s v m ) 和 h m m 等,从信息学的角度探索蛋白质折叠这一分予生物学的难题,为分子生物 学的研究提供新的思路。 本论文以鬣自质结构预测( 主要是二级结构) 为主题,基于h m m 和b p n n 模型,探索和研究蛋白质二级结构预测的方法和算法。 1 2 研究目的与意义 以往的研究发现,逶过蛋囱质三维空间结构可以有效揭示蛋白质的生物功 麓 9 - h l 。特定的蛋自质之所以能行使其特定的生物功能,是由它特定的结构决定 的,因此蛋自质的结构是研究蛋白质机制的基础。 从蛋白质一级结构直接预测三级结构是非常困难的。通过对己知空间结构 的蛋白质分子研究分析羼发现,尽管一条多肽链可能采取的构象数目是相当大 的,但是在蛋叁质分子中出二级结构组装两形成的空闽结构的方式是有限的。 另一方颟,蛋自质二级结构具有独立形成过程,多数二级结构是在三级结构形 成之前或者形成的同时邑独立形成,即二级结构的构成是一个相对独立的阶段; 在二级结构形成的基础上,进一步形成了蛋白质空间三级结构。 可见如果能从蛋囊质一级序列先预测其二级结构,再由二级结构预测其三 级结构,是预测蛋白质结构的有效途径。 本论文的主要基的是研究应用h m m ,以及h m m 和b p n n 的混合模型进行 蛋盘质二级结构预测,期望提高预测准确率;研究应用蛋自质二级结构的信息, 提高二硫键预测准确率,来减少蛋白质构象的搜索空间,提高蛋白质三维结构 预测的效率。 至3 论文的主要工作与创新 本论文的工作在以下两个方面:分别设计了优化的h m m 和b p n n h m m 混 合模型用于蛋囱质二级结构豹预测;综合蛋白质二级结构信息和阀源序列信息, 预测蛋白质结构中二硫键的形成,减少了蛋囱质构象的搜索空闽。论文研究了 从模型的构建到模型的实现、评价。成果如下: 3 天津医科大学博士学位论文 ( 1 ) 针对冒前应用3 状态h m m 预测蛋怠质二级结构准确率不高的阍题,提出和 建立了7 状态和1 5 状态h m m 。以上模型结构简单,生物学意义明确,使 用了较少的参数,降低了预测计算量。7 一状态和1 5 状态h m m 比3 - 状态h m m 生物序列信息多,因此预测率较3 状态h m m 显著提高。尤其应用1 5 状态 h m m 在d ,折叠预测方面预测率提高明显。 ( 2 ) 由于在进化过程中,蛋皂康结构序列的保守性远远高于氨基酸序列的保守 性,因此不同的氨基酸序列可能有相同的结构。所以本论文在1 5 状态h m m 的基础上,应掰h e n i k o f f 权值计算方法加入待测序列的同源序列信息,使蛋 自质二级结构预测平均q 3 准确率达到7 1 8 ,比单序列1 5 状态h m m 提高 了8 3 6 。 ( 3 ) 将b p n n 和h m m 相结合,构造了混合模型。将其用予蛋白质二级结构预测 的结果表明,混合模型既能体现b p n n 在分析相邻氨基酸残基间的相互影响 上的优势,也体现了h m m 对分析蛋是质二级结构“远程相关性”舱优势,因 此得到了比由两个b p n n 率联的模型更高的预测准确率。 ( 4 ) 通过对已有数据的统计分桥发现,形成二硫键的两个半胱氨酸在二级结构形 成上具有定的使用偏性。因此,本论文在b p n n 的基础上,在模型中加入 骚白质序列的二级结构信息和同源序到信息来预测蛋白质空间结构中二硫 键的连接模式,提高了二硫键预测准确率,为提高蛋囊质三维结构预测提供 支持。 1 4 论文结构 本论文共分为六章,主要内容及结构如下: 第一章前言 介绍本论文的研究背景及蛋白质二缀结构预测的研究目的与意义,主要研 究内容与创新,及论文整体结构。 第二章蛋白质结构预测 介绍了蛋翻质结构相关的生物学基础知识,蛋白质结构预测的发展历史, 蛋自质二级结构的种类以及罂内外围类研究动态。 第三章预测蛋自质二级结构的优化h 磁m 说明了h m m 的理论与算法,详细论述了优化7 状态和1 5 状态h m m 的构 建,模型的计算机实现以及对预测准确率的评价方法。 4 天津医科大学博士学位论文 第四章预测蛋白质二级结构的b p n n 和h m m 混合模型 构建了b p n n 与h m m 混合模型,详细介绍了模型结构与实现,给出了模 型预测结果并与两个b p n n 串联的模型的预测结果进行比较。 第五章基于b p n n 和蛋白质二级结构售息预n - 硫键结构 分析了蛋白质二硫键形成过程中二缀结构的使用偏性,构建了综合同源序 列信息和蛋自质二级结构信息的b p n n 预测模型,给出了模型预测结果。 第六章结论 在第三、四、五章分别给出了相应的讨论和小结的基础上,得出本论文的 结论。 天津医科大学游士学位论文 第二耄蛋白质结构预测 本章介绍了蛋白质结构相关的生物学基础知识,蛋白质结构预测的发展历 程,蛋叁质二级结构的种类以及蛋逸蕨二级结构预测的研究进展,尤其是h m m 预测蛋冬质二级结构的困内外研究动态。最后介绍了蛋自质折叠预测中的二硫 键预测的研究意义及研究现状分析。 2 1 蛋白质分子的组成和结构分类 2 1 1 蛋白矮的维成 在所有的生命活动中,蛋臼质都扮演着极为重要的角色。蛋白质的功能包 括健化功能、运输与存储、运动协调、免疫作用、神经冲动的产生与传导、成 长和分化的控制以及记忆辨识等。由此可以知道蛋白质功能的重要性以及作用 的广泛性,也芷因如此,研究蛋白质的奥秘是当今生命科学中的一大重要课题。 蛋皇质的基本组成单元是氨基酸,构成人体蛋南质的氨基酸共有2 0 种。每 一种氨基酸都是以一个碳原子( c a r b o na t o m ,c 0 为中心,圈围分别连接一个氮基 ( a m i n og r o u p ,- n h 9 、一个羧基( c a r b o x yg r o u p ,一c o o h ) 、一个氢原予( h y d r o g e na t o m , h ) 以及一个侧链基团( s i d ec h a i ng r o u p ,r ) 。各种氨基酸的不同之处就在于,侧链 r 基团决定了氨基酸的种类。除脯氨酸以外,其它的氨基酸都具有躅2 1 a 所示 的化学结构式,脯氨酸结构式的不同之处在于它的侧链与主链n 骧予共价结合, 形成一个亚氨基酸( 如图2 1 b ) 。 0 嘲 鬻瓣2 3 瓣 l 辩 图2 1 a 一般氨基酸结构式 f i g 2 - 1 at h ec h e m i s t r ys t r u c t u r e o f g e n e r a la m i n oa c i d 酬2 划瓣 图2 - l b 脯氨酸结构式 f i g 。2 - 1 bt h ec h e m i s t r ys - u - u c t u r eo f p r o l i n e 自从1 9 2 0 年生物学家b r a c o n n o t 发现第一个氨基酸一甘氨酸震,构成人 体的所有二十种氨基酸陆续被人们发现,如表2 1 所示。 6 天津医科大学博士学位论文 表2 1 氨基酸标准符号表 t a b 2 1s t a n d a r ds y m b o l so f2 0a m i n oa c i d s 符号意义符号意义 g ( g i y ) 甘氨酸 s ( s e 0 丝氨酸 a ( a l a )丙氨酸 t ( t h r ) 苏氨酸 v ( v a l )缬氮酸n a s n )天冬酰胺 i ( i l e ) 异亮氨酸 q ( g l n ) 谷酰胺 l ( l e u ) 亮氨酸 v ( t y r ) 酪氨酸 f ( p h e )苯丙氨酸 h ( h i s ) 组氨酸 p ( p r o ) 脯氨酸 d c a s p ) 天冬氨酸 m ( m e t ) 甲硫氨酸 e ( g i u ) 谷氨酸 w ( t r p ) 色氨酸 k ( l y s ) 赖氨酸 c ( c y s ) 半胱氨酸 r ( a r g ) 精氨酸 这二种氨基酸由于带有不阕的侧链,因而具有了不同的理化性质,根据 氨基酸侧链在大小、形状、电荷、形成氢键的能力以及化学活性等方面的差别, 可以将它们分成不同的类别。根据侧链的化学性质,这2 0 种氮基酸可分为【1 2 1 : 极性氨基酸:s e r ,t h r ,c y s ,a s n ,g i n ,h i s ,t y r 和t r p ; 带电氨基酸:a s p ,g l u ,l y s 和趣; 疏水氨基酸:a l a ,v a l ,l e u ,l i e ,p h e ,p r o 和m e t : 甘氨酸( g l y ) 的侧链只有一个氢原子,是最简单的氨基酸,具有独特的性质, 可以单独作为第圈类,也可以归为第一类。 2 。1 2 蛋白质分子的结构分类 一个氨基酸的羧基与相邻氨基酸的氨基缩合脱水形成肽键( p e p t i d eb o n d s 。 c - n ) ,如图2 2 所示。一定数目的氨基酸以肽键的形式连接而成一条多肽链 ( p e p t i d ec h a i n ) 。在一条肽链中,氨基酸分子由于缩合脱水己经失去了原来完整 的结构,因此给它重新命名为“残基( r e s i d u e ) 。蛋白质分子中备原子和基墓在空 间上的排列分布和肽链的走向,称为蛋白质的结构。 喇一毫一gh - o h + h - f l 一奠一憾艺h a n - c l h l - q 甲一警目蝌一c h g c l 珏一c c l c 鲢j 一, - 羹一e 凳- o :g ) h 66 图2 - 2 默键豹形成 f i g 2 - 2f o r m a t i o no f ap e p t i d eb o n d 7 夭滓医科大学博士学位论文 ( 1 ) 蛋白质一级结构( p r o t e i np r i m a r ys t r u c t u r e ) 蛋崮质的一级结构一般是指构成蛋自质肽链的氨基酸残基的排列颓序 ( s e q u e n c e ) ,是一个没有空闻概念的结构,因此经常直接将蛋白质的一级结构称 为蛋白质的序列。 ( 2 ) 蛋白质二级结构( p r o t e i ns e c o n d a r ys t r u c t u r e ) 蛋是质的二级结构是指多肽链中主链原子酌局部空闽排布,是不涉及侧链 部分的构象。可见蛋白质级结构主要撼述其化学组成结构,丽二级结构则是 在攒述肽链中的一个局部区域的空闻结构( 1 0 c a ls p a t i a ls t r u c t u r e ) 。它能是完整肽 链构象( 三级结构) 的结构单元,是蛋白质复杂的空间构象的基础。 1 9 5 1 年,生物学家p a u l i n g 以及c o r e y 最早提出蛋白质中具有a 螺旋和6 折 叠( 图2 3 ) 这两种周期性结构的假设,并在1 9 5 7 年由另一组生物学家用x - r a y 方法所证实。1 9 8 3 年k a b s c h 和s a n d e r 绘出了更精确的描述【”1 。 ( 3 ) 强自质三级结构( p r o t e i nt e r t i a r ys t r u c t u r e ) 蛋自质的三级结构主要描述其二级结构的整体空闻拓矜关系,是指每一条 多肽链内全部二级结构总和及所有侧链原子的空间排布和它们的相互作用,包 括了条肽链中主链构象和侧链构象的全部内容。 蛋白质的功能主要决定于蛋白质的三级绻构( 如三级结构中的m o t i f , d o m a i n 等都与蛋皇质功能密切相关) 。 ( 4 ) 蛋白质四级结构( p r o t e i nq u a t e r n a r ys t r u c t u r e ) 有些蛋自质的相对分子质量很大,它们常含两条以上的多肽链。由两条或 两条以上具有独立三级结构的多肽链聚合成蛋白质分子的特定构象,称为蛋白 质的四级结构。 构成四级结构中的每条具有独立兰级结构的多肽链称为亚基或贬单位 ( s u b u n i t ) 。 蛋自质韵二级,三级和圈级结构,统称为蛋自震的空闻结构或构象 ( c o n f o r m a t i o n ) 。蛋自矮的理化性质和生物学活性主要取决于它的某种特定的空 间结构。蛋自质各级结构关系如图2 - 3 所示。在本论文中研究骚自质二级结构的 预测和二硫键空间结构预测。 3 天津医科大学博士学位论文 一e - a - k - 夕“擎 瓣 镪嚼张 q u a 佃m m y 蚰u c t u r o 图2 - 3 蛋白质的各级结构( 此图摘自w - , v w s c i e n 睫o r g a u ) f i 9 2 3 t h es t r u c t u r e so f p r o t e l n ( f r o mp r i m a r y t o q u a t e r n a r ys t m c m r e ) 2 2 蛋白质结构预测方法 蛋白质结构的理论预测方法都是建立在氨基酸的一级结构决定高级结构的 理论基础上,分为以下三类: ( 1 ) 比较建模法( c o m p a r a t i v em o d e l i n gm e t h o d ) 比较建模法是基于知识的蛋白质结构预测方法,又称为同源结构预测,是 根据大量已知的蛋白质三维结构来预测序列已知而结构未知的蛋白质结构。按 照目前的定义,若待构建的蛋白质序列与模板序列经比对( a l i g n m v n t ) 后的序列相 似性在4 0 ( 也有人认为在3 5 ) 以上,则它们的结构可能属于同一家族,它 们是同源蛋白( h o m o l o g y p r o t e i n ) ,可以用同源蛋白模型构建的方法预测其三维结 构。因为它们可能是由同一种蛋白质分化而来,它们具有相似的空间结构,相 同或相近的功能。 因此,若知道了同源蛋白家族中某些蛋白质的结构,就可以用同源模型构 建的方法预测其它一些序列已知而结构未知的同源蛋白的三维空间结构。 h a m o | o g y 、u q a n t a c h a r m 、c o m p o s e r 、c o n s 尉s u s 、m o d e l l e r 和c o l l a r e x t e n s i o n 等软件和方法可以用于目标蛋白结构模型的构建。 天津医科大学博七学位论文 q ) 反惫折叠法( i n v e r s ef o l d i n go rt h r e a d i n g ) 反肉折叠法是近年来发展越来的种比较新的方法。它可以应用到没有同 源结构的情况中,且不需要预n - 级结构,即直接预测三级结构。 反向折叠法的主要原理是把未知蛋白的序列和已知的结构进行匹配,找也 一种或几种匹配最好的结构作为未知蛋白的预测结构。它的实现过程是总结擞 己知的独立的蛋白质结构模式徽为未知结构进行匹配的摸叛,然蜃阁经过对现 有的数据库的学习总结蹦的可以区分正误结构的平均势函数( m e a nf o r c ef i e l d ) , 做为判别标准来选择出最佳的逛配方式。 这种方法的局限性在于它假设蛋自质折叠类型是有限的,所以只有未知蛋 自质和已知蛋鑫质结构稆像的时候,才有可能预测磷未知的蛋自质结构。如未 知蛋白质结构是现在还没有出现的结构类型时,这种方法将不能被应用。 ( 3 ) 从头预测法( a b i n i t i op r e d i c t i o nm e t h o d ) 从理论上说,从头预溯法是最为理想的蛋鲁质结构预测方法。它要求方法 本身可以只根据蛋白质的氨基酸序列来预测蛋氨鹱的二级结构和高级结构。 从头预测可以细分为: 1 ) 二级结构预测:首先从蛋白质一缴结构预测出其二级结构,然后薅把二 级结构堆积戚三级结构。 2 ) 超二级结构预测:实际上是局域的空闻结构预测,主要应用a n n 和向 量投影方法,从蛋自厦序列出发,直接预测蛋白质的超二缀结构,观察此段氨 基酸序列是否能形成巢一种模式的超二级结构。 3 ) 结构类型预测:该方法是预测未知结构蛋自质属予何种类型,如全伐类 蛋岛质( 主要出程螺旋组成) 、全多类蛋盘质( 主要由多折叠组成) 、彬p 类蛋淹 质( 以平行折叠为主) 或t t + 类蛋良质( 以反平行折叠为主) 。 结构类型预测除能了解大概的蛋皇震结构折叠情况外,对蛋自质二级结构 的预测也有帮助。 4 ) 三维结构预测:是蛋白质结构预测的最终墨标。 主要有两个方向:根据蛋白质二级结构、结构类型和折叠类型预测的结果, 结合结构闻的立体纯学性质,亲疏水性质、氢键以及静电捆互雉用,把可信度 较高的蛋白质二级结构进步组装,搭建瀣最后的蛋白质结构;不依赖蛋囟质 二级结构预测的结果,壹接预测三维结构。 l o 天津医科大学溥士学位论文 2 3 蛋白质二级结构种类 在蛋白质二级结构预测研究中需要将蛋白质的坐标数据转换为二级结构表 示形式,最普遍的二级结构指定( s e c o n d a r ys t r u c t u r ea s s i g n m e n t ) 程序有d s s p ( d a t a b a s eo f s e c o n d a r ys t r u c t u r eo f p r o t e i n ) 1 3 l 、s t r i d e t 4 1 和d e f i n e 1 5 】等,研究 结果表明:d s s p 和s t r i d e 方法获褥的结果有9 5 是相同的,丽d e f i n e 方法 的结果与它们差别较大。它们主要对p d b 数据库l i 6 】中蛋囱质的三维结构坐标数 据进行分析计算,并按相应的算法指定每个残基链点所从属的二级结构。 本论文应用了最常用的d s s p 分类方法,也就是将蛋皇质二级结构分成八 类,各类含义及符号代码如表2 - 2 所示。 表2 - 2d s s p 蛋自震二级结构分类 t a b 。2 - 2s e c o n d a r ys t r u c t u r ea s s i g n m e n to fd s s p 结构描述分类 h g l e bo r b c ,l o r s p a c e t s 我们称这种蛋白质二级结构表示法为夕态表示法。冀前在做蛋白质二级结 构预测时,通常会再将这八类归势成三大类,即伐螺旋( a - h e l i x ,折叠( s h e e t , e ) 以及无规卷曲( c o i l ,c ) 。通常有三种归类的方法: ( 1 ) e e , 薹_ 薹薹,其余耐c ; ( 2 ) h g h h ,嚣b e ,其余一c ; ( 3 ) h g h ,e b _ e ,其余_ c 。 第一种方法为c k 模式吲,第二种方法为e h l 模式f 淄,第三种方法为 p s i p r e d 所应用吲。本论文中我们应震了e h l 模式归类方法。 一一一嘲啪一|霎一愀嘲啪 天津医科大学博士学位论文 2 4 蛋白质二级结构预测研究进展 蛋白质二级结构的预测始于2 0 世纪6 0 年代中期,发展至今,取得了很大 进展。按照蛋白质二级结构预测方法的发展阶段,可分为三代【2 u j 。 第一代预测方法是基于单个氨基酸残基统计分析,从有限的数据集中提取 各种残基形成特定蛋白质二级结构的倾向,以此作为蛋白质二级结构预测的依 据。预测方法以c h o u & f a s m a n ,g o r l 2 1 1 ,以及l i r a t 2 2 1 为主要代表。 第二代预测方法是基于氨
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年事业单位工勤技能-河北-河北医技工一级(高级技师)历年参考题库含答案解析
- 2025年事业单位工勤技能-江苏-江苏不动产测绘员四级(中级工)历年参考题库含答案解析(5套)
- 2025年事业单位工勤技能-广西-广西收银员四级(中级工)历年参考题库典型考点含答案解析
- 2025年事业单位工勤技能-广西-广西图书资料员五级(初级工)历年参考题库典型考点含答案解析
- 2025年事业单位工勤技能-广东-广东铸造工二级(技师)历年参考题库含答案解析
- 2025年事业单位工勤技能-广东-广东汽车修理工(技师/高级技师)历年参考题库典型考点含答案解析
- 2025年事业单位工勤技能-广东-广东土建施工人员一级(高级技师)历年参考题库含答案解析
- 2020-2025年证券从业之金融市场基础知识自测模拟预测题库(名校卷)
- 2025年职业技能鉴定-铁路职业技能鉴定-铁路职业技能鉴定(铁路车站值班员)高级历年参考题库含答案解析(5套)
- 2025年职业技能鉴定-邮政储汇业务员-邮政储汇业务员高级历年参考题库含答案解析(5套)
- 2021年徐州邳州市教师进城考试笔试模拟试题及答案解析
- 税务自查(稽查)报告模板(参考)
- 外科学课件-尿石症与泌尿系梗阻
- GB∕T 18159-2019 滑行车类游乐设施通用技术条件
- 蜈蚣养殖技术资料
- 《三字经》PPT课件(完整版)
- 质量验收记录-雨污水管道表格
- (精心整理)大六壬基本口诀
- 现在完成时——英语公开课课件
- 管片嵌缝及手孔封堵施工方案完整
- WCDMA——特殊场景传播模型应用指导书
评论
0/150
提交评论