(生物物理学专业论文)蛋白质二级结构含量及膜蛋白类型预测.pdf_第1页
(生物物理学专业论文)蛋白质二级结构含量及膜蛋白类型预测.pdf_第2页
(生物物理学专业论文)蛋白质二级结构含量及膜蛋白类型预测.pdf_第3页
(生物物理学专业论文)蛋白质二级结构含量及膜蛋白类型预测.pdf_第4页
(生物物理学专业论文)蛋白质二级结构含量及膜蛋白类型预测.pdf_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 基因组计划的实施葶珏完成使得蛋白质的一级结构数据与目俱增, 而对于虽自质三级结构和功能的认识远落厩于一缀结构。后基因组时 代迫切需要人们寻找可靠的理论方法从一级结构预测蛋白质的三级 结构或功能。 由予迄今必止蛋爨质二级结构鞭测糖度还远远不能满足正确推 测蛋白质三维空间结构的要求,我们希望从蛋白质二级结构含量预测 入手来解决问鼷。本文利用多元线性回归方法进行了有箍的尝试。 膜蛋白质禚细胞中占有鬟要的进位。霞际上已有成功的方法区分 膜蛋自壤与非膜蛋自瘦。如果人们能够从理论上预测膜蛋自质的类 型,及其与磷酸双脂层的结合方式,对于了解新测序的膜蛋白质的功 能有十分重要的意义。本文利用马尔科夫模型预测膜蛋白质的拓手卜 类型,取得了较爵的结果。对于本文作者建立的低同源髓数据蓐,马 尔辩夫模型的颧测精度比用氨基酸组成佟为输入参数的贝叶斯算法 提高了约1 1 。而在对马尔科夫模型进行改进后,总体预测结果还有 所提高。 关键词:二级结构含量;多元线性回归:膜疆白质;拓扑类型; 马尔科夫模型;贝叶斯算法。 a b s t r a c t t h e a c c o m p l i s h m e n to f h u m a ng e n o m ep r o j e c tm a d et h en u m b e ro f k n o w np r o t e i n s e q u e n c e si n c r e a s e 、城凌l e a p s a n db o u n d s 。a n dt h e c o m p r e h e n s i o no nt h et e r t i a r ys t r u c t u r eo fp r o t e i n sl a g s f a rb e h i n dt h e c o r r e s p o n d i n go n e o nt h ep r i m a r ys t r u c t u r e i nt h ep o s tg e n o m i ce r a ,i ti s u r g e n t t of i n d t r u s t w o r t h y t h e o r e t i c a l a p p r o a c h e s t o p r e d i c tp r o t e i n s t r u c t u r e sa n df u n c t i o n s t h ea c c u r a c yo ft h ep r e d i c t i o no f p r o t e i ns e c o n d a r ys t r u c t u r ec a n n o t s a t i s f y o u r r e q u i r e m e n t ,d e d u c i n gt e r t i a r y s t r u c t u r e f r o m 州m a r y s t r u c t u r e ,s ot h ep r e d i c t i o no fs e c o n d a r ys t r u c t u r ec o n t e n tm a yb eo n eo f t h ek e y s t e p st os o l v et h ep r o b l e m i nt h i sp a p e r , s o m et e n t a t i v ew o r k i s d o n e u s i n g t h em u l t i p l el i n e a rr e g r e s s i o nm e t h o d 。 m e m b r a n ep r o t e i np l a y sa ni m p o r t a n tr o l ei nac e l l i fw ec a n p r e d i c t t h em e m b r a n ep r o t e i n t y p e s a n dt h em o d e lo fi n t e r a c t i o nw i 协l i p i d b i l a y e rt h e o r e t i c a l l y , t h e r e w o u l db eg r e a ti n s t r u c t i o n a l m e a n i n g s t o e x p e r i m e n t a lw o r k 。i nt h ep a p e r , m a r k o vm o d e li s u s e dt op r e d i c tt h e t o p o l o g yt y p e s b a s e do nt h en e w l yc o n s t r u c t e dd a t a b a s ew i t hr e d u c e d s i m i l a r i t y , t h ei m p r o v e m e n to f a b o u t11 i nt h ej a c k k n i f et e s tc a nb e a c h i e v e dc o m p a r e dw i t hb a y e sa l g o r i t h mm e r e l yb a s e do nt h ea m i n o a c i dc o m p o s i t i o n 。u s i n gt h ei m p r o v e dm e t h o d ,ah i g h e ro v e r a l la c c u r a c y c a nb ea c h i e v e d k e y w o r d s :s e c o n d a r y s t r u c t u r e c o n t e n t ;m u l t i p l e l i n e a r r e g r e s s i o n ; m e m b r a n e p r o t e i n ;t o p o l o g yt y p e ;m a r k o vm o d e l ;b a y e sa l g o r i t h m 。 独创性声明 零入声嚼所璺交静挲往论文是本久程导霖捂导下遴纷酶疆究工作帮墩褥戆 研究成果,徐了文中特别翔苏标注和致谢之处外,论文中不巍含其他人已经发表 或撰写避豹研究戏果,毽苓蕊含楚获得基鼗盘鲎或箕镶教育撬构的学霞躐证 麓两使震进载材辩。与我一麓王箨豹麓悫瓣零疆究蕊辙戆经程贡欺均鑫在论文孛 露了明确豹谖鬻并表示7 谢意。 学豫敞捧澎皴栖哟签字隧妙零朋翻 学位论文版权使用授权书 本学位论文律者完全了解基建蠢壁有荚裸露、使用学饿论文静栽定。 特授粳基建蠡璺霹戳将学谴论文靛套部戏部分内容编入有关数据瘁滋襻捡 索,并采用彩印、缩印或扫描等笈制手段傈存、汇编娃供鲞阕和倦阅。同意举校 向国家有关部门或机构送交论文的复印律耧磁盘。 ( 傈密的学位论文在解密后适用本授裰说明) 学位论文作纛签襄:舞萄嘞勉 导薅签名: 签字目麓:j 瓣年,2 露i 疆 签字目疑:2 0 0 2 冬1 2 嚣2 强 天津太学颈士学位艳文 1 1 氨基酸及多肽 第一章绪论 1 9 世纪中卧,糟兰生理学家g j 。m u l d e r 鼓动貔组织和植物体波孛提取出一 种熬同的物质,并认为生谢的存在很可能与这种物质有关。1 8 8 3 年,根撰著名 瑞典化学家8 e r z e l i u s 的提议,m u l d e r 把这种物质命名为蛋白质( p r o t e i n ) 。 p r o t e i n 来自希腊语npo o ,意指“最重要的”、“最原始的”、“第一的”。 蛋白质是生命体中最串富和最重要的犬分子之一,悬最丰富的细胞缀分。 从高等动植物到低等微生物乃至病毒,都是l 三l 蛋舀质为主要组成成分的。不仅 如 i l :,蛋自凄在生命活动中莛着极舞重要懿箨用,如果把一令细臆看成是一个 生化工厂,那么里面的工人就是鬣自质分子。他们是携带信息的生物大分子, 是编码在染色体中的核酸序列信息的最终执行者。根据功能的不同,蛋白质被 。 _ 分为酶类、运输蛋岛类、营养和贮存蛋白类、收缩或运动蛋白类、强护或茨翻 蛋白类、激素蛋自类、受体蛋白类、毒索蛋白类、生长和分化的调控蛋囱类以 及结构蛋自类。同一种蛋白质,其功能又星现出复杂性,如糖蛋白的细胞识别 功能涉及糖蛋自及其裙应受俸、耱基转移酶及其底耪、或耱瞢水解酶及其底物 所参与的一系列,圭化过程,又如酶催化功能受许多因素的影响,并表现出竞争 性、可调节性等。 组成蛋白质的氨基酸有2 0 种,它们在不同蚤自质中戳不同的排歹由嗳序组合 起来,并构成特定的空间褐象,从孬表现出秘类繁多、结梅复杂褥功能各异静 蛋白质。甄基酸是含有氨基的羧酸,即羧酸中a 碳原子上一个氢原子被羝基取 代而生成的化合物。其结构通式为: n h 2 s h l o o h r 天律大学颈圭学垃诠文 式中r 表示像学基丽( 霾为它们常露楚于蛋爨质羲状分子鹃褥链上,藏又 称为侧链基团) 。r 基不同藏构成不同的氨基酸。这些氨基羧的a 一氨基和n 一羧 基连在同碳原予上,统称为n 一氮基酸,这是氨艇酸在结构上的拱同特点。氨 蓥酸豹丽分子孛含有碱馁豹氨蘩( 一n h ,) 稻酸性静羧慧( 一c o o h ) ,鞫魏, 它是两性墩解质。它的一c o o h 基w 解离释放h + ,其自身变为- c o o - ,释放出的 h + 离子与一n h :结合,使一n h 2 基变为一n h ;,此时氨基酸成为同一分子上带有 正、负两种电荷的偶极离子或称兼性离子h ,n c h c o o 一,这也是氨潦酸在 r i 水中或结赫态时的主要存在形式。 氨蓉酸遥过获键连缩形成静镳秩纯台秘称为欺( p e p t i d e ) 。款中氨蒸馥闯 豹连接是歇键( p e p t i d eb o n d ) 。肽键是囊一个氨基酸豹n 一氨基砖另一个氨基 酸的。一羧基缩合失水而形成的酰胺键。肽呈链状,因简称为肽链( p e p t i d e c h a i n ) 。膝链中每个氨基酸单位由予失去1 分子永,称为氨基酸残麓( r e s i d u e ) 。 肽链中仍保罂有类似于氨熬酸豹a n h ,和n c o o h ,它们分别位于肽链的两 端,这两端分别称为氨基酸末端( 卜末端) 和羧基未端( c - 末端) 。由几个残基 稳成就称为咒歇,鲡二敖、兰获等。 1 ,2 蛋囱矮麓分子结梅 蛋自震豹纯掌络辛奄添簧| j 上漭魄软篱擎,是壶诲多氨基羧戥酝键缝合舔残豹。 然鞭蛋白质相对分子量大,组成氨基酸数嫩很多,许多个氮基酸构成一条长链, 其排列方式必然是多种多样的。而且这条长链要么形成一个线团,要么绕成有 凌樟的鳔麓,或拆叠,因为葫憝畿蛋叁震帮是球获耱,舔l 线毪终维获瓣,霉 见激白质豹结构是十分复杂的。为了研究的方便,早在2 0 世纪5 0 牮代,丹麦科 2 天津大学颈士学位建文 学家l i n d e r s t r 枣辙i m n g 黉建议将爱鑫矮豹续构分海不弱瓣结援爨次,分嬲称为 一级结构、二级结构、三缴结构和四级结构。一级结构是指蛋白质的共价结构, 称为初级结构;二、三、四级结构是指蛋白质链的空间排布( 即链的构象) ,称 荛蹇缓缀橡。叁予蛋白凄结梅戆复杂毪,入翻建立了一终楚荸垂冬模型来剡西其 主要结构特点,如图1 1 。 图1 1 蛋白质分子结构的两个简单模型( a ) s p a c e - f i l l i n g 模测体现 分子缓或蠢据瓣空淘和瑟体缮获。( b ) 缎带模鍪,其牵一辑叠嚣表臻秃藤乎鹃 箭头,a 一螺旋表现为螺旋带。 1 2 1一级结构氨基酸的顺序 ( b ) 鹎经将蛋囱质的化学结构视为一级结构( p r i m a r ys t r u c t u r e ) ,包括:多肽链 数目:每条链中氨基酸的数目、种类和排列顺序;链间或链内桥键的位鬣和数 强。1 9 鹤零,国鼯缝棒与癍建纯学联会会为了对他学缝稳粒一级续稳妇以区剿, 飙定蛋白质的一级结构特指肽链中的氨基酸排列。维持级结构的化学键为共 天津文学颈圭警短论文 徐键,圭婺惫获键。所叛豢自霞分子熬一缀结构称麓共徐结梅。 1 。2 。2 空闫结构 蛋叁获分子戆空阋缝梭又豫为约象、嚣级结稳、立钵结稳、三缝缝擒,撵 的是蛋白赝分子中所有原子在三维空间中的排布,分为= 、三、四级结构三个 不同层次。二级结构( s e c o n d a r ys t r u c t u r e ) 指的是多胶链借助氛键排列成沿 一令方囊爨毒窟期牲缕构瓣擒象,翔n 一螺旋、辑叠片等。二级结憨不涉及 氨湛酸残錾的侧链构象。三级结构( t e r t i a r ys t r u c t u r e ) 是指多肽链借助各 种次级键盘绕成特定的不规则的球状络构的构象。四级结构( q u a t e r n a r y s t r u c t u r e ) 是豢蒜聚蛋囊藤孛各黢基之瓣捧枣上熬摇互关系或缝会方式。维持 蛋白质分子构象的化学键包括氢键、静电引力、范德华力、疏水相互作用和二 硫键。 。2 。2 1= 缀装梅熬链懿螺旋撬爨 蛋白溪豹二级结构是攒宅豹多默链中鸯援则震复的构象,鼹予主链原子豹 局部空间排列,不包括与肽链其它区段的相互关系及侧链构象。= 级结构的类 燮有:。一螺旋、黟一折叠、一转角和无规卷曲等。 ( 1 ) 8 一螺旋一螺旋( d h e l i xs t r u c t u r e ) 楚蛋宣鹰中最常觅酶一种二级 绩捣,是1 9 5 1 年痰美国大l p a u l i n g 和r b c o r e y 根据对角蛋白的x 一射线辑射 结柴而提出来的。其结构模型要点是: a 多股链的主链围绕个“中心轴”螺旋上升,每隔3 6 个氨基酸上升一 圈,螺距0 5 4 n m ,每个氨嫠酸上拜0 1 5 n m ,每个氨基酸麓转1 0 0 发。这耱獒鼙 4 天津大学硕士学位论文 的a 螺旋可用3 6 。来表示。 b 相邻螺圈之间要形成链内氢键,在每个氨基酸残基的氨基与其前面第4 个氨基酸残基的羧基间形成。氢键的取向几乎与中心轴平行( 氢键的4 个原子 位于一条直线上) ,且是维系n 一螺旋的主要作用力。 c r 侧链在螺旋的外侧。 d 天然蛋白质中的a 一螺旋大多数是右手螺旋。 ( 2 ) b 一折叠在研究丝蛋白的x 一射线衍射时,发现丝蛋白肽链存在一种 与。一螺旋不同的结构,p a u l i n g 等提出一种折叠结构,称为b 一折叠( b p l e a t e d s t r u c t u r e ) 。1 3 一折叠与d 一螺旋相比较,它具有以下特点: a 肽链几乎是完全伸展的; b 肽链呈锯齿状,按层平行排列,肽平面成片状,称为折叠片: c 。相邻肽链上的一c o 一与一n h 一形成氢键,氢链几乎垂直于肽链,用以维 持片层键结构稳定性: d 肽链的r 侧链集团在肽平面上、下交替出现 e 折叠片分平行式和反平行式两种类型。 ( 3 ) b 一转角b 一转角( b t u r n ) 是球状蛋白中广泛存在的一种结构类型, 可占全部氨基酸残基总数的1 4 左右。b 一转角是多肽主链回转1 8 0 度所形成的 部分,它使肽链的走向发生改变。一转角由4 个连续的氨基酸残基组成,第门 个氨基酸残基的一c o 一基与第肿3 个氨基酸残基的n h 一基形成氢键,氢键维 持s 一转角的稳定。 天津大学硕士学位论文 ( 4 ) 无规卷曲又称为自由回转( r a n d o mc o i l ) ,是上述几种结构单元以外 的其它松散肽链结构形式。 1 2 2 2 三级结构肽键非几何形的进一步折叠 蛋白质的三级结构是指一条多肽链在二级结构基础上进一步卷曲折叠,构 成一个不规则的特定构象,它包括全部主链、侧链在内的所有原子的空间排布, 但不包括肽链的相互关系。维系三级结构稳定的作用力有氢键、二硫键、离子 键、疏水作用力和范德华力,其中疏水作用力起主要作用。 1 2 2 3 四级结构亚基间的相互关系 许多天然球状蛋白质是由两条或多条肽链构成的,在这些蛋白质分子中, 肽链间借非共价键聚集在一起。这种由两条或两条以上的具有三级结构的多肽 链借非共价键聚合而成的特定构象称为蛋白质的四级结构。四级结构的蛋白质 中每个最小共价单位称为亚基或亚单位( s u b u n i t ) 。亚基单独存在时没有生物活 性,只有聚合成四级结构才具有完整生物活性。亚基一般由一条肽链组成,也 有由几条肽链组成( 链间以二硫键连接) 的情形。四级结构涉及亚基的种类和 数目以及各亚基在整个分子中的空间排布,包括亚基键的接触位点和相互作用 关系,而不包括亚基本身的构象。维持蛋白质四级结构的化学键主要是疏水作 用,此外,氢键、离子键及范德华力也参与四级结构的形成。 图1 2 表现了蛋白质的分级结构特点。 必津大学疆士学垃论文 圈l 。2 蛋囊震静务级结构+繇裔蛋自矮都骞蘸三缀结梭,骞些毽窍壹蘸 个或多个多肽链缀合成的四级结构,象三维迷寓图。 1 。3 蛋白质豹结构号功麓的统一性 蛋白覆熬绩搀与功熊溉对立叉统一。它们之闫有统一的、曩棚蔹赖豹一葱, 但又有相互制约、相互矛盾的一面。正因为如此,才推动了结构和功能的向前 发展。一般说来,蛋白蔟的生物学功能燕蛋自质分子静必然梅象所具有豹满往, 其磅毙表现在依羰于其稳应豹掬象。 7 天津大学硕士学位论文 一级结构决定空问结构,空间结构是蛋白质生物学功能表现所必需的,因 此蛋白质的一结构也与其功能密切相关。同功蛋白质是指不同种属来源的执行 同种生物学功能的蛋白质。它们在分子组成上基本相同,但有差异,这种差异 表现出生物进化中亲缘关系的远近。对同种生物而言,具有相同生物活性的蛋 白质称为同种蛋白质,同种蛋白质的一级结构在不同生物个体中比较也存在细 微差异。这种差异常常引起多种疾病,即分子病。这是由于同种蛋白质的氨基 酸组成上的个体差异引起蛋白质结构改变,从而导致生物学功能的改变。蛋白 质空闽结构与生物学功能是统一的、对应的关系,只有蛋白质具备了特定的空 间结构,它才具有相应的生物学功能,空间结构的变化必然会导致功能的改变。 1 4 蛋白质二级结构含量预测意义 预测蛋白质的三级结构是分子生物学所面临的一大挑战。普遍接受的观点是 蛋白质的三级结构是由它的一级序列所决定的( 1 ) ,但到目前为止,我们所掌 握的知识还不足以准确预测其三级结构。对蛋白质二级结构含量的测量和理论 预测被认为是预测三级结构的第一步。对二级结构含量的了解是十分有用的, 例如,在利用能量最小值函数进行构象搜索,预测三级结构时,它可以帮助有 效地缩小搜索范围。 二级结构含量可以有一些较容易的实验方法直接测定,如喇曼光谱仪( 2 ) 。 然而实验的结果有时并不能令人满意。目前还没有对每种蛋白质都有效的实验 方法,因此,从理论上预测是很有价值的。 到目前为止还很少有关于二级结构含量理论预测的报道。 k r i g b a u m 和 k n u t t o n 于1 9 7 3 提出用氨基酸组成作为参数的多元线性回归算法;m u s k a l 和k i m 于1 9 9 2 年基于一个较大的数据库提出了改进算法,他们还利用神经两络算法进 天津大学硕士学位论文 行了预测;1 9 9 6 年,e i s e n h a b e r 等提出了矢量分解方法( 3 ) 。1 9 9 8 年,张眷霪 教授等提窭了改进豹多元线经鼙努簿法( 4 ) ,零l 雳穿菇熬巯瘩蓬垂疆关函数摄高 了预测准确度。 1 5 膜蛋白质类型预测的意义 所有的细胞都外被质膜,它主要由磷月旨和蛋自质组成,是细胞的重要结构 成分。质膜和细胞内各种膜在结构、化学组成和活动属性等方面有一定的兆性, 菽繇称先生狻貘。垒耱骥蹩缓蕤送行生余溪囊载重要结 鸯蘩磷,笺显转抉、蛋 白质合成、物质运输、信息传递、细胞运动等活动都与膜的作用有着密切的关 系。膜脂构成了生物膜的基本框架,它维持着膜内外的差辩,但是膜的许多功 麓麓蠢豢奁磷双l 誓麓孛翦貘器鑫来执孬懿( 5 ) ,爨蘧对骥爨鑫豹碜 究对迸一步 了解和掌握膜的生物功能进而了解细胞的生长、分裂、分化、衰老及死亡过程 有极其重要的意义。 骥蛋白豹菲对称性移其在与磷耱层终翔游静考淘对手执行各种生纯功憝+ 分重要。一些膜上的酶或输运系统的作用溉依赖于磷腊和骚自质的相互作用 ( 6 ) 。只有跨膜蛋白才能行使输运蛋白,如载体蛋白、通道蛋白的功能。膜蛋 自行使静秘链是与它的类登密切褪关静。鼷蛋白夭体主分为两类,一类是熬台 膜蛋白,另一类是外周膜蛋瞧,但已知序列的外周膜蛋白较少。本文只讨论整 合膜蛋白( 包括跨膜蛋白和锚定蛋白) 。跨膜强白分为单次跨膜和多次跨膜蛋白; 锈定蛋自分为i 旨锤定秘g p i 锚定蛋白。鉴予膜蛋鑫静难分离、难缀晶戆特焱, 对膜蛋白类溅的理论预测脊助于人们了解其生物功能,对实验有一定盼指蹲意 义。 锚定蛋妇通常只与磷l 誓层的一铡相连并,廷在翻起作粥。由于对蛋自疆一磷 脂的相互捧耀知之甚少( 7 ) ,如果能够在联论上预测膜蛋| 冬的类型,对于深入 了解膜蛋白与磷脂的相互作用和功能会有很大帮助。 粤 天津大学硕士学位论文 近年来提出了许多拓扑结构预测的方法,其中最成功的算法,如t m i 删和 h m m t o p 等( 8 - 1 0 ) ,取得了很高的准确率,但很少有涉及锚定蛋白的。由于跨膜 蛋白有一个或多个疏水区,因此能够相对容易地区分开( 1 1 ) 。而由于锚定蛋白 在n 端或c 端有保守序列,因此在定程度上也能区分开。可以说,膜蛋白的 一级序列中包含着它和磷脂层如何相互作用的信息。 l o 天津大学磺士学拉论文 第二章虽臼凄二缓结构含量预测 本文所用数据库为c b 3 9 6 。该数据库包蠢3 9 6 个萤白质家族的序列,并殿每个 豸族有一个代表序列。 2 1 多元线性回归 2 1 1 辣法描述 我们假设个蛋白质的q 一螺旋和一折叠的含量由下列函数给出 g = f 魄,茗2 ,茗。) 卢= g ( y ,。y 2 ,y 。) 2 - t 3 2 - 2 其中而和 可以燕蛋白质的任意的统计特征量。爨基酸缀成是反映蛋白质的最 鏊零豹参数,一般的模墼舔会采溪,在鼗基础土薅班壤攘其它毒效豹参数,絮 疏水值自相关函数,残基对的频攀,甚至三残基的频率或者其它的物理化学参 数。在对其进行泰勒展开艏,只保留线性项。于越有 口= 口。+ 叩 卢= b o + 岛y , 2 - 3 2 - 4 其中a ,a o l 2 ,n ) 和岛o = 0 , 1 2 ,m ) 燕待定酶系数,将由诩练库中褥溅。为 确定这些系数,炙设定耳拣函数强下: “ 幺= + 色z “) 一坟,。】2 m 岛= l 汽+ b i y k ,) 一岛,;】2 2 - 5 2 - 6 3 其中坟,。_ 和d p , 分别是d s s p 方法( 1 2 ) 计算出的第k 个蛋囱质的口螺旋和折叠 片含量。n 为训练库中序列的个数,在本文中为3 9 6 。在确定系数时应该使目标 戮鼗达至i 缀,j 、值。稽应逡,我程露 天律大学硕士学位论文 罢墼:o ,f 姐l 厶 2 - 7 c 杖。 等= ” 剐 z ,棚陪s , 由此我们能够得出唯一的一组待定系数的解。 本文将残基对的频率、氨基酸组成以及它们之间相乘所得的非线性项作为特选 的参数。在诗算出3 9 6 个謦剜或家族韵这照参数后,再谤舞出它们与二级络掏 含量之间的相关系数,即找出与二级结构含量有较为明显的线性关系的参数。 取出相关系数绝对值排在前面的参数,用它们来预测蛋白质的二缀结构含蠡。 这就是整个变量筛选的过程。 整个预测过程如图2 1 所示。 本文所用的待选变量:计算3 9 6 个序列或家族 蘸基酸维成( 2 0 令) ;妻孽= 缀篓擒含量:求出嚣藿 对于每一个变量 它们之问的乘积( 4 0 0 个) ;面每一个变擞与之的相 计算如3 9 6 个数值 最近邻的簸基对的频率( 4 0 0 个) ;关系数,并按照绝对值的 次近邻的残基对的频率( 4 0 0 个) ;l大小排序。 根据实际情况,按照相关 多元线性阐归确定待定 。对结果进行分析,计算平 , 系数的篼对值从大到小, 系数的值,带入每个 均误差和标准傣麓。 选出一定数目的参数。待预测的序列的各项参数值 斗管山古4 7 1 的一婚蛄协全吾 图2 1 用多元线牲回归方法预灏爨自质二级结搀禽霪豹流程图 天津大学硕士学位论文 2 1 2 算法评价 本文用两个参数来评价预测结果: ;= k d k n 【2 - 9 】 盯= ( ( 善c ;一l 一4 i ,2 h 一- , “2 c z - 。, 其中;表示平均误差,盯表示标准偏差;五代表由我们的方法预测出的第k 个蛋 白质的二级结构含量,皿则代表由d s s p 方法计算出的第k 个蛋白质的二级结构 含量。 2 2 结果和讨论 由于自检验中的训练库和检验库是同一数据库,在筛选变量时,变量越多, 越接近数据库中蛋白质的个数,效果越好;如果令变量的个数和待预测的蛋白 质的个数相同,即为3 9 6 ,那么将出现1 0 0 的准确率,而这对于判定预测效果 是没有太大实际意义的。因此,本文只进行了它检验( j a c k k n i f e 检验) 。 考虑到二级结构的形成是一个残基之间各种力相互作用的复杂过程,本文除 采用氨基酸组成作为参数外,还将它们之间的乘积、氨基酸残基对的出现频率 作为参数。考虑到预测a 一螺旋和b 一折叠的方法相同,并且相互关联,本文只 天津大学硕士学位论文 对n 一螺旋的含量进行了预测,在筛选变量之后,有2 4 个变量入选。按照与含 量的相关系数的绝对值大小排列,它们分别是以下变量:l ,l x x x x y ,l d , l o k ,v o s ,l o i ,l x d ,v o r ,s o f ,t 圆f ,t 圆n ,l x x k ,s o n ,p o f , q p k ,m o k ,l x x x k ,v 0 f ,v 0 n ,e ,a x k ,k ,a x x x x k ,m 。其中 x 表示任意的残基,其它字母则对应特定的氨基酸残基,由附录中的氨基酸代码 表给出;l 表示l 出现的频率:l x d 表示l 和d 之间相隔一个残基的残基对l d 的频率;l o d 则表示l 和d 出现的频率相乘。可以看出,有关赖氨酸和亮氨 酸的频率与a 一螺旋的含量似乎有较强的线性关系。 用数据库中每个家族的代表序列作检验,结果为平均误差e = 0 1 1 2 ,标准偏差 o r = 0 0 9 3 。平均误差随回归模型中的变量数目的变化如图2 2 所示。如果将整 个家族中每一条序列的各种参数进行算术平均后作为参数,结果为平均误差 e = 0 1 0 3 ,标准偏差仃= o 0 8 3 。具体结果列在表2 1 中。 如果采用2 0 种氨基酸组成和疏水值自相关函数作为参数,则当取9 个自相关 函数时会得到最好的结果:平均误差e = 0 1 1 7 ,标准偏差盯= 0 1 1 0 。 可以看出,本文所得结果相对于疏水值自相关函数的方法并没有太大的提高。 问题的关键在于我们并没有找到真正支配二级结构形成的规律,而只是简单地 用线性关系来拟合,许多非线性项也许起到至关重要的作用,在多元线性回归 方法中却被忽略。该问题的解决有赖于数据的进一步积累,对蛋白质二级结构 的深入理解。 采用更加有效恰当的算法从序列中提取蛋白质的物理化学特性以及局部特征, 将会使准确率有所提高。如果平均误差能将到0 0 5 以下,我们认为是比较理想 的结果,这时理论预测的结果就能与光谱学实验所得结果具有可比性,可以为 更有效地进行实验提供可靠的理论指导。 1 4 天津大学硕士学位论文 o 1 1 8 0 1 1 7 0 1 1 6 o :0 t 1 5 磊0 1 1 4 0 1 1 3 0 1 1 2 1 41 6侣2 0笠2 4萄2 83 03 c 2 n u n b e ro f - i a b l e s 图2 2平均误差随回归模型中的变量个数的变化 1 5 天津太学硕士学位论文 表2 1a 一螺旋的观测值与预测值 c o d e o b s e r v e d p r e d i c t e d 1 5 4 1 1 - a u t o 10 4 9 1 9 0 3 7 5 6 l a a z b - l - d o m a k0 3 7 3 50 4 1 2 9 l a d d - 1 a s0 3 4 4 80 3 3 9 1 l a d c b 2 a u t o 10 4 5 2 70 3 2 5 8 1 a h b - 2 g j b0 6 0 0 0o 6 0 0 7 l a l k b - 1 a s0 3 7 3 1 0 2 2 3 0 l a m g - 2 - a s 0 2 8 9 5o 3 0 9 日 l a m p 1 a s o 0 0 0 0o 0 0 8 l i a o r b 1 a s0 3 5 4 0 0 3 3 4 7 l a o r b 3 a s o 2 3 2 20 2 7 8 0 i a o z b 1 一a s0 4 5 4 1o 3 8 8 1 l a o z b - 2 a s0 0 0 0 0o 0 9 9 4 l a o z b - 3 a s0 0 9 2 2o 1 6 4 7 l a s w 1 a u t o 1o 1 0 1 90 2 2 3 2 l a t p i - i - d o m a k o 3 7 8 40 2 2 2 6 l a v h b - 3 a so 3 0 0 00 1 3 2 5 l a v h b - 4 - a s0 6 3 9 50 6 2 3 5 l a y a b - 1 - - g j b 0 6 8 9 20 5 4 2 2 1 b a r n - 1 a s0 1 9 8 00 2 2 2 0 l b c x 1 d o m a k0 3 6 5 00 3 3 9 0 l b d o - 1 a so 0 5 4 1 _ o 0 1 0 0 l b e t - l - d o m a k0 0 0 0 0o 0 1 3 l i b f g - i - d o m a k o 0 0 0 00 2 2 6 8 l b n c b - 1 a so 0 0 0 00 2 3 9 6 i b n c b - 3 a s0 4 1 2 30 4 3 4 4 i b n c b - 4 - a s0 3 5 2 90 5 3 2 9 l b o v b - l - d o m a k0 2 8 8 10 4 1 5 7 1 b p h a - 1 - d o m a k 0 1 8 8 4o 1 8 5 2 l b r s c 1 d o m a k0 4 7 6 20 4 1 3 2 i b s d b 1 - d o m a k0 4 8 8 40 5 3 7 0 l c b g i - a s o 1 9 6 30 0 7 2 9 l c d l g - 1 - d o m a k o 3 9 1 80 3 7 9 1 1 c e i 一1 g j b0 8 0 0 00 5 7 5 7 l c c i b _ 1 一a u t o 10 5 4 1 2o 1 8 7 0 l c c m - 1 g j b0 1 0 8 50 1 4 1 7 l o - 2 a u r o 10 4 6 2 8 0 _ 3 1 6 4 l c 2 w i 1 d o m a k0 3 2 0 8 o 3 9 0 4 1 c f o 1 a s0 2 0 3 70 2 9 6 8 l c f r - 1 g j bo 0 0 0 00 0 0 3 3 i c g u - 2 g j b 0 4 5 5 80 3 8 7 8 i c g u - 3 - g j b 0 0 5 20 0 5 5 8 l c g u - 4 - g j b 0 0 0 0 00 0 6 9 4 i c h b e 一1 - d o m a ko o 0 0 0- o 0 7 8 9 l c h d 1 a so 2 4 2 70 5 4 4 9 1 c h k b - 2 - a u t d 1o 2 8 7 90 2 9 7 9 1 c h m b l d o 【a k0 4 6 3 20 3 0 6 7 i c k s c - i a l r r o 10 3 7 4 20 4 3 5 4 l c l c 1 a s 10 1 4 1 00 3 2 3 1 l c l e 2 a s 1o 0 0 0 00 1 7 7 6 l c l c ,3 a s 1o 4 2 2 6o 3 1 1 8 i c n s b 1 a u t o 10 4 7 0 00 3 2 5 6 1 c o i 一1 _ a so 4 1 5 60 2 6 2 4 i c o i b i d o 呲0 8 6 2 l0 7 1 0 1 i c o m c 1 - d o m a k0 7 4 6 20 4 2 8 8 l e p e l - i - d o m a k 0 1 5 9 70 2 9 7 7 l c p n - i - d o m a k 0 7 2 1 40 3 1 7 0 i c q a - l - a u t o i o 0 1 9 20 1 8 6 5 l c s m b - 1 - a u i d 1o 3 0 8 90 1 9 9 2 l e t f - 1 - d o m a k0 5 8 7 30 1 7 7 4 l c t h b l - d o m a ko 5 1 4 7o 5 1 7 6 i c t m - 2 d o m a k0 2 9 1 10 1 9 7 6 l c m 1 a s 10 0 0 0 00 1 4 9 4 i c m 3 a s 1o 0 3 6 7o 1 1 6 6 1 c t l l 1 - a l r r o 10 0 9 5 9o 0 0 7 6 l c t u - 2 - a u i d 1o 3 5 3 70 4 5 5 0 l c x s a 4 - a u t o 10 2 5 3 80 5 2 4 5 i c y x - i - a u t o i , 0 0 4 4 30 1 3 7 0 i d a a b 1 a s0 1 6 4 60 2 0 1 6 i d a a b - 2 a s0 2 7 7 3o 1 5 1 9 1 d a r - 3 a s0 2 9 7 50 3 2 6 3 d e i b 2 a u t o 1o 0 0 0 00 1 2 3 3 d t i - 1 - a u t o 1 0 5 3 7 80 5 7 5 3 l d f n b 一1 一d o h 眦o 4 1 4 50 4 6 9 9 1d i h _ 2 a s0 0 0 0 0o 1 6 1 9 d i k 一1 a s 1o 2 7 2 70 2 3 8 9 d i k - 2 a s 1o 5 0 2 lo 2 7 0 2 d i k - 3 a s 10 3 4 6 20 4 9 0 9 l d i k - 4 a s 10 1 8 7 50 2 3 9 7 1 6 查星奎兰婴主堂焦丝兰 d i n l a s0 5 5 3 7 0 4 3 0 3 d k z a 1j a c0 3 3 6 20 4 3 0 4 d l c 1 a s 10 3 8 6 0 0 3 9 9 7 1 d l c 3 a s 1 0 7 3 3 60 4 3 8 5 l d r q , b 1 - a u t o 1 0 0 4 5 70 0 9 6 8 l d n p b - 2 - a u t o 1 0 4 5 3 3o 3 9 0 0 l d p g b i - a u t o 1 0 5 2 7 8o 3 2 9 2 l d p g b - 2 一a u t o 1 0 4 1 8 10 5 9 3 6 l d s b b 2 - a u t o 10 3 1 1 70 3 5 9 8 d 虹1 _ a u t 0 】o 7 5 0 00 2 9 7 3 d u p a - 1 - a s 0 3 6 8 20 4 0 8 2 l d y n b - 1 - a u t o 1 o 0 5 1 5o 1 5 4 4 l e e e b - i a u t o 10 1 0 6 20 3 6 1 8 l e c l - l a so 2 4 0 2 o 1 0 0 2 l e c l - 4 a s 0 4 0 2 90 2 4 7 8 l e e p f - l - a u t o 1 0 4 7 8 60 3 9 1 7 l e x k l - i d o m a k0 3 4 6 00 2 9 8 2 i n l c - 1 - a u t o 10 3 4 5 20 4 2 9 3 l e d n 1 a so 0 0 0 0- 0 0 1 5 5 1 e f i - 3 - d o m a ko o 0 0 00 0 3 3 0 l e f u d - 2 a u m 1o 0 0 0 0- o 0 3 8 5 l e p b b 1 - d o m a k 0 6 2 9 20 3 5 8 7 l e s e - i “啪10 1 4 8 40 3 0 2 6 l e s l 1 - ( h b0 3 2 1 20 2 8 2 0 1 c u u - 2 - j a c0 1 7 5 0o 4 8 5 4 i t b a b - i d o m a ko 0 0 0 0o 0 2 5 l l f b l - l a s0 4 2 2 20 4 0 2 0 l f d i - i a s0 2 2 2 90 1 0 8 2 l f i n d - 1 a u t o 10 4 8 4 20 3 5 4 9 l f i n d - 2 - a u t o 10 6 5 4 4o 5 3 1 1 6 ,b - 2 a s 0 6 0 6 60 5 2 1 4 f u a - 1 - a u t o 10 4 5 0 50 5 7 0 7 如q b 一1 一a u t o 1 0 3 8 3 50 4 3 9 0 i f u q b - 2 - a u t o 1 0 4 5 5 90 5 3 9 1 i f u q b 一3 - a u t o 1 0 6 3 2 00 5 2 6 3 l g a l 2 a s 0 6 5 1 50 7 1 6 0 g a l - 3 一a s 0 3 1 0 30 2 2 2 9 1 9 e b - 2 - a s 0 3 6 0 20 5 0 3 9 g c m c 1 - a u t o 1 0 5 5 8 80 4 7 6 0 g e p - 2 - a s 0 8 4 8 5 0 7 7 3 3 l g 印- 3 - a s 0 2 7 9 3 0 2 0 1 2 i g f l b - 1 - a s 0 3 1 7 60 3 7 6 5 l g h s b 1 g j b o 0 1 7 5o 0 6 9 8 i g k y - 2 - a s 0 3 3 0 10 2 9 0 3 1 9 i n - 2 - a s 0 2 0 0 co 1 0 2 0 l g i n - 3 - a s 0 2 7 5 90 2 3 2 5 i g i n - 4 - a s 0 5 8 3 30 6 0 5 2 1 9 m p b - 1 - d o m a k 0 7 0 4 lo 7 0 3 2 1 9 r i d - 2 - j a c 0 1 1 4 60 1 3 2 5 l g o g 一1 - a s 1 0 5 2 5 80 4 3 1 5 l g o g - 2 - a s ,1 0 0 0 0 0o 2 0 d 3 l g o g - 3 - a s 1 0 0 1 0 3o 0 2 0 7 i g p 2 a - 1 - a u t o 1 0 0 0 0 00 0 3 2 8 l g p 2 9 - 2 - a s 0 7 1 4 30 5 8 0 3 i g p c - l - a s o 0 0 0 00 2 7 1 3 1 9 p m d - 4 - a s 0 2 2 0 20 1 8 8 5 l g p m d - 5 - a s o 1 7 9 60 3 5 1 1 l g 巧- l - a s 0 5 0 0 00 4 7 9 7 i g r j - 2 - a s 0 7 4 3 20 6 1 1 5 i g l a n c - 2 - a u t o 10 0 7 7 9 0 1 8 6 1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论