




已阅读5页,还剩46页未读, 继续免费阅读
(遗传学专业论文)蛋白质相互作用规律及预测方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
幻 - 作者: 一塑 指导教师: 协助指导教师: 綮禄教授 单位: 内蒙古科技大学 论文提交日期:2 0 10 年0 5 月l5 日 学位授予单位:内蒙古科技大学 单位: 单位: 限一 b 一 l 血 i 乒 j j 独创性说明 本人郑重声明:所呈交的论文是我个人在导师指导下进行的研究工 作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得 内蒙古科技大学或其他教育机构的学位或证书所使用过的材料。与我一 同工作的同志对本研究所做的任何贡献均己在论文中做了明确的说明并 表示了谢意。 签名:日期:如f o 。多。,y 。 关于论文使用授权的说明 本人完全了解内蒙占科技大学有关保留、使用学位论文的规定, 即:学校有权保留送交论文的复印件,允许论文被套阅和借阅;学校可 以公布论文的伞部或部分内容,可以采用影印、缩印或其他复制手段保 存论文。 签名: ( 保密的论文在解密后应遵循此规定) 导师躲纛齐办嘞- - i 。7 提取其为特征,利用支持向量机构建了预测模型。该预测模型得到较有意义的预测 效果,整体预测准确率、敏感度、相关系数分别达到6 4 s 2 、6 6 8 7 和0 2 9 1 。 在蛋白质一蛋白质相互作用预测工作中,蛋白质结构数据及区域位置信息都用 来构建模型。同样利用支持向量机,以酿酒酵母为对象的蛋白质相瓦作用预测模型 的整体准确率高达8 8 0 1 ,相关系数达到0 7 6 1 。本工作构建的蛋白质相互作用预 测模型及相关数据集提供在线获取。( h t t p :i b t i m u s t c n p p i p h t m l ) 关键词:蛋白质相互作用;相对倾向性:结构类;二级结构;支持向量机 内蒙古科技大学硕士学位论文 a b s t r a c t a st h em a i nw a yo ff u n c t i o ne x e c u t i o no fp r o t e i n s ,p r o t e i n - p r o t e i ni n t e r a c t i o n s ( p p i s ) p l a yc r u c i a lr o l e si nav a r i e t yo fb i o l o g i c a lp r o c e s s e s o n eo ft h em o s ti m p o r t a n tt a s k si n r e s e n tb i o l o g yr e s e a r c h e si st o e x p l o r et h em e c h a n i s mo fp p ia n dd i s t i n g u i s hw h e t h e r p a r t i c u l a rp r o t e i n sc o u l di n t e r a c t 、析t 1 1e a c ho t h e r i ti so fp r a c t i c a ls i g n i f i c a n c et os t u d yo nt h e l a wo fp p ib a s e do nt h es u b - c e l l u l a ra n ds t r u c t u r a li n f o r m a t i o no fp r o t e i n s ,a sw e l la st o c o n s t r u c tp r e d i c t i o nm o d e l b yd e f i n i n gap a r a m e t e rd e s c r i b i n gp r o t e i n - p r o t e i ni n t e r a c t i o nr e l a t i v eb i a s ( p i r b ) , t h el a wo fp r o t e i ni n t e r a c t i o nb e t w e e no rw i t h i no r g a n e l l e s ,m e m b r a n e so fy e a s tc e l la n d d i f f e r e n tc l a s s e sf o rs c e r e v i s i a e 。c e l e g a n sa n de c o l iw a si n v e s t i g a t e db a s e do nt h e d a t a b a s eo fi n t e r a c t i n gp r o t e i n ( d i p ) ,g e n eo n t o l o g y ( g o ) ,s t r u c t u r a lc l a s s i f i c a t i o no f p r o t e i n s ( s c o p ) a n dr e l a t e dd a t a b a s e ss u c ha ss w i s s - p r o t t h er e s u l t si n d i c a t et h a tt h e r e e x i s t so b v i o u sb i a so fp r o t e i n - p r o t e i ni n t e r a c t i o nb e t w e e no rw i t h i nd i f f e r e n to r g a n e l l e s , m e m b r a n e sa n dp r o t e i n ss t r u c t u r a lc l a s s e s 1 1 1 eb i o l o g i c a li m p l i c a t i o na n dt h el a wo fp p l w e r ed i s c u s s e di nt h i sw o r k t h e r ei ss t r o n gr e l a t i o n s h i pb e t w e e np p ia n dt h es t r u c t u r ei n f o r m a t i o no f p r o t e i n i nt h i s w o r k ,s e c o n d a r ys t r u c t u r ed a t ai su s e da sf e a t u r ei nt h ep r e d i c t i o no fp p ia n dp r o t e i ns u b u n i t s i n t e r a c t i o n i nt h ew o r ko fs u b u n i t s b i n d i n gi n t e r a c t i o np r e d i c t i o n ,t h ei n f o r m a t i o no f p r o t e i n ss e c o n d a r ya n ds u p e r - s e c o n d a r ys t r u c t u r ew a sa n a l y z e da n du s e dt o c o n s t r u c t p r e d i c t i n gm o d e l sb yu s i n gs u p p o r tv e c t o rm a c h i n e ( s v m ) t h i sm o d e la c h i e v e da s i g n i f i c a n tp e r f o r m a n c ew i t ht o t a la c c u r a c yo f6 4 5 2 ,s e n s i t i v i t yo f6 6 8 7 a n dc o r r e l a t i o n c o e 衢c i e n to f 0 2 9 1 i nt h ew o r ko fp p ip r e d i c t i o n ,b o t ht h es t r u c t u r a ld a t aa n di t sr e l a t e dr e g i o n a ll o c a t i o n a r ec o n s i d e r e di nm o d e lc o n s t r u c t i o n 1 h ep r e d i c t i n gm o d e lw h i c hi sc o n s t r u c t e db yu s i n g s v ma sw e l lg a i n e df lh i g ha c c u r a c yo f8 8 0 1 a n dt h ec o r r e l a t i o nc o e f f i c i e n ti s0 7 6 1w h e n i tw a sa p p l i e dt osc e r e v i s i a e 1 1 1 ep r e d i c t i o ns o f t w a r ea n da l ld a t as e t su s e di np p i p r e d i c t i o na r ef r e e l ya v a i l a b l ea th t t p :i b t i m u s t c n p p i p h t r n l k e yw o r d s :p r o t e i n p r o t e i ni n t e r a c t i o n ;r e l a t i v eb i a s ;s t r u c t u r a lc l a s s e s ;s e c o n d a r y s t r u c t u r e ;s u p p o r tv e c t o rm a c h i n e r 内蒙古科技大学硕士学位论文 目录 摘要:i a b s t r a c t i i 弓i言1 1 文献综述2 1 1 蛋白质相互作用研究背景2 1 2 蛋白质相互作用研究实验方法4 1 2 1 免疫共沉淀方法4 1 2 2 酵母双杂交系统。4 l 。2 3 噬菌体展示技术5 1 2 4 蛋白质亲和色谱5 1 2 5 蛋白质探针技术5 1 3 蛋白质相互作用研究的生物信息学方法6 1 3 1 系统发育谱6 1 3 2 基因邻接7 1 3 3 基因融合事件7 1 3 4 镜像树8 1 3 5 数据挖掘与机器学习方法及预测8 1 4 蛋白质相互作用相关资源与数据库9 1 4 1g o 基因本体数据库。9 1 4 2s c o p 蛋白质结构分类数据库1 1 1 4 3p d b s u m 数据库1 l 1 4 4 蛋白质相互作用数据库1 2 2 基于亚细胞定位与结构信息的蛋白质相互作用规律的研究1 7 2 1 数据获得与处理1 7 2 2 蛋白质相互作用相对倾向性因子p i r b 的定义1 8 2 3 蛋白质相互作用统计分析及p i r b 计算19 2 3 1 基于g o 亚细胞定位信息对酿酒酵母的细胞器p p i 规律的统计分析。1 9 2 3 2 基于s c o p 数据库的蛋白质结构分类对p p i 规律的统计分析2 0 2 4 蛋白质相互作用规律及生物学意义2 2 2 5 本章小节2 5 3 基于二级结构预测蛋白质复合体亚基相互作用2 6 3 1 数据来源及其数据集的构建2 6 3 2 支持向量机介绍2 7 3 3 蛋白质亚基间相互作用统计分析及预测模型构建2 8 3 3 1 蛋白质链作用区域二级结构及超二级结构类型的分布统计2 8 内蒙古科技大学硕士学位论文 3 3 2 蛋白质亚基相互作用区配对类型的分布统计2 8 3 3 3 蛋白质序列打分与预测模型的构建2 9 3 4 预测结果评价标准2 9 3 5 结果与讨论3 0 3 5 1 各类型分布比例及相对倾向值统计3 0 3 5 2 蛋白质亚基相互作用预测结果与评价3 1 4 基于二级结构蛋白质相互作用预测3 3 4 1 数据集构建3 3 4 1 1 数据来源及正数据集构建3 3 4 1 2 负数据集构建3 3 4 2 蛋白质相互作用特征值提取及预测模型构建3 4 4 3 预测结果与评价3 6 4 3 1 模型预测结果3 6 4 3 2 负集构建策略对预测效果的影响讨论3 6 4 4 本章小节3 7 结论3 8 参考文献。3 9 在学研究成果4 3 致谢4 z i 一 内蒙古科技大学硕士学位论文 引言 在后基因组时代,对蛋白质组的研究越来越受到人们的重视。作为蛋白质行使功能 的重要方式,蛋白质一蛋白质相互作用( p r o t e i n - p r o t e i ni n t e r a c t i o n ,p p i ) 成为蛋白质组 学中重要的研究课题之一。蛋白质相互作用参加众多重要的生命过程,包括d n a 复 制、转录、翻译、信号传导与表达调控、物质代谢以及细胞周期控制等。大规模蛋白质 相互作用的研究也有助于深入理解细胞中不同生命活动之间的相互关系。理解蛋白质生 物功能的一个重要环节就是识别与其相互作用的蛋白质或者配体,蛋白质亚基的结合及 其结构变化是蛋白质整体行使其功能的一种重要途径。 研究蛋白质问相互作用的传统实验方法已有很多,如酵母双杂交系统、免疫共沉淀 方法、噬菌体展示技术等。然而这些方法有着费时、人力物力消耗大等不利因素。另一 方面,生物学数据量增长速度极快,传统分析方法难以获得全面的生物信息。因此,利 用计算机为工具对生物信息的获取、加工、储存、分配、分析和释读的生物信息学研究 应运而生。从生物信息学角度出发,结合数据挖掘理论,研究蛋白质相互作用的规律进 而构建理论模型对其进行预测,具有十分重要的生物学价值与现实意义。 蛋白质的一个重要特性是蛋白质分布在细胞的不同部位,它们的功能与其空间定位 密切相关。细胞中蛋白质合成后被转运到特定的细胞器中,只有转运到正确的部位才能 参与细胞的各种生命活动,如果定位发生偏差,将会对细胞功能甚至生命过程产生重大 影响。因此,研究蛋白质及其相互作用的定位与其作用强度,对研究亚细胞组分之间的 功能关系有重要作用。蛋白质的另外一个重要特性是其具有不同类型的空间结构,其结 构特征与蛋白质相互作用有着密七u 的关系。蛋白质二级结构是其空i 日j 结构中最简单的彤 式,研究其结构类信息与蛋白质相互作用的关系及影响,能够为进一步理解蛋白质的功 能行使的方式提供帮助。在此基础上,依据蛋白质结构信息,提取蛋白质及其相互作用 对的特征,构建理论模型,预测给定或未知的蛋白质问能否发生相互作用,并进一步研 究其规律,具有重要的理论指导j 实际意义。尽管已有研究者通过不同方法、依据不同 信息构建了蛋白质相互作用预测模型,但研究蛋白质二级结构、结构类与相瓦作用的关 系,及以此构建预测模型的工作还很少。 依据上述蛋白质生物学特征,从蛋白质结构类型、亚细胞定位信息等角度对蛋白质 类型问的相互作用进行统计分析,可以得到不同蛋白质类型间的作用规律。另一方面, 通过提取蛋白质的二级结构及超二级结构信息,使用机器学习算法,构建理论模型对蛋 白质相互作用进行预测,可以取得较高的预测效果。 内蒙古科技大学硕十学位论文 1 文献综述 随着人类基因组计划的实施和推进,生命科学的研究已进入了一个崭新的研究时 代后基因组时代,人类基因组测序的完成标志着这个时代的来临。生物科学研究的 重点已经集中于功能基因组学上。蛋白质和核酸是组成生命的主要生物大分子,它们各 自具有其结构特征和特定功能。核酸具有储存、传递遗传信息的功能;蛋白质则贯穿生 命的所有生理过程。宏观上,两者的配合与作用构成诸如生长、繁殖、运动、遗传和代 谢等生命现象的基础。进入2 1 世纪以后,人们逐渐将关注的焦点放到蛋白质的研究 上。随着系统生物学实验的迅速发展,大量的蛋白质组学及其相互作用数据随之产生。 利用此类数据寻找功能模块及预测蛋白质功能在功能基因组学研究中具有重要意义l 。 长期以来,生物学研究一直侧重于对单个蛋白质的研究,只研究蛋白质个体的特征即能 够和其发生相互作用的其它蛋白质。现面临的一个问题是如何将这些已研究过的基于单 体的实验信息整合起来,以更为系统和全面的眼光来看待生物体内在分子水平上的相互 作用及其调控路径,研究其规律1 2 1 。另外,由于生物数据量增长得非常快,如何有效地 管理和利用这些海量的数据,并从中挖掘出有用的生物信息,也是人类在探索生命奥秘 的征途上面临的一个重要问题。 生物信息学( b i o i n f o r m a t i c s ) 综合运用了数学、计算机科学和生物学工具,以达到 理解数据中的生物学含义的目标【3 】。生物信息学是- f l 以分子生物学数据库为主要对 象,以数学技术和计算机技术为主要手段,以计算机、应用软件和计算机网络为主要工 具,通过对海量的原始序列数抛进行收集、存储、管理、分析、注释、加_ l 和处理的新 兴交叉学科【4 1 0 其研究鼋点是基因组学( g e n o m i c s ) 和蛋白质组学( p r o t e o m i c s ) 。近 年来,生物信息学无论从认识水平上还是从实践水平上都丌创了一种崭新的模式。生物 信息学技术已经成为最有发展前途的高技术,而生物信息学也已经成为最吸引人的信息 学科5 1 。 1 1 蛋白质相互作用研究背景 基因组计划完成之后,d n a 的测序研究工作已经告一段落,d n a 的各级结构、类 型、组成及其碱基对的连接次序已经研究清楚。随后,蛋白质组的研究蓬勃兴起。蛋白 质相互作用几乎参与了所有的q 三命活动。从遗传物质的复制、基因的表达调控到细胞的 代谢过程、细胞的信号传导,以及细胞与细胞之间的信号通讯,生物体的形态形成、病 原微生物的致病机制、宿主对病源微生物的免疫等,蛋白质相互作用都在其中扮演着重 要角色。 生物体内各种生命信息由不同的基因,经由转录翻译传递到相应的蛋白质上,并使 内蒙古科技大学硕十学位论文 其具有各自的生物化学特性及活性。但是,每个蛋白质并不是独立的在细胞中完成被赋 予的功能,它们在细胞中通常与其它蛋白质相互作用形成较大的复合体,在特定的时间 和空间内完成特定的功能。而且,有些蛋白质的功能只有在复合体形成后,才能发挥出 来,例如依赖于构象变化或翻译后修的蛋白质功能等。另一方面,某些蛋白质可能不止 参与一个的复合体。简单的两两相互作用研究不足以阐明这种更为复杂的相互作用。因 此,大规模、高通量的蛋白质相互作用研究便应运而生,其目的是在细胞的特定生理条 件下,从单个蛋白到多个蛋白,从单个复合体到多个复合体,进而描绘出整个蛋白质组 中蛋白质问相互作用的网络图。基于这些作用关系与规律,人们才能从真正意义上阐明 一个蛋白质的功能,才有可能研究细胞中某一生理活动中所有相关蛋白质的变化及作用 机制【6 1 。另外,大规模蛋白质相互作用的研究也有助于了解细胞中不同生命活动之间的 相互关系。蛋白质相互作用决定着从转录调节到酶链反应的几乎所有的生物功能,这方 面的研究具有重要的科学价值和应用前景。 蛋白质相互作用的形式之一是二元作用,它可以定义为两个有关的亚单元组成一个 蛋白一蛋白复合物。这是一种有效而灵活的调节机制,能产生多种的物理学和生理学结 果。发生二元作用的蛋白质空间上彼此接近,可使它们发生相互作用,还能使底物与酶 的活性位点以更加适合催化作用的方位相互结合,这就增加了其反应速度。通过异源二 元方式的差示调节,起着正、负性调节的作用,还能使这些相互作用的专一性发生变化 川 。 蛋白质相互作用研究进一步揭示了生命的本质,涌现出一些重大科研成果。近些年 来,多个诺贝尔牛珊学奖与蛋自质桐瓦作用研究有关。女h :1 9 9 2 年的e d m o n df i s c h e r 和 e d w i nk r e b s ,1 9 9 4 年度的a l f r e dg g i l m a n 和m a r t i nr o d b e l l ,19 9 9 年度的g i i n t e r 及 2 0 0 0 年的卡尔森、格林加德、坎德尔等。因为他们发现细胞信息传导通路中,涉及可 逆性的蛋白质磷酸化,或涉及其它蛋白质相互作用而产生自身调节机制等分别获得诺贝 尔生理学奖。 蛋白质及其相互作用研究在实际应用方面也显示良好的前景。例如,对于任何一种 疾病,在可见的症状发生之自订,肯定已经有某些蛋白质及其相互作用发生了变化,如果 能够测知这些蛋白质及其相互作用的变化,就有可能在最早阶段做出疾病的诊断。如果 能开发出临床诊断的一种全新技术路线,必将给人民健康和国民经济带来重大的利益。 另外,蛋白质相互作用的晶体结构研究。也为丌发抗癌新药奠定了基础。研究者们已鉴 别出两个细胞蚩r 1 质的三维晶状结构,当这两种蛋白质结合在一起时在触发癌细胞扩散 过程中起重要作用。总而言之,蛋白质相互作用的研究不仅具有更深层次认识生命活动 本身的意义,并且对于人类某些疾病的高效诊断也提供了可能和帮助。对医药科学研 究,尤其是药物研制及找到该靶点药物提供新的思路,具有十分重要参考价倒剐。 内蒙古科技大学硕十学位论文 1 2 蛋白质相互作用研究实验方法 1 2 1 免疫共沉淀方法 免疫共沉淀( i n m u n o p r e c i p i t a t i o n ) 是以抗体和抗原之间的专一性作用为基础的用于 研究蛋白质相互作用的经典方法。当细胞在非变性条件下被裂解时,完整细胞内存在的 许多蛋白质间的相互作用被保留了下来。该方法中,相互作用的蛋白质都是经翻译后修 饰的,处于天然状态,且蛋白质的相互作用是在自然状态下进行的,可以分离得到天然 状态的相互作用蛋白质复合物,避免人为的影响【9 j 。但是,免疫共沉淀实验不能保证沉 淀的蛋白质复合物是否为直接相互作用的两种蛋白质。 1 2 2 酵母双杂交系统 酵母双杂交系统( y e a s tt w o h y b r i ds y s t e m ) 是由f i e l d s 等于1 9 8 9 年提出的,基于 真核细胞转录因子的结构特性的一种实验方法。这些转录因子通常由两个或两个以上相 互独立的结构域组成,分别为d n a 结合域( d b ) 和转录激活域( a d ) ,只有当两种结 构域共同作用时j 。能使转录正常进行,来自不同转录激活因子的两种结构域也能使转录 正常进行。利用这种特性,可以分别使d b 与a d 同“诱饵”蛋白质( x ) 和“猎物”蛋白 质( y ) 形成融合蛋白质,并存真核细胞中同时表达。如果两种蛋白质可以发牛相互作 用,就能使d b 与a d 在空间上充分接近,从而激活报告基因的转录i l0 1 。但是,并非所 有蛋白质i 日j 的相互作用都适合用酵母双杂交系统检测。有些蛋白质本身具有转录启动功 能,仅其单独存在就能“自激活”报告基冈的表达,造成所谓的“假阳性”。 p r o m o t e r r e p o r t e rg e n e 图1 1 酵母双杂交系统原理示意图 l i o n m e r y 一 , 内蒙古科技大学硕+ 学位论文 1 2 3 噬菌体展示技术 噬菌体展示技术( p h a g ed i s p l a y ) 是将表达多肽的基因与噬菌体表面蛋白质的编码 基因融合后,以融合蛋白质的形式表达在噬菌体表面的一种方法,最常用的表达系统是 m 1 3 噬菌体。将c d n a 文库插入噬菌体载体进行表达后,得到噬菌体展示库。为了得 到与“诱饵”蛋白质相作用的“猎物 蛋白质,可将该展示库与固定化的“诱饵”蛋白 质相互作用,则“猎物”蛋白质被吸附下来,被吸附的重组噬菌体可经由再感染而扩 增,从而得到“猎物”蛋白质的插入基因【1 1 1 。目前,噬菌体展示技术已成为研究分子间 相互作用、找寻新抗体、研究开发新药的极为有用的方法。噬菌体展示技术可以构建大 规模的展示库,具有高通量、高选择性。但是,由于噬菌体包装的限制,使插人的基因 大小受到一定的限制,并且有些细菌宿主可能会引起某些蛋白质的不f 确折叠或修饰。 此外,所有的蛋白质都以融合蛋白质的形式表达,可能会影响一些蛋白质的结合能力。 于是,人们在噬菌体展示技术的基础上又发展了动物病毒展示技术,酵母表面展示技术 等。 1 2 4 蛋白质亲和色谱 蛋白质亲和色谱( p r o t e i na f f i n i t yc h r o m a t o g r a p h y ) 的基本原理是将一种蛋白质固 定于某种基质上,当细胞抽提液经过该基质时,可与该固定蛋白质相互作用的配体蛋白 质被吸附,而没有被吸附的“杂质”则随沈脱液流出。被吸附的蛋门质可以通过改变洗 脱液或洗脱条件而回收下梨1 2 】。尽管亲和色谱是研究蛋白质相互作用的有利工具,但也 会有假阳性结果产生。实验所检测到的相互作用可能是由蛋白质所带电荷引起的,并不 是生理性的相互作用。蛋白质问的相互作用可能并不是直接的,而是有第三者作为中介 的。有时会检测到两种在细胞中不可能相遇却有着极强亲和力的蛋白质,如d n a s e i 与 肌动蛋白质之间的相互作用。因此,实验结果还应经其他方法的验证才能得出讵确的判 断。 1 2 5 蛋白质探针技术 蛋白质探针技术( p r o m i np r o b i n g ) 是将一种标记蛋白质作为探针筛选基因表达文 库,找寻哪个基因的表达产物能够同探针发生相互作用【13 1 。表达文库通常被转移到膜 上,探针与蛋白质的相互作用是在膜上进行的。 内蒙古科技人学硕十学位论文 徽标记 k i l 文库 转移到硝酸 纤维鬟膜 一o 掇镗与蛋白 挑选目赞 相互佟用 蛋白 图1 2 蛋白质探针技术示意图 随着试验技术的发展,研究蛋白质相互作用的技术方法还有g s t 标记p u l l - d o w n 、 荧光共振能量转移、质谱、蛋白质芯片、x 射线晶体衍射、核磁共振等多种,这些技术 为蛋白质相互作用研究做出了贡献,也积累了宝贵的资料。但是,应用试验的方法研究 蛋白质相互作用成本高,且需要大量的时间、人力、物力,受到一定的限制。生物信息 学综合了数学、物理、化学、信息技术等科学,以计算机为手段辅助研究蛋白质相互作 用,极大的降低了研究成本,缩短了研究周期,开辟了一条新的研究道路 4 1 。 1 3 蛋白质相互作用研究的生物信息学方法 1 3 1 系统发育谱 系统发育谱力i 去c p h y l o g e n e t i cp r o f i l e ) 基j 二如卜假定,功能备日关的基凶在一组完全 测序的基因组中预期同时存在或不存在,这种存在或不存在的模式被称作系统发育普。 如果两个基因,它们的序列没有同源性,而它们的系统发育谱一致或相似,可以推断它 们在功能上是相关的f 1 4 ”1 。 j l , l , j 臣经雒= 剩 立法 一? ,势 。m 。舯 帕打精一 再一竹 飘荔 种曩轮糖聃 酱丰辞_ , h ? 一 ; ! :;。:” 曙 ! nlo 一5 l l 陷0i i 一, “ 2 : : ; 论,掣r 嘎黄e 酋 图1 3 种系轮廓法预测蛋白质相互作用示意图 _ 舒 一 探白 是蝴9 内蒙古科技人学硕十学位论文 1 3 2 基因邻接 基因邻接方法( g e n en e i g h b o r h o o d ) 的依据是,在细菌基因组中功能相关的基因紧 密连锁地存在于一个特定区域,构成一个操纵子。这种基因之间的邻接关系,在物种演 化过程种具有保守性,可以作为基因产物之间功能关系的指示。通过寻找不同基因组间 基因顺序的保守性,或者通过寻找两个蛋白的基因,它们在某一基因组中相邻,在另一 基因组中是单一基因的两部分,可以预测处于同一蛋白上的两亚基问的相互作用i l 7 1 。 ? q ; 路论l 曩曩7 多基医魅之婀曩蠹脚骞跑置豹统计亨目瞻 蛾豢嗣誓良埔叠彝翻嘲璃媳茺曛 图1 4 基因近邻法示意图 1 3 3 基因融合事件 基因融合事件法( g e n ef u s i o ne v e n t ) 基于如下假定,由于在物种演化过程中发生了 基因融合事件,一个物种的两个( 或多个) 相互作用的蛋白质,在另一个物种中融合成 为一条多肽链,因而基因融合事件可以作为蛋白质功能相关或相互作用的指示【1 引。比如 在ec o l i 中d n a 旋转酶g y r a 和g y r b 在y e a s t 中熔入单一肽链中成为拓扑异构酶i i , 这样一来我们可以推测ec o l i 中g y r a 和g y r b 宵相且作用( 图1 5 ) 。 f u n c t i o n a ll i n k sf r o mr o s e t t as t o n ea n a l y s i s e c o i l g y r a s e b 一童矗卜一 y e a s t t o p c c s o m e r a s e i i 一,。f o o l 圉 一 e c o # g y r a s e a 叫啊卜一 e c o # a c e t a t ec o a a 二上、:鸯 h u m a n 飘j 嘶哪c o t r a n d e r a s ej 龇 e c o i l a c e t a t e c o a t r a n s f e r a s e p 一、。尹一 _ “厶。卜 l _ 图1 5 基因融合法原理示意图 内蒙古科技人学硕十学位论文 1 3 4 镜像树 镜像树方法( m i r r o t r e e ) 的思想是,功能相关的蛋白质或同一个蛋白质的域之间, 受功能约束,其进化过程应该保持一致,即呈现共进化特征。通过构建和比较它们的系 统发育树,如果发现树的拓扑结构显示相似性,那么可以推测建树基因的功能是相关的 1 9 2 0 。这种相似的树被称作镜像树。 除以上方法外,还有依据突变关联 ( c o r r e l a t e dm u t a t i o n ) 、序列信号关联 ( c o r r e l a t e ds e q u e n c es i g n a t u r e s ) 、保守的蛋白质问相互作用( i n t e r o l o g s ) 、同源结构复 合物( h o m o l o g o u ss t r u c t u r a lc o m p l e x s ) 、进化速率关联( c o r r e l a t e de v o l u t i o n a r y - r a t e ) 等 方法进行蛋白质相互作用研究与预测1 2 。 1 3 5 数据挖掘与机器学习方法及预测 数掘挖掘( d a t am i n i n g ) ,又称为数据库中的知识发现( k n o w l e d g ed i s c o v e r yi n d a t a b a s e ,l d ) ,是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的 模式的非平凡过程。简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识。基 于数据的机器学习方法是现代智能技术中重要方面,研究从观测数据( 样本) 出发寻找规 律,利用这些规律对未来数据或无法观测的数据进行机器学习。机器学习的实现方法大 致可分为三种:第一种是经典的( 参数) 统计估计方法。包括模式识别、神经网络等。 第二种方法是经验非线性方法,如人工神经网络( 砧、n ) 。第i 种是基于统计学习理论 的方法,如在次理论基础上发展的一种新的通用学习方法支持向量机( s u p p o r t v e c t o rm a c h i n e ,s v m ) 1 2 2 j 。 预测蛋白质的相互作用的一些生物信息学算法已经用来预测蛋白质问是否具有相互 作用。这些方法有基于基因组信息的,有基于进化关系的,有基于蛋白质序列的从头预 测方法,有基于蛋白质三维结构信息,还有依据g o 注释信息来预测相互作用的l z 引。无 论哪一种方法都存在一定的局限性,它们都需要一些蛋白质的先验知识。 基于蛋白质的一级结构的预测方法首先由b o c k 和g o u g h 提出,该方法在不需要基 因组的或进化的信息,仅仅需要单个蛋白质的序列信息( 蛋白质一级结构) 。该方法从 d i p 数据库中提取能够发生相互作用的蛋白质的序列数据,根据蛋白质对的序列信息, 如氨基酸的理化特性、电荷以及疏水特性等,用支技向最机的方法训练,其交叉验证的 结果表明了该方法具有较高的准确率,大约在8 0 左右1 2 4 j 。也有人提出了利用蛋白质的 三级结构信息进行蛋白质相互作用的预测的方法。该方法构建了一种全新的策略,采用 非冗余相互作用结构域,及具有可用三级结构的蛋白质复合体,用给定的两个序列对数 据库搜索序列的同源性,以证明该蛋白质序列存在对相互作用有利的可能性。这些方法 的最终目标是预测蛋白质的相互作用,在每个蛋白质中这些结构域是与蛋白质的相互作 内蒙古科技大学硕十学位论文 用相关的【2 5 j 。而各种实验技术的发展和高通量方法以及基于文献数据挖掘方法在蛋白质 相互作用中的应用,极大的丰富了相互作用蛋白质数据库。而用计算方法对高通量结果 的进行验证,为蛋白质相互作用数据的可靠性提供保障。此外,这些方法与实验方法的 结合可以挖掘网络中更多的相互作用节点,尤其重要的是这将能够更完整地描述生物学 过程,深刻理解细胞的全局特征。 然而,蛋白质的序列信息不能反应蛋白质真实的空间结构特征,而三级结构的信息 获得与处理又相对复杂,而蛋白质的二级结构,作为基本的蛋白质结构信息,能够反应 蛋白质的结构特征信息,又能像序列一样进行数据处理,应当可以用来进行蛋白质相互 作用的预测。而基于蛋白质二级结构信息的相关工作还很少有报道。 1 4 蛋白质相互作用相关资源与数据库 计算方法在蛋白质相互作用应用已经及其广泛,而各种生物学信息数据库,包括蛋 白质注释、结构信息及相互作用数据库等,是开展生物信息学研究的必要条件,是进行 数据挖掘与机器学习的信息来源与数据基础。近2 0 年来,随着世界范围内的合作的开 展,众多跨单位、跨地区甚至跨国的科研协作均需在保证实验数据可靠性和完整性的前 提下,及时实现信息资源共享。计算机数据管理技术在这一领域中得以广泛应用,各种 分子生物学数据库业已建立并仍在不断发展之中,它们也已成为相关研究中的主要数据 米源和数据交换手段。 1 4 1g o 基因本体数据库 g o ( g e n eo n t o l o g y ) 基凼本体数据库提供一个可控制词汇表,描述各种生物体中 基因及基因产物属性。g o 是一项合作的研究计划,目的是满足不同数据库中基因产物 一致性描述的需要。1 9 9 8 年,这项计划首先丌始于三个模式生物数据库的合作,分别 是果蝇数据库( f l y b a s e ) 、酵母基冈组数据库( s g d ) 和小鼠基因组数据库 ( m g d ) 。从那时开始,g o 联盟逐渐成长壮大,吸收了许多数据库,包括一些世界上 主要的植物、动物、微生物基冈组数掘库。这项研究计划有三个相对独立的方面: ( 1 ) g o 输入日维护数据库; ( 2 ) g o 制作合作数据库中的,本体与基因及其产物之间的相互链接; ( 3 ) g o 开发了一些工具,使得建立、维护、使用本体描述更容易1 2 6 j 。 糙面内质网、细胞核) ,或者一个基因产物组( 如,核糖体、蛋白质酶体、或蛋白质二 聚体) 。生物过程是一系列的事件,是由一个或多个有次序的分子功能装配起来的。有 比较广泛的生物过程条目,如细胞生物学过程、信号转导过程。有特殊的生物过程条 目,如嘧啶代谢、0 【葡糖苷转运。有时候区分生物过 - r 1 分子功能是比较困难的,但一 般规则是,一个生物过程至少包括一个以上的清楚的步骤。分子功能,描述生物活性, 如催化、结合活性,发生在分子水平。分子功能条目描绘的是活性而不是表现出活性的 分子或复合物,且并没有详细说明其发生的时间、地点或环境。生子功能整体上与活性 相关,表现出个别的基因产物,但有些活性是复合物与基因产物表现出来的。本体注释 的结构是有向非循环图。类似于层次结构,但有所有不同,不同点是一个子项可以有多 个母项。 一 i - 内蒙古科技大学硕十学位论文 1 4 2s c o p 蛋白质结构分类数据库 s c o p ( s t r u c t u r a lc l a s s i f i c a t i o no fp r o t e i n s ) 通过人工比较辅以自动计算方法,对所有 结构已知的蛋白质进行相似性分析和进化上的同源性分析。蛋白质结构分类数据库 ( s c o p ) 详细描述了己知的蛋白质结构之间的关系。分类基于若干层次:家族,描述 相近的进化关系;超家族,描述远源的进化关系;折叠子,描述空间几何结构的关关系 系;折叠类,所有折叠子被归于全q 、全1 3 、q 邝、q + s 和多结构域等几个大类。 s c o p 还提供一个非冗余的a s t r a i l 序列库,这个库通常被用来评估各种序列比对算 法。此外,s c o p 还提供一个p d b i s l 中介序列库,通过与这个库中序列的两两比对, 可以找到与未知结构序列远缘的已知结构序列【z 丌。 s t r t w t u r a lc l a s f i f i c a a o no f p r o t 面, u 鲴 w e l c o m et os c o p :s t m e t t m dc l a s s i f i c a t i o no f p 地f 0 由s 1 7 sr d 船s e ( j u n e2 0 0 9 ) 3 8 2 2 1p d b e a n i e si 妇a l u r e r e f e r e a e e 1 l o 9 0 0 d o l l l l l l s ( e x d 啦m e k i e a c i d s m d t h e w e l i e a l m o d e b ) f o l d ss n p e r f 溅a n d f a m i l i e ss t a f i s f c sh n e wf o l d s 氰a 蜘e c sr a m b l e s 逸匹盐逝塑茧暨幽垂查丝递笙笪蝼 a u t h o r s a l 味吖g m 岫氟j o h n 一a 瑚d 垴以a m o e m a n c k e e v 4 d a v e h o w o 峨i 堪e d a a a l o c o m e ,b m l e t t g 舶哆,轴即e b 棚:jp 1 - l u t , b 蕾d 蕊dc 璐c h o l | 妇$ c o p 岔m r c - k l be e n a c u k r e f e r e n c e :m 口出丸gb 【咄料seh b b 菹dt ,a - 硼矗c ( 1 9 够) s c o
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 广东汉语自考试题及答案
- 理财从业考试题及答案
- 老师招考试题及答案
- 课件昆虫边框模板
- 客车直播考试题及答案
- 考研美术考试题及答案
- 康复语言考试题及答案
- 铌碳还原火法冶炼工特殊工艺考核试卷及答案
- 塑料压延工专项考核试卷及答案
- 经管考试题目及答案
- GB/T 5563-2013橡胶和塑料软管及软管组合件静液压试验方法
- GB/T 3600-2000肥料中氨态氮含量的测定甲醛法
- GB/T 24218.1-2009纺织品非织造布试验方法第1部分:单位面积质量的测定
- 电商客服培训考试
- 仿生科技课件
- 医师多点执业注册申请表
- 《边坡稳定性分析》课件
- 刮板输送机-课件
- 深信服防火墙技术方案
- 福建省福州市各县区乡镇行政村村庄村名明细及行政区划代码
- 临床医学晕厥课件
评论
0/150
提交评论