已阅读5页,还剩54页未读, 继续免费阅读
(计算机科学与技术专业论文)基于聚类算法和相互作用网络的蛋白质功能预测研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
硕f j 学位论文 摘要 蛋白质相互作用网络是计算机科学技术的一个新研究领域。蛋白质功能预测 是蛋白质相互作用网络富有挑战性的问题之一。它的研究不仅可以直接阐明生命 体在生理或病理条件下的变化机制,而且对生物制药,农业生物科技等应用领域 同样具有直接的指导作用。 本文在深入分析现有蛋白质相互作用网络的聚类算法和蛋白质功能预测方法 的基础上,对适合蛋白质相互作用网络的聚类算法和蛋白质功能预测问题进行了 研究,提出一种新的聚类算法,并将聚类结果结合蚁群算法双序列比对来进行蛋 白质功能预测,并进行了相应的实验分析,取得了较好的结果。论文主要工作包 括: 总结出当前蛋白质功能预测所面临的挑战和困难。本文从蛋白质序列,结构 与相互作用入手,研究了蛋白质相互作用及其网络统计参数和网络拓扑结构,并 系统分析了蛋白质功能预测研究现状。 以往,蛋白质相互作用网络中结点之间的距离度量是需要通过基于网络的最 短路径距离来重新定义,其计算代价高,这使得已有的基于欧几何距离的聚类算 法不能直接运用到这种环境中。因此,通过蛋白质相互作用网络的特征提出了一 种新的聚类算法。算法使用网络中的边和结点信息来缩减搜索空间,避免了一些 不必要的距离计算。实验结果表明,算法对于真实的蛋白质相互作用网络中的结 点聚类是高效的。 提出了利用蚁群算法双序列比对从蛋白质相互作用网络中预测孤立蛋白质与 聚类中心蛋白质的相互作用,进而预测孤立蛋白质的功能。实验结果表明,该方 法蛋白质功能预测中的应用是可行和有效的,对蛋白质序列进行测试并与基于局 部比较的滑动窗口序列比对算法相比,可以得到较为满意的结果。 关键词:p p i 网络;聚类方法;蚁群算法;蛋白质功能预测;孤立蛋白; 序列比对 媾十聚类箅法和相互作用h 络的蛋 j 质助能颅测研究 a b s t r a c t p r o t e i n p r o t e i ni n t e r a c t i o nn e t w o r kr e f e r s an e wr e s e a r c ha r e ao fc o m p u t e r s c i e n c e p r e d i c t i o no fp r o t e i nf u n c t i o ni sac h a l l e n g i n gp r o b l e ma tp r e s e n ti nt h e r e s e a r c ho fp r o t e i n - p r o t e i ni n t e r a c t i o nn e t w o r k a n yn e wb r e a k t h r o u g hi nt h e r e s e a r c hw i l lb ec o n d u c i v et oe x p o u n d i n gt h ec h a n gm e c h a n i s mo fo r g a n i s mu n d e r p h y s i o l o g i c a lc o n d i t i o nd i r e c t l y w h a ti sm o r e ,i tw i l lb eas i g n i f i c a n ta s s i s t a n tt o r e l e v a n ti n d u s t r i e ss u c ha sb i o m e d i c a le n g i n e e r i n g ,a g b i o - t e c h ,e t c o nt h eb a s i so f t h o r o u g ha n a l y s i s o f e x i s t i n gc l u s t e r i n ga l g o r i t h m i n p r o t e i n - p r o t e i ni n t e r a c t i o nn e t w o r ka n dp r o t e i nf u n c t i o np r e d i c t i o nm e t h o d , w ed e v e l o p o u rw o r ko nt h es t u d yo fc l u s t e r i n ga l g o r i t h ms u i t e d p r o t e i n - p r o t e i ni n t e r a c t i o n n e t w o r ka n dp r o t e i nf u n c t i o np r e d i c t i o n w ep r o p o s ean o v e lc l u s t e r i n ga l g o r i t h ma n d p e r f o r ms e r i e so fe x p e r i m e n t s w ea s s o c i a t ea n tc o l o n ya l g o r i t h mw i t ho u rc l u s t e r i n g r e s u l tt op r e d i c tt h ep r o t e i nf u n c t i o n w ea c h i e v eg o o dr e s u l t s t h em a i nc o n t r i b u t i o n s o ft h i st h e s i sa r es u m m a r i z e da sf o l l o w s : w et a k eac l o s e rl o o ka tt h ed i f f i c u l t i e sa n dc h a l l e n g e st h a tp r o t e i nf u n c t i o n p r e d i c t i o ni sf a c i n gn o wa n dp r o p o s et h er e s e a r c hs c h e m eo ft h i st h e s i s w es u r v e yi n t h ee x i s t i n gp r o t e i ni n t e r a c t i o n , p r o p e r t i e sa n dc h a r a c t e r i s t i c so fp p in e t w o r k a t h o r o u g ha n a l y s i so fp r o t e i nf u n c t i o np r e d i c t i o nf r o mp r o t e i ns e q u e n c e ,s t r u c t u r ea n d p r o t e i n p r o t e i ni n t e r a c t i o ni sg i v e n t h ed i s t a n c em e t r i ci ns u c hs e t t i n gw a sr e d e f i n e db yt h en e t w o r kd i s t a n c e ,i nt h e p a s t ,w h i c hh a st ob e c o m p u t e db yt h ee x p e n s i v es h o r t e s tp a t hd i s t a n c eo v e rt h e n e t w o r k t h ee x i s t i n gm e t h o d sa l en o ta p p l i c a b l et os u c hc a s e s t h e r e f o r e ,b y e x p l o i t i n gu n i q u ef e a t u r e so fn e t w o r k s ,an e wc l u s t e r i n ga l g o r i t h mi sp r e s e n t e d ,w h i c h u s e st h ei n f o r m a t i o no fn o d e sa n de d g e si nt h en e t w o r kt op r u n et h es e a r c hs p a c ea n d a v o i ds o m eu n n e c e s s a r yd i s t a n c ec o m p u t a t i o n s t h ee x p e r i m e n t a lr e s u l t si n d i c a t et h a t t h ea l g o r i t h ma c h i e v eh i g he f f i c i e n c yf o rc l u s t e r i n gn o d e si nr e a l p r o t e i n - p r o t e i n i n t e r a c t i o nn e t w o r k u s i n ga n tc o l o n ya l g o r i t h m ,w em a k ea na l i g n m e n tb e t w e e nt h eo r p h a n c yp r o t e i n s e q u e n c ea n dt h ep r o t e i ns e q u e n c eo fc l u s t e r i n gc e n t e rt op r e d i c tf u n c t i o no fo r p h a n c y p r o t e i n e x p e r i m e n t a lr e s u l t ss h o wt h a tt h i sm e t h o di sr e a s o n a b l ea n de f f i c i e n t a n d c o m p a r eo u ra l i g n i n gr e s u l t sw i t ht h er e s u l t so ft h ea l i g n i n gs l i d i n gw i n d o wm e t h o d s , w ec a ng e ts a t i s f y i n gr e s u l t s i i i 硕i j 学位论义 k e y w o r d s :p p in e t w o r k ;c l u s t e r i n ga l g o r i t h m ;a n tc o l o n ya l g o r i t h m ;p r o t e i n f u n c t i o np r e d i c t i o n ;o r p h a n c yp r o t e i n ;s e q u e n c ea l i g n m e n t i v 硕l 学位论文 插图索引 图1 1 蛋白质“序列一结构一功能”示意图2 图1 2 生物信息学数据库3 图2 1 蛋白质相互作用所引导的p r b 途径l o 图3 1 基于边的聚类算法的流程图2 3 图3 2 人类a d 相关p p i 网络图2 4 图3 3 参数占对m a p e 值的影响2 8 图4 1 蚁群寻找最短路径的演示图3 6 图4 2 蚁群双序列比对模型3 7 图4 3 蚂蚁比对路径4 0 图4 4 方向对应关系一4 0 图4 5 接入孤立蛋白质的相互作用网络图4 3 蛋 j 质相互作用网络及j c 聚类算法研究 表3 1 表3 2 表3 3 表3 4 表3 6 表4 1 表4 2 表4 3 表4 4 附表索引 基于边的算法的聚类结果2 5 利用m a r y l a n db r i d g e 的聚类结果2 6 利用k o r b e l 的聚类结果2 6 利用基于a a m v 的k m e a n s 算法的聚类结果2 7 参数s 对聚类效果的影响2 8 预测参数描述表3 4 蚁群算法的得分矩阵表4 2 被预测的蛋白质功能4 3 蛋白质功能预测的性能比较4 4 i x 湖南大学 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所 取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任 何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡 献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的 法律后果由本人承担。 作者签名: 去l 曼 1 日期:捌产,月夕日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意 学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文 被查阅和借阅。本人授权湖南大学可以将本学位论文的全部或部分内容编 入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇 编本学位论文。 本学位论文属于 l 、保密口,在年解密后适用本授权书。 2 、不保密日。 ( 请在以上相应方框内打“”) 作者签名: 导师签名: 乃几朋朋 年年 罗7 汐,夕矽 力励 期期 p 毛吱 仁爿 秀琢 硕l j 学位论文 1 1 选题背景和意义 第1 章绪论 生物信息学( b i o i n f o r m a t i c s ) 是生命科学与计算机科学。信息科学以及应用数学 等学科相互交叉而形成的一门新兴学科。它通过对生物学实验数据的获取、加工、 存储、检索与分析,进而达到揭示这些数据所蕴含的生物学意义的目的。生物信 息学广义的概念是应用信息科学的方法和技术,研究生物体系和生物过程中信息 的存储、信息的内涵和信息的传递,研究和分析生物体细胞、组织、器官的生理、 病理、药理过程中的各种生物信息,或者也可以说生命科学中的信息科学。生物 信息学的狭义的概念是应用信息学的理论、方法和技术,管理和分析利用生物分 子数据库。通过收集、组织和整理生物分子数据库,使研究人员能够迅速的获取 和方便的使用信息;通过处理、分析挖掘分子生物数据,得到深层次的生物学知 识,加深对生命科学的认识【l l 。 其实早在2 0 世纪5 0 年代生物信息学就已经萌芽,2 0 世纪7 0 年代已经产生生物 信息学的基本思想,但是生物信息学的真正发展是在2 0 世纪9 0 年代,随着大规模 高通量实验技术( 尤其是d n a 测序技术) 的不断改进和实验设备自动化程度的提 高,数据的产生速度呈指数增长。特别是人类基因组计划( h u m a ng e n o m ep r o j e c t , 简称h g p ) 实施以来,经过美,英,日,法,德和中国科学家的共同努力,人类 基因组计划取得了很大的成功,完成了人类基因组大约3 2 亿个碱基对的全序列测 定。如此巨大的数据量,仅凭借传统的研究方法加工,存储,检索与分析,进而 达到揭示这些数据所蕴含的生物学意义的目的,其任务无疑是艰巨的f 2 l 。生物信 息学在此背景下才得到迅猛发展。人类基因组计划产生的生物学数据是生物学的 源泉,而人类基因组计划所需要解决的问题则是生物信息学发展的动力。因此, 生物信息学产生和发展的推动因素主要有一下三个方面:一是人类社会发展的需 要;二是人类基因组计划的顺利实施;三是信息技术在生物学中的大规模应用1 3 】。 1 2 生物信息学研究现状 生物信息学在近几十年间经历了长足的发展,并迅速成为生命科学的领军者。 同时,各种研究机构和生物信息公司相继涌现,生物科技公司和制药公司与日俱 增,大批生物信息学研究机构在基因工程、生物芯片、生物制药等领域,开展了 生物信息学研究。 生物信息学主要研究四种数据,即d n a 序列数据、蛋白质序列数据、生物 堆十聚炎算泫卸棚q 作用刚络的生i ,i 质功能邝! 测研z 分子结构数据、生物分子功能数据。序列数据、结构数据是非常直观的,但是功 能数据却是多变复杂的,如关于蛋白质功能的定性描述、蛋白质之间的相互作用 描述、基因表达数据、代谢路径、调控网络等。d n a 的核苷酸序列上存储着蛋白 质的氨基酸序列编码信息、基因表达调控的信息以及遗传信息。遗传信息存储在 d n a 四种字符组成的序列中,生物体生长发育的本质就是遗传信息的传递和表 达。因此,可以说d n a 序列包含着最基本的生命信息。在基因表达过程中,基 因上的遗传信息首先通过转录从d n a 传递到r n a ,然后再通过翻译从r n a 传递 到蛋白质【2 1 。基因控制着蛋白质的合成,从基因的d n a 序列到蛋白质序列存在着 一种明确的对应关系,而这种对应关系就是我们所知道的第一遗传密码。 蛋白质分子在生物体内执行着各项重要任务,如生化反应的催化、营养物质 的输运、信号的识别与传递等。蛋白质结构决定于蛋白质的序列( 这是目i j i 基本 共认的假设) ,因此有人将从蛋白质序列到蛋白质结构的关系称为第二部遗传密 码。 第一部遗传密码已被破译,但是,对于密码究竟处于d n a 序列的哪些区域 还了解得不全面,对密码的转录过程还不清楚,对大多数d n a 非编码区域的功 能还知之甚少,对d n a 遗传语言还有待于进一步探索。对于第二部密码,目前 则只能用统计学的方法进行分析。无论是第一部遗传密码,还是第二部遗传密码, 都隐藏在大量的生物分子数据之中i3 1 。生物分子数据是宝藏,生物信息数据库是 金矿,等待我们去挖掘和利用,见图1 1 。 图1 1 蛋白质“序列一结构一功能”示意图 随着生物信息学的发展,生物信息学数据库的数量在不断的递增,内部结构 也日趋复杂,其功能也在不断的细化。数据库种类繁多,分类方法也各有不同。 依据数据类型柬分可分为:核酸序列数据库,蛋白质序列数据库,三维分子结构 数据库。按层次来分可以分为:基本数据库,复合数据库,二次数据库。 硕f :学位论文 图1 2 生物信息学数据厍 在基因组时代,基因组研究分析以建立高分辨率的遗传图谱,物理图谱,序 列图谱,转录图谱为主要目的,并建立了相应的生物分子数据库,见图1 2 瞄j 。基 因组数据库有由美国的国家生物技术信息中一i 二, ( n c b i ) 建立和维护的g e n b a n k 库, 它包含了所有已知的基因组数据,以及与它们相关的文献著作和生物学注释。 e m b l 核酸序列数据库由欧洲生物信息学研究所( e b i ) 维护的核酸序列数据构成, 由于它与g e n b a n k 和d d b j 的数据合作交换,它是一个最全面的核酸序列数据库1 4 j 。 目前规模较大的综合型蛋白质序列数据库有:p i r 是蛋白质信息资源( p r o t e i n i n f o r m a t i o nr e s o u r c e ) 的缩写。这是一个国际蛋白质序列数据库,它包含所有序列 已知的自然界中野生型蛋白质的信息。此库的主要目的是提供按同源性和分类学 组织的,非冗余的数据库,其中包括来自几十个完整基因组的蛋白质序列。所有 序列数据都经过整理,超过9 9 的序列以按蛋白质家族分类。p i r 国际蛋白质序 列数据库( p s d ) 是由美国华盛顿的全国生物医学研究基因会( n b r f ) 所支持的 p i r ,慕尼黑蛋白质序列信息中一t ( m i p s ) 和同本国际蛋白质序列数据库( j i p i d ) 共 同维护的国际上最大的公共蛋白质序列数据库。蛋白质数据库( p d b ) 由美国 b r o o k h a v e n 国家实验室建立。p d b 收集的数据来源于x 光晶体衍射和核磁共振 ( n m r ) 实验测定的生物大分子三维结构数据,经过整理和确定后存档而成,是国 际上唯一的生物大分子结构数据档案库i5 1 。这个库通常被用来评估各种序列的比 对算法。 堆十聚类算法和村j 竹:作用m 络的蛋i ,i 质功能颅测研究 1 3 生物信息学基本分析方法 随着生物信息的急剧增长,如何从浩瀚的数据库中获取有用信息,怎样处理 和提取数据,进而从中获取得与生物结构,功能相关的信息是一个使理论生物学 家感到棘手的难题【们。借助于计算机科学,信息科学及其它学科的共同参与,人 们发展了生物信息的多种分析方法,其中最基本的方法有序列比对,结构比对及 功能对比预测法等。 1 3 1 序列比对预测法 序列比对是以核酸和蛋白质序列为依据,来比较两个或者两个以上核酸或者 蛋白质在碱基( a ,t , c ,g ) ,氨基酸( 2 0 个氨基酸) 水平上的相似性和不相似性。序 列比对是生物信息学最基本的分析方法。常用的序列比对方法有两两序列比对和 多序列比对【7 1 。两两序列比对是比较两序列之间的相似性区域和保守位点来寻找 两序列可能存在的历史进化关系。两两序列比对又分为总体序列比对和局部比对。 两个序列的比对有较成熟的动态规划算法:总体序列比对是以n e e d l e m a n w u n s c h 的算法为理论体系发展的完善的比对方法;当两个序列总体并不很相似,但某些 局部片段相似性较高时,局部序列比对正是以s m i t h w a t e r m a n 动态规则算法为理 论依据的比对方法。多序列比对是以两两序列比对为基础,逐步优化两条或多条 序列比对结果的方法,其目的是建立两条以上序列可能存在的进化关系。最常见 的多序列比对方法有p i l e u p 算法和c l u s t a l w 算法【8 】。 1 3 2 结构比对预测法 结构比对的基本问题是比较两个或两个以上蛋白质分子空问结构的相似性或 不相似性;蛋白质结构预测包括2 级和3 级结构预测【9 1 。从方法学上来看有演绎 法和归纳法两种途径。前者主要是从一些基本原理或假设出发来预测和研究蛋白 质的结构和折叠过程。后者主要是从观察和总结已知结构的蛋白质结构规律出发 来预测未知蛋白质的结构。以核酸和蛋白质的序列为基础,来预测其生物学结构, 是生物信息学的核心研究内容1 2 1 。基于核酸序列的预测分析就是以核心序列为基 础,来分析预测其功能基因的位置。其分析内容常常包括:密码子的偏向,内部 重复序列,特殊位点,编码蛋白区和二级结构的预测。 1 3 3 功能比对预测法 组成蛋白质的氨基酸序列不仅决定着蛋白质的三级结构,而且也决定着它的 功能。首先以蛋白质的序列为依据,来预测蛋白质的物理性质,如分子量,等电 点,亲水性和疏水性,跨膜区域,信号肽和蛋白定位等。蛋白质的功能预测是以 目的蛋白为线索力图发现它和功能已知蛋白质的相似性。蛋白质的功能预测主要 硕i 学化论文 侧重在序列同源性和功能区序列的保守性 8 1 。蛋白质结构预测有两种策略:以单 一序列为基础和以多重序列对齐为依据的分析方法。常用的三级结构预测方法有 同源建模和穿针引线算法。 1 4 生物信息学研究热点 生物信息学的研究内容几乎涵盖了生命科学的各个领域,它的发展给生命科 学研究带来重大的变革。生物信息学的发展将对生命科学本身的发展产生革命性 的影响,其研究成果将大大地促进生命科学其他研究领域的进步。生物信息学是 目前基因组学,蛋白质组学,生物芯片等生命科学前沿研究领域发展的直接推动 力。基因组学,蛋白质组学,药物信息学,生物芯片等成为现代生物信息学研究 的热点。 1 4 1 基因组学 基因组学是在全基因上对基因及其表达产物进行全面分析,其目的在于探索 基因的时空表达差异,包括基因功能发现,基因表达分析及突变检测。基因组学 的实质就是分析和解读核酸序列中所表达的结构与功能的生物信息。生物信息学 成为基因组研究中必不可少的工具。生物信息学在基因组和蛋白质组研究中所起 到的作用主要有: 1 ) 基因组信息结构的计算分析; 2 ) 模式生物全基因组信息结构的比较研究; 3 ) 功能基因组的相关信息分析。 其中,序列基因组学主要研究测序和核苷酸序列。结构基因组学着重于遗传 图谱,物理图谱和测序等方面的研究。功能基因组学则研究以转录图为基础的基 因组表达图谱。比较基因组的研究内容包括对不同进化阶段基因组的比较和不同 种群和群体基因组的比较。在人类基因组中,编码部分仅站总序列的3 5 ,其他 通常称为“垃圾d n a ”。但d n a 序列作为一种遗传语言,不仅体现在编码序列之 中,还隐藏在非编码序列之中,因而分析非编码区d n a 序列则需要大胆的想象 和崭新的研究思路与方法。 1 4 2 蛋白质组学 蛋白质组是指基因组表达的全部蛋白质及其存在方式。蛋白质组学旨在阐明 生物体全部蛋白质的表达模式及功能模式,其内容包括鉴定蛋白质的表达、存在 方式( 修饰形式) 、结构、功能和相互作用等。蛋白质组的概念是由于基因表达水 平并不能表达细胞中活性蛋白质的数量,基因组序列并不能描述活性蛋白质所必 须的翻泽后修饰和反映蛋白质种类和含量的动态变化过程而提出的。目前蛋白质 基十聚炎算法和卡几且作用m 络的蛋i ,j 质功能颅测研究 组学研究的常用技术是利用双向聚丙烯酰胺凝胶电泳分离复杂的蛋白质,并利用 专用软件采集和分析凝胶电泳图谱资料,结合氨基酸组成分析和质谱分析对蛋白 质斑点进行精确鉴定,以获得蛋白质组成,表达差异和修饰情况等方面的大量信 息【1 0 1 。蛋白质组重点研究蛋白质的空间结构,主要有两类研究方法:其一是同源 类建模方法,包括比较建模【1 1 l ( c o m p a r a t i v em o d e l i n g ) ,折叠识别 1 2 1 ( f o l d r e c o g n i t i o n ) ,以及网络模型方法和基于隐马氏模型的机器学习方法等;其二是“自 顶向下”【i ( a bi n i t i o ) 方法,它先利用相似性聚类方法建立蛋白质的空间外形分类 数据库,再通过蛋白质天然构成对应于热力学最稳定,自由能最低的构象预测蛋 白质的空间结构。蛋白质组学的研究蛋白质空间结构以揭示蛋白质的结构与功能 的关系,总结蛋白质结构的构成规律,预测蛋白质肽链折叠和蛋白质的结构等。 1 4 3 药物信息学 由于药物的作用机制,药物代谢转化,药物毒副作用等方面都存在着个体差 异,药物信息学就在这个背景下孕育而生。药物信息学以提高药物疗效与安全性 为目的,要加影响药物作用,吸收,转运,代谢,清除等过程中基因差异,通过 疾病相关基因,药物作用靶点,药物代谢酶谱,药物转运蛋白质多肽性等研究, 进行新的医药开发。相应地药物信息学通过蛋白质结构与功能的研究及相互自j 构 成的代谢网络,调控网络,蛋白质相互作用网络的研究,以达到对生命过程的理 解。近年来,随着蛋白质结构和功能预测研究的发展,相当数量的蛋白质三维结 构获得了精确的测定,相应的蛋白质功能也得到了准确的预测。医药设计人员要 根据这些知识,积极寻找药物的靶点分子使得药物信息学的研究最终服务于人类 的健康需要。 1 4 4 生物芯片研究 生物芯片通常指通过微加工技术和微电子技术在固体芯片表面构建的微型生 物化学分析系统,能够高速率,高通量地完成对细胞,蛋白质,d n a 以及其他生 物组分的检测并实现分析过程的连续化,集成化,微型化和自动化。生物芯片技 术主要包括芯片方阵的构建,样品的制备,生物反应和信号检测及分析等环节。 信号检测是将芯片置入专用扫描仪中,通过采集各反应点的荧光位置,荧光强弱, 再经过相关软件分析图像,以快速准确地获取样品中的生物信息【1 0 l 。因此生物芯 片技术中整个检测及分析技术环节都属于生物信息学的研究领域。生物芯片主要 包括基因芯片,蛋白质芯片和芯片实验室等。其中,基因芯片是利用核酸双链的 互补碱基之间的氢键作用,形成稳定的双键结构,通过检测目的单链上的荧光信 号而实现样品的检测。生物:芯片将改变生命科学的研究方式,是继大规模集成电 路之后的又一次意义深远的技术革命。 硕 :学位论文 1 5 本文的主要工作及结构安排 1 4 1 本文的主要研究内容 ( 1 ) 对应用于蛋白质相互作用网络的各种聚类方法进行了研究,总结了不同聚类 方法的优缺点;提出基于网络距离的方法一一基于边的方法;最后,利用基于边 的聚类方法对人类a d 相关p p i 网络图中的蛋白质进行聚类,分析聚类结果,并 与m a r y l a n db r i d g e 方法,k o r b e l 方法和a a m v 方法比较,得到较好的聚类结果。 ( 2 ) 研究了应用于双序列比对的蚁群算法;然后,根据蚁群算法的得分矩阵,将 孤立蛋白质接入蛋白质相互作用网络;将孤立蛋白质接入蛋白质相互作用网络的 结果与g o 注释结合预测孤立蛋白的功能,并分析预测的结果。蚁群算法得到的 预测结果比滑动窗口双序列比对的预测结果好。 1 4 2 本文的组织结构 第1 章:绪论 阐述生物信息学是把基因组序列信息分析作为源头,找到基因组序列中代表 蛋白质和r n a 基因的编码区;同时,阐明基因组中大量存在的非编码区的信息 实质,破译隐藏在d n a 序列中的遗传语言规律;在此基础上,归纳、整理与基 因组遗传信息释放及其调控相关的转录谱和蛋白质谱的数据,从而认识代谢、发 育、分化、进化的规律。接着,指出生物信息学研究的两种主要载体是d n a 分 子和蛋白质分子,其研究目的在于读懂人类基因组,发现人类遗传语言的根本规 律,从而阐明若干生物学中的重大自然问题。而后,指出蛋白质组是指基因组表 达的全部蛋白质及其存在方式,其研究目的在于阐明生物体全部蛋白质的表达模 式及功能模式,其内容包括鉴定蛋白质的表达、存在方式、结构、功能和相互作 用等。最后介绍了本文的主要工作及结构安排。 第2 章:生物数据挖掘及p p i 网络概述 对蛋白质相互作用及其网络统计参数和网络拓扑结构作了综述性的介绍,包 括蛋白质相互作用的研究意义和研究原理。同时介绍了蛋白质功能预测的技术, 并分析了目前蛋白质功能预测研究中存在的困难和面临的挑战。 第3 章:基于p p i 网络的聚类算法 对蛋白质相互作用网络聚类方法进行研究,根据网络距离重新定义蛋白质相 互作用网络中的聚类问题。我们利用网络的特征,提出新的基于网络距离的聚类 方法一基于边的聚类方法。实验表明,新的聚类方法是可行且高效的。聚类蛋白 质相互作用网络中的聚类结果可以应用于检测蛋白质相互作用网络中的功能模 块。 堆十聚类算法和相互作用网络的蛋 j 质功能颅测研究 第4 章:基于p p i 网络的稀疏点检测 介绍蛋白质功能预测的四类方法,即:直接注释方法,基于序列的方法,基 于模块的方法和基于复合数据的方法。然后介绍了蛋白质功能预测的评估指标。 接着提出了利用蚁群算法双序列比对从蛋白质相互作用网络中预测孤立蛋白质与 聚类中心蛋白质的相互作用,进而预测孤立蛋白质的功能。实验结果表明,该方 法比滑动窗口序列比对具有高可靠性和很高的准确率。 8 硕i :学位论文 第2 章p p i 网络及蛋白质功能预测概述 2 1 蛋白质相互作用 2 1 1 蛋白质相互作用的重要性 蛋白质与蛋白质相互作用是生物体中众多生命活动过程的重要组成部分,是 生物体生化反应的基础。蛋白质相互作用在生物体中几乎无所不在,蛋白质通过 相互作用参与多种重要生命活动,如d n a 合成,基因转录激活,蛋白质翻译,修饰 和定位,生命代谢过程,产物的分泌,能量的产生和消耗,信号传导,病毒感染, 机体对病毒的防护等等,对生命活动过程中蛋白质作用的研究有助于揭示生命过 程的许多本质问题。在快速发展的基因组学之后,蛋白质组学出现并逐渐成为分 子生物学研究的重点。蛋白质组学使我们从综合和总体的角度在分子水平上来研 究和把握生命现象,这对于理解生命现象的本质,对于生命科学的每一个分支都 将起到强有力的推动作用。于是更多的眼光投向蛋白质这个对人类疾病最直接相 关的基因产物。理解一个蛋白质如何与另一个蛋白质相互作用以及它们如何一起 行使功能是理解生命运动的基础。任何一种疾病在表现出可察觉症状之前,体内 就已经有一些蛋白质发生了变化【8 l 。确定疾病的关键蛋白质和标志蛋白质,有利 于疾病的诊断和病理的研究,对药物筛选也具有重要意义。 目前,通过研究蛋白质相互作用进行有效的药物筛选已经成为现实,而且也 必将在药物筛选中发挥越来越重要的作用。人们发现信号传导中起调节作用的酶 实际上是以整个大分子复合物出现的,大分子复合物罩包含有许多位置上接近, 物理上相互作用的亚单位,蛋白质正是通过相互作用在生物过程中发挥作用的。 类似地,人们发现许多疾病是由于一些特殊蛋白质相互作用发生变化而引起的。 一个典型的例子就是,肿瘤抑制基因蛋白质r b 在细胞周期中起到重要的调节作 用,任何人类的癌症几乎都受到它的影响【8 】。r b 可结合蛋白质以及转录因e 2 f d p 。 抑制那些从g 1 到s 期转移必需的基因的表达。大多数目前已知的由该途径引发的 肿瘤都与该途径中的蛋白质与蛋白质相互作用的阻断有关。这个例子说明,蛋白 质与蛋白质相互作用研究可以用来选择药物靶点,只要知道某个途径中关键的蛋 白质与蛋白质相互作用便可设计药物去阻断或防止阻断这个相互作用。该途径中 一部分步骤与相应的蛋白质相互作用如图2 1 所示1 9 l 。图中所示部分每个步骤都由 相应的蛋白质相互作用所引导,若有蛋白质对之间的相互作用被阻断,可能导致 严重疾病。 琏f 聚类算法和相q :作用m 络的蛋i 1 质j j 能颅测研究 p r bp a t h w a y p to l e u lp l o t e mm t e l 4 a c t i o n p 1 6 ,7 ( i ) 斟j 6 p 1 6 麓 c y d md l“”一* * 渤“r 一。一嘲n 。 一c 丰籀 谳2 鎏嗡l 。: 一1 ! 一 ,护 i - ! ! =、,、 p p 延:竺甄! = 竺)l 、p 7 、一, d p l _ ,群叠移汐谬脚j 蛩,舻”觯批铹。臻,。 、i e 2 f。p r b 。、e 2 f = , i ”4 。一 “。h “” , 。妒“_ 。女? j 嘤贯二:铹缴鳓鍪盎强 c e l l - c y c l e ,e 强。二始d p ! 图2 1 蛋白质相互作用所引导的p r b 途径 2 1 2 蛋白质相互作用的原理 蛋白质相互作用从相互作用双方组成上可分为以下匹类:蛋白质与蛋白质相互 作用,蛋白质- d n a 相互作用,受体与配体相互作用,以及大的蛋白质复合物之间 的相互作用。蛋白质与蛋白质相互作用又可以分成以下四种:同聚体蛋白,异聚 体蛋白酶与阻遏物复合物以及抗体与蛋白质复合物。 j o n e s 等曾以上述后四种蛋白质相互作用出发,对蛋白质相互作用的原理作了 较为深入的研究结合蛋白质对接( d o c k i n g ) ,蛋白质相互作用的结构属性,如疏水 性可及作用表面面积,形状及残基的偏向性等方面的研究,蛋白质相互作用的属性 特征分成以下几个方面【1 们。 1 ) 作用层面( i n t e r f a c e s ) 的大小及形状 蛋白质作用层面的尺寸及形状可由绝对尺寸或者更精确的聚合成复合物的可 及作用表面面积差值a a s a ( a c c e s s i b l es u r f a c ea r e a ) 来表示。这是由于蛋白质在从 极性到疏水环境的转变过程中,其疏水自由能与溶剂可及作用表面面积a s a 之间 存在着一定相关性。因此a a s a 的计算作为结合能的一个参数。 2 ) 作用表面的互补性 在互相结合的分子之间,其表面静电和形状存在互补性。作用表面的互补性 已被用在蛋白对接( d o c k i n g ) 方法中,成为筛选的一个附加条件。也有很多新方法 来估测形状的互补性。 3 ) 复合物结合作用层面残基的倾向性 硕f j 学位论文 在复合物亚单位的作用层面上的氨基酸残基相对于其他地方的残基更重要,残 基的理化特性可能决定作用的进行以及性质,因此作用层面上的残基可能较为保 守,而且可能存在着疏水性。而且除了甲硫氨酸以外,这些疏水残基更偏向于在 同聚体作用层面而非异聚体。 4 ) 疏水性及氢键 蛋白质可以通过表面疏水互补而结合起来。但是亚基间的极性相互作用也是 很普遍的,并且极性相互作用在复合物形成过程中也有相应贡献。尤其值得指出 的是,大复合物的亚基间很多相互作用也可能形成氢键。对每个复合物相互作用 层面的所有残基计算平均疏水值( m e a nh y d r o p h o b i c i t yv a l u e ) 后发现,在各种复合 物中,相互作用层面的标准疏水值介于复合物内部及表面亲水性之间而且同聚体 比异聚体的疏水性更强。 5 ) 区段及二级结构 参与作用层面的多肽链的不连续片段数量也是很重要的。通常不同区段的区 分标准是作用层面的残基如果被5 个以上的残基分开就可独立成为一个区段。不同 的蛋白质复合物可以分成不同的独立片段,在j o n e s i l 4 】等分析的5 9 个复合物中,片 段数从1 到1 l 不等可以用类似于区段的多肽及小分子来部分模拟相互作用关系。 大部分相互作用的层面都是几种二级结构的混合体,而且几种二级结构的残基数 量差不多,如螺旋,折叠及卷曲的数量差不多。 6 ) 复合物在形成时的构象变化 复合物形成时产生构象变化的原因尚不清楚,而且现在还很少有蛋白质在形 成复合物前后通过结晶的x 一衍射或核磁共振等方法鉴定了结构。但是,可以分辨 不同水平的构象变化,即没有变化,仅有边链的运动,主链区段的运动,或者功 能域的运动。功能域运动的机制与酶复合物特异相关,因为这些复合物在与底物 结合时常有功能域的移位。对于抗体蛋白的识别,在结合过程中有很多的变化。 在不同环境下,都能发现一些严紧及松弛的对接过程,而且灵活性的减少却总是 以能量为代价的。 上述几点是蛋白质在相互作用过程中的功能属性及其变化的特征。研究蛋白 质相互作用还可以根据以下六个参数进行p a t c h 分析:溶解能( s o l v a t i o np o t e n t i a l ) , 表面残基的倾向性( r e s i d u ei n t e r f a c ep r o p e n s i t y ) 疏水性( h y d r o p h o b i c i t y ) ,极性 ( p l a n a r i t y ) ,突出性及可及的表面积( p r o t r u s i o na n da c c e s s i b l es u r f a c ea r e a ) 。由于 p a t c h 的这些特性在蛋白质相互作用位点有些特异变化,可以据此来预测蛋白质相 互作用位点。 2 2 蛋白质相互作用的评估 尽管目前已经有多种实验方法或者计算方法能够对蛋白质相互作用进行研究 缺十聚类算法和棚丘作用叫络的筮l ,j 质功能预测研究 和预测,并且每一种方法在应用时候都尽量避免假阳性。但是,目前所有的研究 方法都具有技术上的偏向性或缺陷,从而导致结果中错误数据比例较高。但是在 这些蛋白质相互作用数据中必绕潜藏着具有生物学意义的信息。因此为了能够从 这行数据中有效地挖掘出具有生物学意义的信息,有必要对数据的质量进行评估。 2 2 1 假阳性和假阴性 假阳性是指能够被实验技术监测到的,而在细胞中并不存在的蛋白质相互作 用。假阴性是指不能被实验技术监测到的,而在细胞中确实存在的蛋白质相互作 用。每一种实验技术或计算方法得到的大规模数据都存在一定程度的假阴性和假 阳性。因此,任何方法得到的结果都不可能避免得要进行假阴性和假阳性的评估。 目前对蛋白质相互作用数据中假阴性和假阳性的评估主要是根据已有的相关蛋白 质的功能,亚细胞定位,代谢途径,功能注释以及蛋白质复合物相关信息来进行 评估【l 引。尽管这些数据并不全面,但是也能够在一定程度上反映预测结果的质量。 假阴性和假阳性的存在主要由一下结果引起: 1 ) 蛋白质相互作用的动力学本质。蛋白质表达和相互作用模式在不同生物学条 件下是不同的。而目f i i 所有的实验方法和计算方法都不能做到动态检测或预测, 因此只能对真实存在的蛋白质相互作用,得到一个粗略的描述。 2 ) 实验方法和计算方法的局限性。每一种实验和计算方法所依据的生物学原理 不同,因此每一种方法预测的结果也只能部分描述真实的相互作用。 3 ) 在实验或计算过程中产生的错误。这三个因素使得应用不同方法得到的蛋白 质相互作用网络不同,或者不同的实验室应用相同的方法也不能预测相同的蛋白 质功能结果。 2 2 2 蛋白质相互作用数据的重叠和相互补充 到目前为止,酵母作为模式生物,其蛋白质相互作用网络得到了广泛的研究, 并已得到了大量的蛋白质相互作用数据,这些数据为发展生物信息学方法来分析 蛋白质相互作用提供了基础。v o nm e r i n g 等人1 1 6 】比较分析了不同来源的蛋白质相 互作用大规模数据,如酵母双杂交分析,蛋白质复合物的质谱分析,遗传相互作 用,相关的m r n a 表达以及通过基因组分析进行计算预测。结果表明,在近8 0 0 0 0 对蛋白质相互作用中,其中只有约2 4 0 0 对是能够被两种或者两种以上方法检测 到,也就是各种方法得到的结果之间的重叠很小。这种现象可能是由于方法的不 成熟和各自的偏向性而造成的。同时结果还表明,由不同方法产生的数据,其相 对应的相互作用蛋白质的功能分类具有不同的分布,这表明这些方法都具有各自 的优点和缺点。 除了上面分析表明不同技术得到的蛋白质相互作
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 案场物业经理上半年工作总结
- 抱子甘蓝种植技术
- 对公大额存单培训课件
- 采石场开采申请书
- 病理规培年度工作汇报
- 2025高空作业安全培训
- 举办沙盘比赛申请书范文
- 病历汇报导航图
- 钢筋专项施工培训
- 2025晋升工作总结
- JJG 169-2010互感器校验仪
- GB/T 29024.4-2017粒度分析单颗粒的光学测量方法第4部分:洁净间光散射尘埃粒子计数器
- GB/T 18287-2013移动电话用锂离子蓄电池及蓄电池组总规范
- 地质灾害防治培训课件
- 英语经典电影课件
- 实验一坐骨神经腓肠肌标本的制备骨骼肌收缩
- 劳动者个人信息卡
- 光盘m3352工控核心板-n128li用户手册-v1
- DB33-T1064-2021《铝合金建筑外窗应用技术规程》
- 社会工作行政形考五
- 工艺学异丁烯合成MTBE
评论
0/150
提交评论