




已阅读5页,还剩107页未读, 继续免费阅读
(计算机系统结构专业论文)基于蛋白网络聚类的基因功能研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
, 摘要 后基因组时代,功能基因组学研究的目标就是破译基因的功能并控制它们。由于 具有相互作用的蛋白质趋向于有相似的细胞功能,可以利用最新的蛋白相互作用网络 实验数据和其他大规模蛋白组数据,从系统生物学的角度出发,采用“相互作用一 网络一 功能”的新思路,通过比较已知和未知基因来类推蛋白的可能机能本文从 网络可视化、含时空的多数据源的聚类、蛋白模块化聚类等切入点入手,提出图聚类 的新算法,解决蛋白功能分析的实际问题,采用多种评价方法对国际上和我们新开发 的聚类方法进行综合评估,最终把聚类方法研究和可视化软件开发结合起来,对出芽 酵母蛋白功能进行综合研究 本文提出了一种简单但信息丰富的手段来整合蛋白网络的拓扑信息和生物信息 对网络进行可视化在戎们的方法中,可以很好地把如准团和。辐条状”团通过一棵 聚类树显示出来,同时可以把从蛋白功能注释到相互作用的相关性图谱等注释到根据 树的顺序表示的矩阵表示上,与以往的聚类方法相比,我们聚类算法a d j w 既能很好 的反映蛋白相互作用网络的拓扑性质,又富含有意义的生物信息,并且很适合矩阵可 视化,是一种适合网络可视化的聚类算法。 本文提出了一个简单而有效的层次聚类算法整合高通量的数据来研究生物网络 的系统和动力学性质,可以有效的揭示酵母蛋白一蛋白相互作用网络中的模块化结 构,通过整合的商通量蛋白相互作用和相关的亚细胞定位组数据及表达谱数据区分蛋 白复合物和蛋白功能模块此外,我们的检测模块的方法为在模块中的没有注释功能 的蛋白提供了一种研究蛋白功能的背景信息另一方面,整合各方面的蛋白相关信息 可以使我们的方法对数据( 特别是复合物) 的假阳性具有更高的鲁捧性。 本文打破了传统的基于蛋白问相似度的聚类模式,直接从蛋白功能团的角度出 发,考虑功能团间的一阶和二阶相互作用,提出了模块化聚类方法( m c m ) ,对实验数 据进行聚类分析,来预测模块内未知蛋白的功能通过超几何分布p 值法和增,删、 改相互作用的方法对聚类结果进行预测能力分析和稳定性分析结果表明模块化聚类 方法具有较高的预测准确度和覆盖率,有很好的容错性和稳定性。此外,模块化聚类 分析得到了一些具有高预测准确度的未知蛋白的预测结果,将会对生物实验有指导意 义,其算法对其它的具有相似结构的网络也具有普遍意义。 本文设计了适合网络可视化的聚类软件,该软件集成了蛋白网络常用的聚类算 法,采用矩阵显示和传统显示相结合的方式进行蛋白网络可视化,结合蛋白功能信息 和其它相关生物学信息,为生物学家提供一个跨系统的蛋白相互作用网络分析平台。 另外,我们还采用图论中谱分析的研究方法来揭示复杂的蛋白一蛋白相互作用 基f 蛋白网络聚类的基困功能研究;摘要 网络中存在的隐含的拓扑结构,如“准团”和“准二部图”我们的分析发现这些隐 含的结构对应相应的生物功能团。这些结果预示着一种可以通过隐含结构中的己知蛋 白功能的分类信息推断未知功能的方法。用谱分析的方法在具有2 6 1 7 个蛋白1 1 8 5 5 个相互作用的出芽酵母的蛋白相互作用网络中分离出了4 8 个准团( q u a s i c l i q u e ) 和 6 个准二部图( q u a s i b i p a r t i t e ) ,对7 6 个未知功能蛋白预测了其功能。 本文还提出了一个数学模型来估计s a r s 冠状病毒的基因组的进化速率和它 们最迟公共祖先的测序时间。在一些公有的假定和适当的简化之后,一些简单的方程 包括进化速率和最终公共祖先的时间f r o ) 能够被得到。我们采用最小二乘法来估计 序列数据的k 和t o ,用蒙特卡罗模拟来讨论结果。在具有精确宿主死亡时问的6 个 菌株中,我们估计的最迟公共祖先和传染病学的结论相一致,我们估讦的s a r $ 冠状 病毒的进化率与报道的h i v - 1 病毒的进化率是一致的。 关键词;功能基因组,系统生物学,蛋白相互作用网络,聚类,网络可视化,数据融 合,蛋白复合物,蛋白功能预测 i i r e s e a r ( 3 ho ng e n i cf u n ( 3 t i o nb yc i u s t e r i n go np r o t e i nn e t w o r k i np o s t - g e n o m ee r a , t l l eo b j e c t i v eo ff u n c t i o n a lg e n o m i c ss t u d yi st od e c o d et h e f u n c t i o n so fg e n e sa n dc o n t r o lt h e m s i n c et h ep r o t e i n si n t e r a c t i n gw i t he a c ho t h e rt e n dt o h a v es i m i l a rc e l l u l a rf u n c t i o n s , w e 咖f o l l o w i n gt h er o u t eo f “i n t e r a c t i o n s - n e t w o r k - f u n c t i o n s 竹 i n f e rt h ep o t e n t i a lf u n c t i o n so fu n k n o w np r o t e i n sb yc o m p a r i n gt h e mw i t h p r o t e i n so fk n o w nf u n c t i o n sf r o mt h el a t e s tp r o t e i n ,p r o t e i ni n t e r a c t i o nn e t w o r ka n do t h e r h i g h - t h r o u g h p u te x p e r i m e n t a ld a t a s t a r t i n gw i t ht h er e s e a r c h i n go nt h ev i s u a l i z a t i o no f n e t w o r k , t l l ec l u s t e r i n go nm u l t i p l es o u r c e sd a t aw i t ht e m p o r a la n ds p a t i a li n f o r m a t i o n , a n d m o d u l a r i z e dc l u s t e r i n g w ep l a no nd e v e l o p i n gn e wa l g o r i t h m st os o l v et h ep r o b l e m so n f u n c t i o n a lp r o t e o m i c sa n dc o m p a r et i l 咖w i t ho t h e rm e t h o d si nm u l t i f a r i o u sw a y s f i n a l l y 。 w ew i l lc o m b i n et l l em e t h o d sw i t ht h es o r w a r eo fv i s u a l i z a t i o n so fn e t w o r ka n da n a l y z e t h ep r o t e i n sf u n c t i o n so f b u d d i n gy e a s ts y s t e m i c a l l y w ep r o v i d eas i m p l eb u ti n f o r m 撕o n - r i c ha p p r o a c hf o rv i s u a l i z a t i o n , w h i c hi n t e g r a t e s t o p o l o g i c a la n db i o l o g i c a li n f o r m a t i o n i n0 1 1 1 m e t h o d , t h et o p o l o g i c a li n f o r m a t i o nl i k e q u a s i - c l i q u e so rs p o k e - l i k em o d u l e so ft 1 1 en e t w o r ki se x t r a c t e di n t oac l u s t e r i n gt r e e , w h e r eb i o l o g i c a li n f o r m 撕o ns p a n n i n gf r o mp r o t e i nf u n c t i o n a la n n o t a t i o nt oe x p r e s s i o n p r o f i l ec o r r e l a t i o n sc a nb ea n n o t a t e do n t ot h er e p r e s e n t a t i o no fi t w eh a v ed e v e l o p e da s o f t w a r en a m e dp i n cb a s e do no u ra p p r o a c h c o m p a r e dw i t l lp r e v i o u sc l u s t e r i n g m e t h o d s o u rc l u s t e r i n gm e t h o da 蜊p e r f o r m sw e l ib o t hi nr e t a i n i n gam e a n i n g f u li m a g e o ft h ep r o t e i ni n t e r a c t i o nn e t w o r ka sw e l la si ne n r i c h i n gt h ei m a g ew i t hb i o l o g i c a l i n f o r m a t i o n t h e r e f o r ei sm o r es u i t a b l ei nv i s u a l i z a t i o no f 也en e t w o r k w ep r e s e n t e das i m p l eh i e r a r c h i c a lc l u s t e r i n ga l g o r i t h mt h a tg o e sal o n gw a yt o i n t e g r a t eh i g h - t h r o u g h p u td a t ai n t oi n v e s t i g a t i o n so ft h es y s t e m a t i ca n dd y n a m i c o r g a n i z a t i o no fb i o l o 西c a ln e t w o r k s o u rm e t h o de f f e c t i v e l yr e v e a l st h em o d u l a rs t r u c t u r e o ft l l ey e a s tp r o t e i n p r o t e i ni n t e r a c t i o nn e t w o r ka n dd i s t i n g u i s h e sp r o t e i nc o m p l e x e sf r o m f u n c t i o n a lm o d u l e sb yi n t e g r a t i n gh i g h - t h r o u g h p u tp r o t e i n - p r o t e i ni n t e r a c t i o nd a t a 谢t l lt h e a d d e ds u b c e l l u l a rl o c a l i z a t i o na n de x p r e s s i o np r o f i l ed a t a f u r t h e r m o r e ,w et a k ea d v a n t a g e o ft h ed e t e c t e dm o d u l e st op r o v i d ear e l i a b l yf i m c t i o n a lc o n t e x tf o rt h eu n c h a r a c t e r i z e d c o m p o n e n t sw i t h i nm o d u l e s o nt h eo t h e rh a n d ,t h ei n t e g r a t i o no fv a r i o u sp r o t e i n - p r o t e i n a s s o c i a t i o ni n f o r m a t i o n sm a k e so u rm e t h o dm o r er o b u s tt of a l s e - p o s i t i v e s ,e s p e c i a l l yf o r d e r i v e dp r o t e i nc o m p l e x e s an e wm e t h o dc a l l e dm o d u l a r i z e dc l u s t e r i n gm e t h o d ( m c m ) w h i c ha r eb a s e do nt h e d i r e c ta n ds e c o n d - o r d e ri n t e r a c t i o n so fm o d u l e s , i sa p p l i e dt ot h el a t e s th i g h - t h r o u g h p u t p r o t e i n - p r o t e i nn e t w o r ko fy e a s tt op r e d i c tt h ef u n c t i o no fu n k n o w np r o t e i n si n t h e m o d u l e s pv a l u eo fh y p e r g e o m e t r i cc u m u l a t i v ed i s t i l b u t i o no fm o d u l e sa n dt h e d i s t u r b a n c ea n a l y s i so nt h ed a t a ;i n c l u d i n ga d d i n g , r e m o v i n ga n dr e w i r i n gi n t e r a c t i o n s ,a r e e m p l o y e dt oe v a l u a t et h ep r e d i c t i o nq u a l i t ya n d r o b u s t n e s so f t h em e t h o d t h er e s u l t ss h o w t h a tm c mh a sh i g h p r e d i c t i o np r e c i s er a t ea n dc o v e r a g e , a n d i ti sr o b u s tt oh i r g h f a l s e - p o s i t i v ed a ma n dm i s s i n gd a t a t h ep r e d i c t e dr e s u l t so fu n k n o w np r o t e i n sw i t hh i g h p r e d i c t i o np r e c i s er a t ec a nb ei n s t r u c t i v ei nb i o l o g i c a la n a l y s i sa n dt h ea l g o r i t h i nc a nb e g e n e r a l i z e dt oo t h e rn e t w o r k sw i t ht h es i m i l a rs t r u c t u r e s w ed e s i g n e ds o f t w a r ef o rv i s u a l i z i n gt h ep p in e t w o r kb yc l u s t e r i n gm e t h o d t h e s o f t w a r ei n t e g r a t e ds e v e r a lc o m m o nc l u s t e r i n ga l g o r i t h m si np p in e t w o r ka n a l y s i s , 基于蛋白网络聚类的基因功能研究;a b s t r a c t e m p l o y e dn e wa n dt r a d i t i o n a lv i s u a l i z a t i o nm e t h o d a n dc o m b i n e dt h et o p o l o g i c a la n d b i o l o g i c a li n f o r m a t i o nt o g e t h e r i to f f e r sac o n v e n i e n ta n a l y s i sp l a t f o r m o n p r o t e i n i n t e r a c t i o nn e t w o r kf o rd i f f e r e n to p e r a t i o ns y s t e m s i na d d i t i o n , s p e c t r a lm e t h o dd e r i v e df r o mg r a p ht h e o r yw a si n t r o d u c e dt oo , i w , o v e r h i d d e nt o p o l o g i c a ls t r u c t u r e s ( i ,e q u a s i - c l i q u e sa n dq u a s i - b i p a r t i t e s ) o fc o m p l i c a t e d p r o t e i n p r o t e i ni n t e r a c t i o nn e t w o r k s o u ra n a l y s e ss u g g e s tt h a tt h e s eh i d d e nt o p o l o g i c a l s t r u c t u r e sc o n s i s tw i t hb i o l o g i c a l l yr e l e v a n tf u n c t i o n a lg r o u p s t h i sr e s u l tm o t i v a t e san e w m e t h o dt op r e d i c tf u n c t i o no f u n c h a m c t e r i z e dp r o t e i n sb a s e do nt h ec l a s s i f i c a t i o no f k n o w n p r o t e i n sw i t h i nt o p o l o g i c a ls t r u c t u r e s u s i n gt h i ss p e c t r a la n a l y s i sm e t h o d ,4 8q u a s i - c l i q u e s a n d6q u a s i - b i p a r t i t e sw e r ei s o l a t e df r o man e t w o r ki n v o l v i n g1 1 8 5 5i n t e r a c t i o n sa m o n g 2 。6 1 7p r o t e i n si nb u d d i n gy e a s la n d7 6u n c h a r a c t e r i z e dp r o t e i n sw e r ea s s i g n e df u n c t i o n s w ep r o p o s eam a t h e m a t i c a lm o d e lt oe s t i m a t et h ee v o l u t i o nr a t eo ft h es a r s c o r o n a v i m sg e n o m ea n dt h et i m eo ft h el a s tc o m m o na n c e s t o ro ft h es e q u e n c e ds a r s s t r a i n s u n d e rs o m ec o m m o na s s u m p t i o n sa n dj u s t i f i a b l es i m p l i f i c a t i o n s ,af e ws i m p l e e q u a t i o t i si n c o r p o r a t i n gt h ee v o l u t i o nr a t e 张) a n dt i m eo f t h el a s tc o m m o na n c e s t o ro f t h e s t r a i n s ( t 0 ) c a nb ed e d u c e d w et h e ni m p l e m e n t e dt h ei e a s ts q u a r em e t h o dt oe s t i m a t ek a n dt of r o mt h ed a t a s e to fs e q u e n c e sa n dc o r r e s p o n d i n gt i m e s m o n t ec a r l os t i m u l a t i o n w a se m p l o y e dt od i s c u s st h er e s u l t s b a s e do n6s t r a i n sw i t ha c c u r a t ed a t e so fh o s td e a t h , w ee s t i m a t e dat i m eo ft h el a s tc o m m o na n c e s t o r , w h i c hi sc o i n c i d e n tw i t he p i d e m i c i n v e s t i g a t i o n s , a n da l le v o l u t i o nr a t ei nt h es a m er a n g ea st h a tr e p o r t e df o rt h eh i v - lv i r o s k e y w o r d s :f u n c t i o n a lg e n o m i c s s y s t e m sb i o l o g y ,p r o t e i ni n t e r a c t i o nn e t w o r k , c l u s t e r i n g ,v i s u a l i z a t i o no f n e t w o r k ,d a t af u s i o n ,p r o t e i nc o m p l e x ,p r e d i c t i o no f p r o t e i n f u n c t i o n i v 图目录 图2 1 近年来发表的蛋白相互作用网络方面的文章8 图2 2 基于序列对蛋白相互作用的预测方法9 图2 3 酵母双杂交系统l o 图4 1 蛋白一蛋白相互作用网络的拓扑结构2 7 图4 24 8 个准团的功能分类的百分比3 3 图4 3 功能预测和小亚基处理复合物注释实验结果的比较3 4 图4 4 比较在有和无拓扑结构下网络的不同表示3 8 图5 1 蛋白网络的传统显示方法4 2 图5 2 加入功能注释的a d j w 聚类树4 8 图5 3 某个分支的详细结构4 9 图5 4r n a 聚合酶争2 6 s 水解酶的蛋白相互作用5 0 图5 5 用p i n c 软件看到的酵母蛋白网络的效果图5 1 图5 6 比较和验证图5 8 图5 7 1 1t l e e 中显示出的r n a 处理的蛋白模块5 9 图6 1 相互作用蛋白的同定位和共表达的性质6 2 图6 2 整合分析揭示包含时空信息的p p i 网络模块结构6 3 图6 3 聚类方法的比较6 5 图6 4 通过的选取来给a d j b 树中蛋白复合物定界限6 6 图6 5a d j b 和a d j w 方法的鲁棒性分析6 8 图6 6 发现的功能模块举例7 l 图7 1 两个功能团相似性的定义7 9 图7 2 聚类方法蛋白预测准确百分度和覆盖率分析8 3 图7 3m c m 方法的鲁棒性分析8 4 图8 1p i n c0 9 版本欺件用户界面8 7 图8 2 模块调用关系图9 0 图1 0 1 系统发生树9 4 图l o 2d ( s ,s ) 和( t + t ) 的线性关系9 7 图1 0 3 蒙特卡罗模拟对k 值的估计9 8 表目录 表2 1 蛋白相互作用数据库1 1 表4 1 对准目的注释3 0 表4 2 通过4 8 个准团对未知功能蛋白的功能的预测3 5 表5 1 用聚类方法找出的未知功能的集团列表5 2 表5 2 聚类树分支的p 值和复合物的p 值5 5 表7 1 对n i p s 注释的未知功能蛋白的功能预测8 1 表1 0 1 宿主死亡时间表9 6 表1 0 2 对菌株的分组9 7 表1 0 3 蒙特卡罗模拟用的参数9 8 声明 我声明本论文是我本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢的地方外,本论文中不 包含其他人已经发表或撰写过的研究成果。与我一同工作的同志对本研 究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 作者签名:声幺您 日期劲以6 论文版权使用授权书 本人授权中国科学院计算技术研究所可以保留并向国家有关部门或 机构送交本论文的复印件和电子文档,允许本论文被查阅和借阅,可以 将本论文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印或扫描等复制手段保存、汇编本论文。 ( 保密论文在解密后适用本授权书。) 作者签名步完楚导师签名:忙i 觋生日期:枷,_ 6 第一章绪论 1 1 课题研究意义 2 1 世纪是生物学的世纪,人类基因组计划的完成是生命科学发展的一大步人类 基因组计划已经破译了基因序列,下一步将由功胄旨基因组学来研究已破译基因的功 能并控制它们,最终为人类征服自然、战胜疾病服务。正如千岁基因组公司( m i l l e n i u m p h a r m a c e u t i c a l ) 的r o b e r tt e p p e r 所说,“我们知道了词典里面有什么,现在我们 需要知道每个词的意思”尽管基因序列的9 9 已经被破译,但是只有1 0 的基因的 机能是已知的,这就使得如何获得更多基因功能成为功能基因组学的主要研究课题 功能基因组的发展要求对基因功能的分析有新的思路很长时间以来,研究基因 的功能都是针对单个基因来进行的,其思路是“序列一结构斗功能”。相对于功能基 因组这一研究目标来说,这种。一次一个基因”的研究模式不但在效率上已经完全不 能适应要求,更严重的是这种研究方式本身就无法揭示生命活动的复杂性和本质很 多研究证明,生物的功能一般都是通过一批基因的相互作用形成网络而得以发挥的, 所以改变原来的“一次一个基因”研究方式和。序列_ 结构专功能”思路,以系统生 物学的观点,采用“相互作用寸网络叶功能”新思路,整合基因和蛋白质的不同方 面,不同层次的信息进行基因功能分析,已经成为当前功能基因组研究的新方向 最新的实验研究数据为这种研究蛋白功能的新思路提供新的可能,这些数据包括 蛋白相互作用数据,蛋白核酸相互作用数据,蛋白定位组数据,和基因表达谱数据等 特别是近两年酵母双杂交、蛋白复合物纯化等实验技术的发展产生了高通量,大规模 的蛋白相互作用数据( u e t z ,6 i o te ta 1 2 0 0 0 :i t o ,c h i b ae ta 1 2 0 0 1 ;g a v i n , b o s c h ee ta 1 2 0 0 2 ;h o ,g r u h l e re ta 1 2 0 0 2 ) ,使得由它们整合成的网络成为基 因功能研究的新试验场。 通过对蛋白相互作用网络的分析,科学家发现相互作用的蛋白质趋向于有相似的 细胞功能s c h w i k o w s k i ( s c h w i k o w s k i ,l e t ze ta 1 2 0 0 0 ) 等人对酵母的相互作用 网络进行了统计,发现具有相互作用的蛋白中6 3 的蛋白具有同样的细胞功能。蛋 白网络的这种性质就为蛋白功能研究提供了一个很好的生物前提。同时,以前生物学 知识积累所产生的知识库( i ) r y s d a l e ,c r o s b ye ta 1 2 0 0 5 ) 为蛋白功能分析提供了良 好的生物学基础。 聚类方法( c l u s t e r i n g ) ,能将具有相同特征( 如:相同功能,相同表达趋势) 的个体聚集在一起,具有较高的容错性,已在基因芯片分析领域得到了广泛的应用 ( e i s e n 。s p e l i m a ne ta 1 1 9 9 8 ) 。根据蛋白相互作用与蛋白功能一致性的特点,聚 类方法能基于近邻相互作用研究蛋白功能模块并预测蛋白功能,自然就成为蛋白网络 研究的一种很好的选择。 中国科学坑博士学位论文基于蛋白嗣络聚类的莲囡功能研究 通过聚类方法对功能蛋白组的深入研究,将会探索出一条研究基因功能的新路 子,可以拓展对蛋白调控网络和动力学的了解,加深人们对生物现象的认识,最终为 人类了解自然、征服自然、战胜疾病提供知识储备和依据。 另外,研究蛋白网络的方法具有一定的普适意义。在蛋白网络中被成功应用的统 计学习方法可以应用到当前网络科学研究其他领域,如互联网、人际关系网和生物代 谢网等,处理类似的问题,对其他领域的研究有借鉴意义。 1 2 基因功能的生物信息学研究 自从入们认识到生物体的遗传信息通过所谓的基因从父代传递给子代的,对基因 的功能的研究就一直在不断的深入。所谓基因的功能( l i ,w a n ge ta 1 2 0 0 0 ) 这里指 的是基因的生化功能,细胞功能,发育功能,适应功能等属性虽然遗传信息是以d n 为载体进行传递的,但根据中心法则的作用,大部分基因的功能是通过其翻译成的蛋 白的功能体现出来的,大量的生理和生化实验为揭示基因的功能提供了实验的基础。 长期的生物学研究积累了大量的对基因功能研究的知识,形成了丰富的数据库资 源( o e n eo n t o l o g y ,但是大量的基因的功能仍然是未知的,这就使得采用 生物信息学从已知_ 功p r 能o j e 推c t 断2 0 未0 6 知) 功能成为可能。 1 2 1 传统的推断基因功能的方法 人类及大批生物的完整基因组数据的测序完成为通过已知基因推断未知蛋白功 能提供新的可能,这就是通过序列信息研究基因功能。根据研究途径的不同,我们大 致可以把通过序列推断功能的方法分为两类( g u o2 0 0 3 ) ,一类是基于序列同源性分析 的方法,另一类是不基于同源性分析的方法。 序列同源性是基因在进化上的具有共同的祖先,可以分为直系同源( o r t h o l o g ) 和旁系同源( p a r a l o g ) ,无论是哪种同源都很有可能表现在基因序列在核酸层次或蛋 白层次上序列的相似性,这种相似性可以用序列比对的方法对基因组数据逆行分沂得 到,这就是所谓的同源性分析方法。大量研究发现,序列同源的基因往往在功能上是 相近的,所以可通过序列把不同的蛋白的功能联系起来( n a t a l e ,s h a n k a v a r a me ta 1 2 0 0 0 ) 。但是,序列同源性分析具有的局限性在f 对于一个具有多个结构域的蛋白, 序列的局部的相似性有时不能代表蛋白的同源性,与功能的关系就更不能确定了,而 序列不同源而蛋白结构同源的情况也自然不能包含到分析中。 不基于序列同源的分析方法( h u y n e n ,s n e le ta 1 2 0 0 3 ) 主要是通过研究 基因序列在基因组上的关系,来推断蛋白之问功能关系的方法。例如如果在不同的物 种的基因组中发生了基因的融合或基因分裂的事件,则参与这个事件的基因就可能在 功能上发生关系;如果两个基因发生连锁的突变,则两个基因也可能有相互作用;在 基因组上,如果相邻的基因在多个进化距离很远的物种之间仍保持在同线性的区域或 2 第一章绪论 者在多个物种中同时出现和不出现,这两个基因也有可能有相互关系,所有的这些基 于序列进化的信息都可以为蛋白之阃的功能关系找到桥梁,进而这些关系还可以作为 研究蛋白相互作用的出发点。 在序列研究的基础上,基于蛋白结构的分析能从更深入的角度研究蛋白的功能 关系( f e t r o w ,g o d z i ke ta 1 1 9 9 8 ;l u ,a r a k a k ie ta 1 2 0 0 3 ) 通过蛋白序列的 研究可以发现许多保守的结构域,研究对应蛋白的结构,这些结构域往往对应了蛋白 的某种功能,而具有相同或相似的结构域的蛋白可能具有相同和相似的生化功能。这 种结合了序列和结构研究蛋白功能的方式,体现了多年来进行蛋白功能研究的传统方 式,即。序列寸结构寸功能” 1 2 2 系统生物学观点下的基因功能研究 系统生物学是采用系统科学的方法,将生物过程看成不是孤立的很多部分,而是 作为整个系统来进行研究,它借助和发展多学科交叉的新技术方法,研究功能生命系 统中的所有组成部分的系统行为、相互联系以及动力学特性,进而揭示生命系统控制 和设计的基本规律( a u f f r a y 。i m b e a u de ta 1 2 0 0 3 ;z h a n g2 0 0 6 ) 系统生物学不仅 能够能让我们全息地了解组成生命系统的每个部分的成分,更重要的还有它们之间的 动态关系,对外界刺激和干扰的反应,进行预言和设计系统未来的行为 当前的多种生物实验方法产生的高通量大规模的实验数据能提供基因的功能信 息生物芯片技术的发展提供了大量的基因表达数据,对这些数据的分析可以提供对 基因的生物功能的知识,例如具有共同表达模式的基因可能具有相同的细胞功能,通 过聚类等方法就能够对表达谱的数据进行基因功能研究,已经取得了很大的成功实 验方法对蛋白在细胞中的定位的研究可以提供基因在细胞中空间位置,这方面的实验 可以提供蛋白功能的一个侧面蛋白表达量,基因调控网络,代谢网络,信号传导网 络、蛋白相互作用网络等都能够提供蛋白功能的信息 从系统生物学的观点出发研究蛋白功能突破了单个蛋白研究的模式,而是把基因 和蛋白的关系作为研究对象,通过系统的分析单一物种进而多物种的基因形成的网络 揭示蛋白的功能。 1 2 3 用蛋白网络进行基因功能研究 采取系统生物学的观点,可以利用蛋白网络进行功能研究。对于蛋白的物理相互 作用的大规模实验是近两年发展起来的一个重要的数据源,这方面的数据主要来自两 类实验,一类是基于酵母双杂交的方法,另一类是免疫共沉淀的方法,其他还有一些 小规模的实验数据,被国际上收集在一些数据库中。对蛋白相互作用网络的研究集中 在数据收集、评估整体拓扑分析、进化分析等多个方面,其中很重要的一个方面就 是通过对蛋白相互作用网络的分析,可以进行蛋白功能模块寻找和蛋白功能预测。 ( 详见第二章) ,其中图聚类的算法被广泛的应用( 详见第三章) 中国科学院博士学位论磬基于蛋白网络聚类的基因功能研究 1 3 课题目标和内容 虽然聚类算法在蛋白网络的蛋白功能研究中已经得到应用,但是还有许多有待解 决的问题,特别是不同的生物问题需要多种不同的算法,我们就是主要通过聚类方法 从不同的研究目标出发,设计算法对蛋白网络进行研究。 本文基于蛋白物理相互作用数据对蛋白功能研究,采用的方法主要是基于聚类的 方法,从寻找蛋白功能团,网络可视化、含时空的多数据源的聚类、蛋白模块化聚类 等切入点入手,提出图聚类的新算法,解决蛋白功能分析的实际问题,采用多种评价 方法对国际上和我们新开发的聚类方法进行综合评估,最终把聚类方法研究和可视化 软件开发结合起来,对出芽酵母蛋白功能进行综合研究。 。 具体研究内容包括: i , 寻找蛋白团的方法研究。具有相互作用的蛋白具有相似的细胞功能,具有 紧密链接的蛋白团的内部,具有更为相似细胞功能,通过这样的蛋白集团可以进一步 进行功能模块分析和对未知功能蛋白的预测,寻找这样的团,有很大的实际意义 2 ) 研究适合于蛋白网络可视化的聚类方法。针对蛋白网络数据具有高通量、 大规模的特点,如何帮助生物学家直观、客观的分析大量蛋白相互作用数据是一个需 要迫切解决的问题。传统的网络可视化方法对于那些链接紧密的团总会有大量的边会 重合起来,如何通过一种方法更好的显示蛋白相互作用网络成为一个问题,用聚类树 的矩阵显示方法就可以解决这个问题。 3 ) 研究含时空信息多数据源的蛋白数据的聚类方法除了通过蛋白相互作用网 络可以对蛋白功能进行分析之外,很多其他的数据源对分析蛋白功能也有帮助,比如 蛋白定位组数据、基因表达数据等。现有的聚类方法不能区分蛋白细胞功能的时空信 息,如何整合这些含时空信息的数据对蛋白功能进行更全面或更具体的分析是一个需 要解决的问题 4 ) 研究基于功能模块的蛋白网络聚类方法。综合当前蛋白网络的聚类方法研究, 出现了一些新的聚类方法,但是大多数的聚类方法是把蛋白网络看成点,定义点之间 的邻近性。但是蛋白质行使功能是具有模块化的特征的,这种特征实际上表现为模块 内部紧密链接,而模块之间松散链接,能体现这种特性的聚类方法必然能够对蛋白功 能模块分析提供更多、更好的知识。 5 ) 进行多种聚类方法的软件的实现和网络可视化软件的开发由于现在国际上 已经发表的和我们自己发展的聚类方法已有多种,开发能够进行多种聚类分析和网络 显示的软件成为必要和可能。 6 ) 提出多个技术指标对各种聚类进行综合评估。蛋白网络聚类都是为了蛋白功 能的研究,但是仍有具体的目的和要求;不同的聚类方法具有一定的互补性,为了研 究不同聚类方法的适用性和优缺点,对蛋白网络聚类的评测就是个必须要解决的问 题,这项研究贯彻在研究的始终。 4 第一章绪论 7 ) 运用多种聚类方法和可视化工具对酵母蛋白功能进行综合分析网络聚类研 究的最终目的是给出生物分析结果,揭示生物现象,指导生物实验。这项研究贯彻在 整个聚类研究的始终。 l4 本文的工作与组织 本文通过对蛋白相互作用网络聚类方法的研究,我们找到了能够迅速找出蛋白团 的谱分析方法,适合网络矩阵可视化的聚类算法,能更准确确定蛋白复合物的结合多 数据源的聚类算法,更准确预言蛋白功能的基于蛋白模块的聚类算法。通过对数据的 分析,我们找出了一些未知蛋白的功能集团,预言了一系列的未知蛋白的生物功能, 预测了若干个蛋白复合物同时我们还开发了基于聚类和矩阵可视化的蛋白相互作用 分析软件p i s c ,为生物学家利用蛋白网络分析蛋白功能提供了一个更方便、有效、 快捷的软件平台 本文共分九章,其内容安排如下: 第一章绪论。主要介绍本文的意义和目的,以及文章结构; 第二章蛋白相互作用网络主要介绍蛋白相互作用网络的数据来源,主要问题, 研究方向和研究现状; 第三章蛋白网络聚类研究简单介绍聚类研究,介绍在蛋白网络研究中使用的 聚类算法,主要问题; 第四章蛋白网络谱分析。介绍谱分析方法对蛋白拓扑结构进行分析,这是我早 期参与过的一个蛋白网络的工作,与后来的聚类工作有很大关系,为了保持我们工作 的完整性,放在这里作为一章 第五章适合于可视化的聚类研究介绍适合于可视化的聚类研究的工作和主要 结果 第六章整合时空信息的聚类研究。介绍整合了定位组信息和表达谱信息的蛋白 网络聚类方法和对蛋白复合物的分析 第七章基于模块的聚类。介绍了一种基于模块的一阶和二阶链接的聚类方法, 和采用它对网络蛋白功能的预测结果 第八章可视化软件的设计介绍了对蛋白网络可视化软件的目标,模块和功能 各方面的设计
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 八中自主招生考试题及答案
- 解析卷公务员考试《常识》同步练习试题(含答案及解析)
- 护理查对制度试题(含答案)
- 贵州企业招聘:2025贵州黔晨综合发展有限公司招聘15人考前自测高频考点模拟试题及完整答案详解1套
- 2025年在线职业技能认证平台投资风险评估分析报告
- 2025年文化娱乐产业产业链重构与协同发展报告
- 2025年婴幼儿配方食品营养配方研究进展与挑战分析报告
- 2025年城市慢行系统建设与城市交通拥堵治理创新策略可行性研究报告
- 2025年教育行业质量评估与认证体系在学校特色教育中的应用报告
- 2025年海洋生态修复政策与海洋生物保护研究报告
- 香港公司章程范本中文
- 数据治理与合规性试题及答案
- 人教版高中地理选择性必修一-4.2洋流(第1课时)(教学设计)
- 2024年公安机关理论考试题库500道附参考答案【基础题】
- 阿尔茨海默病药物治疗指南(2025)解读
- 心脏永久起搏器植入术病人护理查房
- 粮油保管员(高级)职业技能鉴定参考试题(附答案)
- GB/T 196-2025普通螺纹基本尺寸
- 新课标下初高中数学教学的衔接研究
- 2024-2025学年人教版二年级体育下册全册教案
- 2025年初升高高中自主招生考试化学试卷试题(含答案详解)
评论
0/150
提交评论