已阅读5页,还剩64页未读, 继续免费阅读
(计算机应用技术专业论文)生化网络数据服务系统的设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
t l t l 日科学技术人学硕1 学忙沦文摘要 摘要 随着生物学尤其足分r e 物学技术的飞速发展,指数增长的生物学数据对计算机的存储 和处理能力提出了很高的要求。当前的生物信息学研究迫切需婴大最生物学软件的支持。本 论文针对生物信息学中的综合方法设计了一个生物信息学应用平台并对其巾的蒋f :问题 作了系统深入的研究。 以往的牛物信息学心川i i ,瑚常都足为菜个研究| i 的巾独汁软件,这样的软件小易扩 胜和整合,町重1 j 性1 i 高。所以木沦文提m 一个幕于j 2 e e 的生物信息学研究i r 台。这个、| , 台滚顾了玎移植性和t 扩展中l :,埘时继承了j 2 e e 的良好架构。为今后m 此攮础j :开技系 列的研究软件打下良好的牡础。 确立r 软件平台的架构之后,我们需要。个良好的数据模拟作为支撑。沦文引入砷p 存 很多学科巾广泛使用的离散事件系统建模:i :具p e t r i 删。在对p e t r i 嘲做了一定的扩展之 后可以很好的用1 二描述生物化学刚络,尤j e 足代谢网络的动j j 。学 j :为。龋j :这个摸j “系统, 设计了一种编辑l :具k m e d i t o r 刑来建观轴胞动力学模型。 作为软件平台的一个关键模块,本论文详细讨论了数据库的设计过程。h 前已经有很多 生物化学网络的相关数据库,f = i 是有各自h i i 司的侧重点。在分析丁通路数据库的应用和研究 现状、数据来源和所使用的技术之后,设计并实现了一个以关系数据库为具体实现技术的通 路数据库。这个数据库的数据模型采用了p e t r i 嘲模型,使用对象关系数据库p o s t g r e s q l 作为数据席管理系统。为了支持对数据库的行取操作,使j 了h i b e r n a t e 来简化对蒙的持久 化,以b i o c y c 数据库中的数据填充了这个数据席。 沧文最后详细讨沦了q i 物化学网络可视化在系统叫i 物学研究中的重要作用。首先比较了 牛物化学删络的各种描述方式,进而说咧可视化技术对j 二蛋白质相互作用的秆j 荚研究起到了 很好韵辅助作用。还介绍了一种受到较多关注的用j 1 蛋白质相互作用网络描述的符号系统。 根据一些已有的可视化技术研究,本章提m 一种新的基于s v g 技术的表示框架,可以用j : 大型蛋白质相赢作用网络的可视化,解决了网页显示大犁蚓络图时,不能在一张图中实现缩 放的问题,同时为图形的自动生成提供r 接口。晟后以实例说明可视化技术作为一种很好 的研究工具,可以给生物学研究提供全新的视角:并给出了使用图形描述相瓦作用网络的指 导原则。 与已有的研究相比,本沦文的创新之处在于: ( 1 ) 从软件整合的角度着眼提出一个蛙干j 2 e e 的牛物f * 息学研究平台架构,从i m 觅 服以往生物信息学软件小易整合、不易扩展、可重用性低等问题。 ( 2 )引入p e t r i 嘲作为生物化学网络的数据模型,很好的适应了细胞动力学模拟的需瘿。 井丌发了。个建立p e t r i 刚梭口的编辑上姐。 ( 3 ) 初步建立了一个新的生物化学网络数据库。 ( 4 ) 提出一种生物化学网络可视化的表示框架,用于显示大型网络。 关键词:生物信息学,生化例络,软件、f ,台,p e t r ip 阗,通路数据片,可视化 + 本论文研究工作得到了高水平大擘建设重点项目“萤白质空问结构的生物信息学研究”的资助 璺型堂塾查叁堂婴主堂! ! 丝兰 垒坠竺! t _ a b s t r a c t t h er a p i dd e v e l o p m e n t so f t e c h n o l o g i e si nb i o l o g y , e s p e c i a l l yi nm o l e c u l a rb i o l o g y , m a k e t o f f so fb i o l o g i c a ld a t a ,w h i c hr e q u e s tm o r ep o w e r f u lc o m p u t e r sa n ds o f t w a r e t o o l s t h i s d i s s e r t a t i o nm a k e sas y s t e m a t i ca n dt h o r o u g hs t u d yo ns e v e r a lk e yi s s u e so nb i o l o g i c a ls o f t w a r e d e v e l o p m e n t m a n ys o f t w a r et o o l sd e v e l o p e df o rs p e c i a lp u r p o s e s ,b u tf e wo ft h e ma r cr e u s a b l ea n d e x t e n s i b l e ,a n dw o r kt o g e t h e rs m o o t h l ya n di n t e g r a t i v e l y t h e r e f o r e ,w ed e s i g naj 2 e e 。b a s e d p l a t f o r mt os u p p o r tb i o i n f o n n a t i c sr e s e a r c h i n h e r i t e df r o mj 2 e ea r c h i t e c t u r e ,t h i sp l a t f o r m i s r e u s a b l ea n de x t e n s i b l e t h ep l a t f o r mn e e d sat h e o r e t i c a lm o d e ls u p p o r t i nt h ep a s ts t u d i e s ,m a n yd a t am o d e la r e p r o p o s e dt oi n v e s t i g a t et h eb i o m o l e c u l a ri n t e r a c t i o n s m o s to ft h e mu s et h em e t h o d so fg r a p h t h e o r y :w ei n t r o d u c et h ep e t r in e t ,aw i d e l yu s e dm o d e l i n gt o o lf o rd i s c r e t ee v e n t s t h ee x t e n d e d p e t f in e tc a nw e l ld e s c r i b et h ed y n a m i c a lb e h a v i o ro fb i o c h e m i c a ln e t w o r k s ,e s p e c i a l l yo f m e t a b o l i cn e t w o r k s a n dw ed e v e l o pag r a p h i c a le d i t o rb a s e do nt h i sm o d e l i n gs y s t e m a sak e ym o d u l e ,t h ed a t a b a s ei sw e l ld i s c u s s e da n dd e s i g n e d ,p r e s e n t l y , m a n yd a t a b a s e s a b o u tb i o c h e m i c a ln e t w o r k sa l ed e v e l o p e dw i t hd i f f e r e n tf o c u s e sw ed e t a i l e d l yi n v e s t i g a t et h e a p p l i c a t i o n sa n dr e s e a r c h e s0 np a t h w a yd a t a b a s e s ,t h es o u r c e so fp a t h w a yd a t aa n dt e c h n o l o g i e s u s e db yt h o s ed a t a b a s e s o u rd a t a b a s er e c r u i t sp o s t g r e s q la st h ed b m s ,h i b e r n a t ea s o b j e c t r e l a t i o nm a p p i n gm o d u l e ,b i o c y ca sd a t as o u r e e s f i n a l l y , w ee m p h a s i z et h ek e yr o l eo f t h ev i s u a l i z a t i o no f b i o c h e m i c a ln e t w o r k sp l a y e di n s y s t e m sb i o l o g yr e s e a r c h e sw ec o m p a r em a n yd e s c r i b i n gm e t h o d s o f b i o c h e m i c a ln e t w o r k s ,a n d i n d i c a t et h ei m p o r t a n c eo f t h ev i s u a l i z a t i o n a ns v g b a s e dv i s u a l i z a t i o nf r a m e w o r ki sd e v e l o p e d t os u p p o r tt h ev i s u a l i z a t i o no f l a r g en e t w o r k s c o m p a r e dw i t hp r e v i o u sr e s e a r c h e s ,t h en e wc o n t r i b u t i o n so f t h ep a p e ra r e : ( 1 ) f r o mt h ev i e w p o i n to f s o t t w a r ei n t e g r a t i o n ,d e s i g n sap l a t f o r mb a s e d - o nj 2 e e ,w h i c h i sr e u s a b l ea n de x t e n s i b l e r 2 、j n t r o d u c e sp e t f in e ta st h ed a t am o d e lo f b i o c h e m i c a in e t w o r k s ,w h i c hm e e t st h en e e d o ft h em o d e l i n go fc e l l u l a rd y n a m i c sv e r yw e l l ,w ea l s od e v e l o pag r a p h i c a lt o o lt os u p p o r tm o d e l e d i t ( 3 ) d e s i g n san e w b i o c h e m i c a ld a t a b a s e ( 4 ) p r e s e n t sav i s u a l i z a t i o nf r a m e w o r kt os u p p o r tt h ev i s u a l i z a t i o no f l a r g en e t w o r k s k e y w o r d s :b i o i n f o r m a t i c s ,b i o c h e m i c a ln e t w o r k s ,p l a t f o r m ,p e t r in e t ,p a t h w a yd a t a b a s e v i s u a l i z a t i o n 中雹科学技术大学硕士学位论文 致谢 致谢 本课题承蒙高水平大学建设重点项目“蛋白质空间结构的生物信息学研究” 的资助,特致殷切谢意。 衷心感谢导师雨丽华教授,在薯午的学习期间,她不仅在研究方向与研究方 法上给予了我耐心细致的教导,而目对我的学习和生活也给予了热情的帮助。她 严谨的治学态度、勤奋的工作作风、敏捷的思维、对问题实质的准确把握以及对 新知识领域的探索精神,使我受益匪浅,在此表示衷心的感谢! 衷心感谢李胜柏老师,在完成学业的过程中得到她很多帮助。 衷心感谢曹蓓老师,她对我为人处事方面的指点将使我终身受益。 我能够顺利完成本论文,与我父母、亲友的鼓励和支持是分不开的,存此向 他们表示感谢。 感谢实验室全体老师和同学的热情帮助和支持! 感谢计算机科学技术系老师和同窗们的关心与支持! 感谢所有帮助过我的人 们! j l i 中陶科学技术火学颂士学位论空 第。帝喜占论 第一章绪论 我们处在一个信息爆炸的时代,计算机科学f 充当了一个导火索的角色。计算机科学的 理论与技术在各个学科的应用更催化了这种爆炸的趋辨。无数示例表明汁算机科学枉各个学 科中所起到的积极作,盯。牛命科学研究也不例外的从计算机科学的发展中获益。 本章论述了后基因射时代生物倍息学的干i i 关概念、历史背景概述了生物学新的研究 i 标和现状,从瓶引f 了木沦立的研究i f 1 :。 1 1 后基因组时代生物信息学研究的历史背景 2 0 0 1 年2 月人类基因组草图公布,标志着生物学研究的一个新时代的到来。人类大 约有3 0 亿个碱基对,3 5 0 0 0 个摹因i c a m 0 3 】。面对这样大量的数据,以及由此产生的海量 次级数据,必须依靠生物信息学工具来处理和分析。基因组的研究也由结构基因组转向了功 能基因组的研究,通过对蔡因组的分析来了解生物系统的功能成为后基因组时代的丰要f 1 标。酬f 町生物佑息学的研究也受到1 1 i 所术仃的重视, | 到了迅速f j 发展。 通过对生物功能的分折,人们发现,基因与蛋白质很少单独起作用,它们更倾向于成纽 地通过网状地交耳作用而影响生物系统的功能。对功能的研究必须分析其棚互作用的网络, 或者更准确地说,要把基因组或蛋f = ;_ l 质组看作个系统柬进行分析。因此,后基因组信息学 可以称为功能基因纽系统学。功能基因组系统学的出现,是生物信息学的个重大变化它 由过去分析与积累多种牛物分子的知识转变为综合多种生物分了及其相互作用的知识来了 解生物系统的功能。 1 1 1 生物信息学 生物信息学常被引川的解释就魁:组织及分析| i 新j j 异的分r , i 物学搜2 t z - 化技术所产7 1 出来的信息。简雌地说,生物信息学就是待在纯“算机实验室( 一般所称的“d r yl a b ”) 从事研究,而一般的生物学研究则称为砬:“w e ti a 旷蟹从事研究。实际i 二生物信息学根据 侧重点不同,町以分为两类:一类是传统的以研究生物学数据为对象的“信息学”;另一类 则是利用信息学技术,解决生物学上问题的学问。因此它是“生物学”的一种。丑前爿的研 究重点在于分析工具的发展、数据库的建立与用户界衙的开发:后者则强调整合、分析数据 库中的牛物信息、寻找致病基因、预测基因的功能等。人类破天荒地解丌了基困序列,但艰 因背后所代表的意义,却是现今仝世界的科学家们j 下努力找寻的答案,而生物信息学提供了 这门研究所需要的理论肇础,针对人齄的数据作柯系统的牲理和分析。凶此,结合分r 乍物 学、牛物物删学、统计数学、计算机科学等众多跨领域科学,整合m 一个新必的研究领域 生物愤息学,不仅引发汁多研究,例如数葫h j 内缱啦j 帮含、序列的l l x , f j 分析、) 圳个 序列的定序、捧闪封【l 冬i 酷娃构、瑾r 1 质结构和功能的分析与预测、分r 模喇的建t j 新约碰 讣等,型直接坩础一股新兴牛物信息,“q k 的兴起! 。l 旧科学技术大学硕士学位论文 第一章绪硷 1 1 2 基因组和基因组学 基i 础( g e n o m e ) 就是一个单倍体细胞的所有d n a 组成或者一个双倍体细胞d n a 组 成的一半。而基凶纽学( g e n o m i c s ) 可以简瞽的定义为对基因组进行研究的科学。但足这个定 义实际,t 乖太严格,在某种意义r ,生物学的各个研究分支都与基因组的研究有关,因为生 物体的各个特征本身就足m 它的旗因纽决定的。 对人多数人来说i i f i ; = 】n 学包含了庞大的数错集以及高通鼠( h i g hl h r o u 曲- p u t ) 的方法( 快 速获淑数据的方法) 。坫附组学领域包括d n a 测序、存物种内进行荩困组多样性的聚集以 及基因转泶调控的研究。随着基凶组和皋凶组学这两个术语变得流行起来,一系列新的术语 也被创造出来,每个新的研究领域都被冠以“组学”( o m i e s ) 的名称,而被研究的对象 则被称为“组”( o m e ) 。例如蛋白质组( p r o t e o m e l 、代谢纽( m e t a b o l o m e ) 、转录组 ( t r a n s c r i p t o m e ) 等等。可以把这些研究归为基因组学的范畴。 新技术的h 现伴随着全新的问题以及人类认识牛命的新途径。许多年来分子生物学方 法一直作为一个“还原论”的工具,被用来解剖细胞、理解细胞中各个部分的独立工作方式。 而楚陬惭i 学的研究领域卿j 提i t r “综仑论”的研究问题,门的是理解细胞备个郏分如似协同 工作。( 关j 还原沧和综介论的介軎f j ,详见下文。) 一个工e 在行使功能的基吲纽是如何响应环 境变化的? 体内哪此蛋1 l 质发巾希稍l 兀作川? 这衅问题带来了对牛命现象的新认识。 i i 3 基因组信息学和后基因组信息学 随着人类全基因组测序工作的基本完成,基冈纽研究由结构基洲组转向了功能基w 组的 研究,也即后基因组时代。基冈组信息学是为了处理基蹦组计划产生的大景数据而诞生的, 因此,它的酋要角色足支持实验工作,不同的是,后幕囚组信息学,在此我们把它定义为对 一系列牛物学知识的综含,毡竹从j 闲自i 息到对f 命】 奉规 = ! 的州解锋方方面面川时它 也省神:生物化学领域应川的实际h 的。后艰幽自l 信息学在研究方法r 的最大变化也标忠着乍 物学的研究正枉经历一场重人的变化。 后基囚纽信息学是以综合为特征的,其研究的意义比基因组信息学更为深刻。如果说苹 因组信息学足以对各种生物分了进行分析获取有关生物学知识的话,则后基凶纽信息学的 研究可能使我们进入对生命的摹本规律的认识。 从概念一l 讲,全摹因组测序代表了分予生物学还原沦的最终形式。他们希望用基因的简 单规则来解释牛命的复杂过程。在实际的实验巾,d n a 测序需要从高维到低维的剧烈变化 毁坏细胞来抽取d n a 分子。我们先不管有多少信息在这个过程中丢失,而只简单地承 认这样一个名词幕因组,或者说全部d n a 分子,包含了细胞构成的所有必须信息。后 摹囚组倍息学的研究内容包括从低维到赢维进 j 练的尝试。以及对一个细胞的功能生物系 统足怎样从荩因及其j f i i 关产物重新构建起来的研究。下文中的生物信息学一词,如无特别说 明,即是指后毖陶组侪息学。从另一方耐说,当f j 的绝人多数牛物信息学研究都是围绕丛i 捌 组展开的。 中国科学技术大学硕士学位论文第一章绪论 1 2 后基因组时代生物信息学研究面临的挑战 1 3 1 生物还原论和综合论 生物学是一门实验科学,实验技术的不断进步可以获得各种各样的生物学数据。分子生 物学技术尤其强大,因此,还原论成为2 0 世纪后半叶生物学发展的主流 k a n 0 1 。按照还 原论的方法,为了研究生物系统( 生物体) 某一方面的功能只需要寻找并鉴定出与此功能 直接相关的组成部分( 基因和蛋白质) 即可( 图1 1 ( a ) ) 。生物还原论的基本思想可以作个比 喻:为了了解一台机器的运行原理,将这台机器分拆,直到不能再拆为止,然后查看拆下来 的基本元件是怎么起作用的。 与此比较基因组计划揭示了生物体巾全套的基因及其产物,也揭示了另一种研究方法 的序幕,这种方法可以称为综合论方法。综合论方法研究基因和各种生物大分子是怎样通过 网络调控方式形成一个完整的生物系统的。综合论方法以信息论方法为基础。它利用信息技 术分析大量的生物数据从中发掘出生物学的一般原理,并且通过各个牛物组成部分的研究 推导出系统行为。 在物理学和化学研究中,基本粒子如何组装成物质以及化学元素如何组成化合物的般 规律都已经被发现( 图1 1 ( b ) ) 。但是在生物学研究中,这样的一般规律还远不为人所知。实 际上。我们至今还不清楚基因组上的信息是否足以建立一个完整的生物体系 k a n 0 1 1 。在物 理学基本粒子的标准模型中,包含两类基本粒子:物质组成和作用力介质。波粒二相性是物 质的固有性质。基因组确实包含了各个组成部分的信息,但是还不能过旱地假定基因组中也 包含了各个组成部分之问相关联地信息。 除了相互作f | 3 的概念以外,还有个重要的概念就是层次的抽捉。如图l ,2 所示,、 胱 氨酸在原予层次上是由碳、氮、氧、氢和硫原子组成的网络结构,但是在分子层次上,则被 抽象为字母c 。同其它1 9 种抽象过的字母( 氨基酸) 一起构成蛋白质的一级序列。在分子 层面上,蛋白质被抽象为一种符号r a s ;各个符号( 蛋白质) 之间的连线关系称为r a s 信号 转导途径中关注的主要问题。后基因组时代的信息学是生物信息学中具有极大挑战性的一个 分支,其目的在于从分子网络层次上研究生物学,正是基于综合论的指导思想。它利用基因 组计划中产生的各种各样的生物学数据,其中不仅包括序列数据,还包括其它数据例如基 因表达图潜和基因组多样傩图谱。最终它将会从更高层次上研究生物学功能,例如脑的功能; 但是分子网络层次将是整个研究的起点,甚至可能从分子层次上就足以描述更高层次l 的生 物学现象。 中困科学技术大学硕士学f 证论文 第一章绪论 原子水平 分子水平 网络水平 ooo t s l - t o r 呻d r k s o s r 船8 5 d p h l d s o 订一r o l l e d 、, c s w 图1 2 层次抽提的概念 1 3 2 后基因组时代生物信息学的重大挑战 在全基因组测序时代,我们面对着一个新的巨大挑战,那就是所谓的物种重建 ( m c o n s t m c d o n ) 问题 c a m 0 3 。给定一个生物的全基因组,剩下的问题在于如何在计算机上 构建这个生物体的功能体系。这个问题包含了对所有组成部分( 基因和其它生物分子) 之问 连线( 相互作用) 的预测。传统的看法是基因组是生命的蓝图,基因组中包含了构建一个生 物体所必须的信息。只要替换细胞核( 细胞核包含了所有的遗传信息) ,就可以得到一个克 隆;但是实际上,父代向子代传递的不仅包括细胞核,还包括整个细胞。因此另一种看法 是很有道理的;这种观点认为基因组只是细胞中分子间相互作用网络中的一部分。基因组不 是细胞指令的大本营,而只是一个大仓库:相互作用网络本身才足所谓的指令系统,这个系 统遵循固有的程序引导发育过程,并且产生生殖细胞。 不管采纳哪种观点,在实际研究中,都不能只考虑全基因组序列数据,而忽略掉其它的 附加信息,尤其是分子相互作用的信息。为了解决物种重建问题,首先必须用计算机处理所 有有关分予丰f j 互作用的已有知识,这些知识可以通过挖掘所有的遗传学、生物化学、分子生 物学和细胞生物学棚关实验得到。另外,必须设计一蝗新的实验,从系统水平【:检测分子问 相互作用。i 萼| 1 3 描述了功能捧州组实验,在这口实验中应用了活细胞对于备种环境变化的 应激反虚,还融合了全, 凼自_ j 州和1 i 完全的生物学知识,所有这螳都被用来揭示潜在的棚 互作用关系。利用这样的全新技术,也许在不久的将来可以解决生物体重建问题。 4 中国科学技术大学硕士学位论文 第一章绪论 扰动 环境变化 基囚紊乱 基因过表达 生物学知识 分子牛物学 细胞牛物学 生物化学 遗传学 动态反应 变化:基因表达谱 虚拟细胞 全基因组序列 阁i3 川l 卜算机模拟一个生物体 1 3 3 生命的遗传和化学蓝图 基础理论 实际应用 疾病诊断 新药开发 生命既是遗传信息的表现也是化学信息的表现。虽然生物犬分子,如d n a 、r n a 和 蛋白质在生命运动中占据主导地位,但是小分子化学物质和金属离子在生命的起源和进化过 程中也发挥着重要作用。迄今为止,它们也还十分重要,因为生命的环境中始终充满了这些 物质。基因组所包含的信息并不足以构建生命。生命的一个基本要素存于信息的动态流动; 这个动态信息流是由一系列的化学反应按顺序组合而成的。实际r 。支撑生命的生物大分子 之间的反应如转录或者信号转导,同那些小分子之间的化学反应并没有什么本质的区别 只是生物大分子的化学反应更加复杂,也更加有序。 基因组确实是所有基凼的信息存储中心,而这个分子模扳的说明书就是生命的遗传蓝 图。但是基因组中并不包含所有的反应程序:藏因组可能只包含了一部分程序,因为d n a 分子毕竟也只是整个反应嘲络中的一部分。 2 0 世纪分子生物学的非凡成就对于现代生命科学的观点产生了深远的影响:一个是生 物还原论,另一个是遗传决定沦。具有讽刺意味的是,还原论的最终形式是全基因组测序, 而正是全基因组测序引起了对还原论的争 义。完伞一样的孪生兄弟实际上并不完全一样,这 同遗传决定论并不矛盾,因为这可能足由环境的不确定性造成的。克隆技术可能可以完美的 再现一个人的肉体,但是却无法复制一个人的思维和记忆。但是这里就出现了一个概念性的 问题,究竟什么是遗传物质,什么是环境因素。根据现在的观点,遗传物质,或者说是被传 递的信息,就是基因组;但是我们必须强调,必须考虑整个细胞因为其中包含了反应的程 序。按照这个观点,攮鲥是一个动态的实体,它在反应网络巾将会被= i f = = 断地修饰。 1 3 生物信息学研究中的几个研究方向 现在人们对于真核细胞的化学组成已经非常熟悉,我们知道了很多有机体的d n a 序列, 并且能够据此推出很多它们表达的r n a 和蛋白产物。在过去因为蛋白质最为复杂并日处 中国科学技术大学硕士学位论文第一章绪论 子细胞最重要的分子之中,很自然受到了生物化学家最多的关注。人们对蛋白质和它们之问 的相互作用进行了很多的研究。在过去的3 0 5 0 年里鉴定出成千上万的蛋白质相互作用。 除了经典的研究外,在最近的大规模蛋白质组工程中,产生了大量与蛋白质相互作用有关的 数据,这些数据反映的信息不是很明显,需要进一步地整合分析。这些工作传统上f t l 人j 二进 行,侗随着大髓数据的i 现,必须罄借助计锌机才能完成。以下简蛋闸述了将计箅机应干 生物学研究的几个方向。 1 3 1 分子相互作用的网络分析 抽象的层面 分子生物学的中心法则总结了在序列水平上遗传信息表达的流动方式: d n a r n a 一蛋白质 依据热动力学原理和结构功能关系建立了单个蛋白质分子遗传信息表达的流动方式: 序列一结构一功能 传统的观点认为,这种流动方式是| 在适宜的生理条件下白发产生的。基因组( d n a ) 本身 包含蛋白质结构的所有必需信息。很明显,这种观点过于简单并有太多还原论色彩。任何一 种生物学功能都涉及分子相互作用网络。分予栩瓦作用的信息和单个分子的信息一样重要。 因此,必须理解下列信息的流动: 相互作用一 6 4 络一功能 这也提示应在较高的抽象层而分析生物学功能分子网络层面,而不是单个分子层 面。基因组不可能包含所有组成生命必需的分予相互作用的信息。这种观点依据是生物化学 原理和生物学机制都不可避免要涉及分子相互作用和反应的时空依赖性 k a n 0 1 。 基因组分析完成之后自然地进入到转录组和蛋门质组地分析,它们分别表示m r n a 和蛋白质水平完整的基因袭达谱。转录组和蛋白质组可能包含了基因调控刚络和蛋白质相瓦 作用网络的丰富信息。 分子相互作用网络的计算机化表示 为了能够在计算机中查找和进一步计算分予相互作用网络,我们必须寻找一种合理的表 示方式。很自然地,图论被应用到分子相瓦作用刚络的表示和分析当中来 u p v 0 2 在单个分子层面,生物学功能的信息编码在序列中,即在核苷酸和氨基酸基本单元的线 性排列中。在分子网络层面,生物学功能的信息编码在分子相互作用网络信息里。这里,我 们在一般意义上定义“网络”这个术语。如图1 4 所示,网络包含元素和元素之间的二元关 系。元素可以是分子或基因,二元关系是分子相互作用、遗传相互作用或任何其它的两个元 素之间的关系。更为抽象的定义可用图论的语言来描述:将分子相互作用网络看成个二元 组,记作g = ( y ( g ) ,e ( g ) ) 其q : ( 1 ) 矿( g ) = p ,v 2 c * v 。) ,矿( g ) o 称为网络g 的结点集 ( 2 ) e ( g ) = p 。,p :,e 。) 称为网络g 的边集 更为复杂的表示可能包括:i ) 详细划分结点的类型;2 ) 有向图表示;3 ) 给边加上权值。通 过一定的扩展,用图论的方式”t 以表示足够复杂的网络。 6 中闰科学技术大学硕i 二学住论文 第一章绪论 ( 1 ) 元素 。分子 。基因 ( 3 ) 网络 通路 ( 2 ) _ 二元关系 ( ) _ o分子相互作用 o o遗传相互作用 o o 其它类型的相互作 复合物近邻 因书 _ c h ) _ g o 聚类 1 3 2 生物学数据库 玲 图i4 网络表示 层次树 当前的生物学状况可以类比1 7 世纪时的物理学,正处于科学公式化的阶段。生物学仍 然是一门经验性的学科,只拥有很少的公式化原理可用来推导预测各种生物学现象。1 9 世 纪开始发展的遗传学、细胞学技术和2 0 世纪发展起来的分子生物学技术最终使收集生物 学基本观察数据成为可能。人们期待随之会产生类似开普勒定理的经验规律和类似牛顿定律 的生物学基本原理。计算机化的生物学数据库在其中充当了扩展生物学知识基础的关键角 色。 在各学科中,最初开发的数据库是为了将已发表的资料中的信息计算机化。“文献索引 数据库”指包含主要出版物的标题、作者、摘要、出版者、其它引片j 信息以及索引关键词和 分类代码的一类二级出版物。建立文献索引数据库的目的是检索信息。用户一旦找到所需要 的信息,便可以去图书馆阅读印刷出版的期刊,或用逐渐流行的方法直接阅读在线电子 版的全文文章。这类数据库最具代表性的是m e d l i n e ( h t t p ;w w w n c b l n l m n i h g o v ) 。 分子生物学数据库 科学沧文中所报道的结粜通常都旗f 实验数据,这砦数据町能被印在期i 文章中,也町 能没有印h i 来。“事实数掘库”收集了与所发表文章有关的实验数据,并且可被用于计算机 分析。在分子生物学领域巾,主要的事实数据库是收集核酸序列、蛋白质序列和三维分子结 构的数据库。由于数据量太大,例如d n a 的序列和三维原子坐标的数据,期刊文章中只报 告对结果的总结,而完整的数据只能去数据库中寻找。因此。核酸序列数据库和三维分子结 构数据库已成为一种科学的发表方式,并| 结果足从牛物学观点看,数据无需组织得很合适。 本质上讲,这蝗数据阼足所有已发表数槲的仓库,它们具有标准化的数据格式而数据的内 容却米能充分标准化。 中陶科学技术大学硕士学位论文 第一章绪论 由此产生了下一类数据库,它们可以被泛称为“知识库”。建立知识库的目的是为了推 导分析,而不足简单的数据检索。知识不同于数据,而在于可以从存储的知识中产生新的知 识。仅有一堆发表的文章不能代表有条理的知识,收集起来的实验事实数据本身也不能代表 任何生物学知识。尤其是分子生物学的事实数据库仅包含了分子结构的信息,如序列和三维 结构,而无法自动与分子的生物学功能联系起来。 上述凡种数据库的代表如表1 1 所示,主要的公用数据库如表1 2 所示。 表12 主要数据库的地址 蛋白质相互作用数据库 生物化学网络主要可以分为代谢网络、调控网络和信号转导网络 h e r 0 4 ,每种网络 中部离不开蛋自质的作用,因此蛋白质的相互作用自然受到很多关注。人们在乍化途径t 投 入了很多精力,很多最新的工作借助于计算机完成。代谢途径和蛋白质桐瓦作用网络的结构 虽然相似但仍存在明显的差异:代谢途径的研究关注的是小分子的转化,在这个转化中, 酶起着主要作用。蛋白质相互作用图( 或者是信号转导图) 主要足研究那些没有明显化学变 化的物理接触。研究单个的蛋白质分子或者特定的生物过程时,物理相互作用是非常有用的 但是它们本身不能反映牛物文献中积累的大量的有用信息。 表1 3 列举了日前广为人知的十个蛋白质相互作用网络数据库的基本信息,这些数据库 都有各自的特点: ( 1 )大部分数据来自多种生物数据的完整性也备不相同:而有蝗数据库则只限1 :一两种 生物。 r 2 )许多数据库包含了多种细胞过程的数据( 代酣、信号转导、转运、转录调控) ,而另 一些则只包含一种细胞过程的数据。 ( 3 )有些数据库包含低级的定量数据,例如动力学和结台常数:而其它的则仅限于高级的 定量数据。 ( 4 )有些数据库仅包含预先定义好的通路,而另一些则允许动态创建相互作用网络。 8 中国科学技术大学硕士学位论文第一章绪论 ( 5 )有些数据库使用手工绘制的圈提供可视化功能而另一些则使用自动生成的图像。 有些数据库依赖于从文献中提取的相互作用数据,而另一些则利用了高通量实验数据。 1 3 3 生物数据库的集成 目前生物学数据库一直存在数据复杂多样、数据库所用系统和设计干差万别等特点。往 往一个生物数据库无法满足研究的需要,这就牵涉到多个数据库集成的问题。例如,要想获 得相互作用的信息,一方面我们可以手工从文献中提取,另一方面可以从一些成熟的数据库 ( 如b i n d 、d i p 等) 中获得相关的信息:要想获得代谢通路和细胞调控方面的信息,可能 需要查询e c o c y c ( 关于ec o i lk - 1 2 基因组、代谢通路、转运子和基因调控的数据库) , l i g a n d 等数据库;关于基因组方面的信息,可能要到e c o g e n e 、a c e d b 等数据库中获得; 而序列方面的信息可能要求助于g e n e b a n k 、e n s e m b l 等等公用数据库。 在过去的生物学数据库集成中,主要有三种集成的方法 s t e 0 3 :链接层的集成、视图 层的集成和数据仓库集成。链接层的集成是目前为止最为成功的一种集成方法。这种集成主 要是针对互联网应用的,用户从一个数据开始跟随阚页上给 的超文本链接一层层的浏览 直到找到自己想要的信息。这个技术的好处很明显,简单易行。只要各个数据库的维护者提 供确定的超链接访问规则此方法就可以工作的很好。但是其缺点同样明显:首先,由于数 据库是外部的,无法保证各个超链按可用,可能外部数据库的访问方式发生改变却得不到及 时通知,以致无法做出相应更改;其次,这种方法很容易受到命名冲突和含义模糊等问题的 冲击;第三。链接层的集成把所有数据不加选择的抛给用户,最终如何解释和应用全由用户 自己决定这个问题主要体现在,用户往往会检索出过多的结果,而这些结果可能很多是重 复的或者无关的。其代表为序列检索系统( s r s ) 。视图层的集成相当于为所有数据库构建环 境,而各个数据库是作为这个大环境中的一部分出现。此方法最为完整的一个尝试是跨数据 库查询语言k l e i s l i k 2 的开发。这种方法看起来似乎找到了问题的解决办法,但是最终却以 失败而告终。原因就足此语占过丁复杂其表现菇强人意,并n 驱动程序难于维护。数据仓 库集成方法首先开发一个统一的数据模型,以秤纳所有的信息。然后开发一系列软件,到各 个数据库中抽取数据,并填克到新的数据仓库中。这种解决方案碰到的最大问题是数据更新。 其次源数据库不仅不停的更新数据,而且还可能更改数据库设计以适应新的数据类犁。这 种方法最富野心的尝试是集成的摹因组数据库( i g d ) 计划,这个计划只存在一年便宣告失败。 目前有些比较新的集成思路,是从模式( s c h e m a ) 或者本体( o n t o l o g y ) y 手。 1 3 4 分子相互作用的可视化 首先,对于人多数人而言,在说明。个问题时。图形要比数据秤易理解。对大量数据存 在或者复杂的情况,这一点更为明显。比如在细胞内,存在一个动态过程,如果用一系列数 据或者一个表格来描述蛋白质之问的作用,我们就不容易了解细胞里面发生的事情。其次, 在各种感官之中人们更加偏好视觉,图形化的描述方式能够很好的迎台这点。就像一张公路 交通l 璺| ,蛋白质棚互作用图形能够给新手和专家提供一种更直观的指南。为了使这种图形对 两类使用者都有用,非常需要发展一种动态地图,使我们在只需要一个大体的框架时它能够 隐藏某些具体细节。最后,蛋向质相互作用图能模拟验证某些可以用实验验证的假说。例如, 研究发现一种膜蛋白可跟调控因子作用,这种结果可能被认为是假阳性的。这种明显的不一 致可以导致一些关于信号转导的新发现。发展一种合适的图形可以帮助我们鉴定这类有价值 的反常现象 u p v 0 2 1 。 9 中国科学技术大学硕士学位论文第一章绪论 1 3 5 建模与仿真 对于分子相互作用网络,除了显示某种信息外也可以作为一个细胞的预测模型 ( p r e d i c t i v e m o d e i s ) 。添加一些信息到分予相互作用网络上,使其能够模拟各种扰动下基因表 达的变化。如果一个表达水平的变化在实验中被观察至n 但没有出现在网络中,这就表明, 至少有一个分子相互作用还没被包含在这个网络中。利用网络进行预测在这种情况下就变得 很有意义。 1 4 本论文的工作 针对科研项目的需求,本文着重研究分子稍i 互作用网络的数据模型、数据库集成、数据 库设计、可视化并设计了一个软件应用平台,最终日的足建立一个更为方便有效的生物信息 学研究工具,推动系统生物学研究的发展。 ( 1 ) 生物信息学软件平台设计 为了开展系统生物学相关研究,需要提供一套软件。所以第二章首先从总体框架入手, 设计了一个基于j 2 e e 的生物信息学研究平台。这个平台兼顾了可移植性和可扩展性,同时 继承了j 2 e e 的良好架构,为今后在此基础上开发一系列的研究软件打下良好的基础。在后 面的章节中。将详细介绍几个重要的功能模块,包括数据模型、数据库模块和数据可视化模 块。 ( 2 ) 生物化学网络的数据模型 良好的模型是生物信息学研究成功的关键。在以前的研究中,已经建立了多种用于表示 分子间相互作用的数据模型,其中最主要的是使用图论中的理论。第三章引入一种在很多学 科中广泛使用的离散事件系统建模工具- - p c t r i 网。在对p e w i 刚做了一定的扩展之后,可 以很好的用于描述生物化学网络,尤其足代谢刚络的动力学行为。基于这个模型系统,设计 了一种编辑工具k m e d i t o r 用来建立细胞动力学模型。 ( 3 ) 生物化学网络数据库 目前存在很多生物化学网络数据库。在实际研究中可能会用到这些数据库中的多个来 获得数据,这给研究工作带来很多不便。解决这个问题的办法是使用信息集成技术。有两种 方法可供选择。一种是基于模式的集成,即不改变原有数据库中的数据。在需要查询时将查 询分解到各个数据库中去。另一种是摹于数据仓库技术的集成,即抽取各个数据库中的数据 存入本地。这两种方法都有各自的优缺点。本论文采用了后一种方法,抽取了b i o c y c 数据 库中的数据,建立了一个本地数据库。这个数据库可以支持以酵母为模式牛物的相关研究。 ( 4 ) 生物化学网络的可视化和整合 论文笫五章详细讨论了生物化学网络可视化在系统生物学研究中的重要作用。首先比较 了生物化学网络的各种描述方式,进而说明可视化技术对于蛋白质相互作用的相关研究起到 了很好的辅助作用。还介绍了一种受到较多关注的用于蛋白质相互作用网络描述的符号系 统。根据一些已有的可视化技术研究,本章提出一种新的基于s v g 技术的表示框架,可以 用于大型蛋白质相互作用网络的可视化,解决了网页显示大型网络图时,不能在一张图中实 现缩放的问题,同时为图形的自动生成提供了接口。最后,以实例说明可视化技术作为一种 很好的研究工贝,可以给生物学研究提供全新的视角:井给i l j 了使用图形描述相互作用刚络 的指导原则。 1 0 瓤壮如酶犀扑r臀o(磊嚣最一暖世蚓霹暑堪垦删瓣#长。密赠g域删斌醛忙嚣。转鼎磷菩箍似姗k匠芒h罂oo口叶醛积申u叫蛊龌辎匠世吼罂。盛暇薯m隶已蝼罩皋捌怕嚣。旺辛j州 罂00高钾回匝船赠g暴蜚h忡。密暇舞斟删求睡牛雩一 掌博鞭粤f睬韫甾彬鲁嚣器。琏蜘将议魁村辑墨日挚怖。棼协盆醛霉犀母咪 幕凶。(趟岖异)掌僻忡扣8墨曰班暇器嚣一章静8一 匦鼗赠镁州蒋皿。旺世州罂o。夺一。智嚼g酞心妖啜牛器掣蜷扑窜剐嚣,窭姆,扑r稃耀硒辖巅畦。匝盛卿辩忤窖双心嗽聪ooon 毯哒8四一工$匦窨磊驰蒋皿)蠹蝈蛊叫删嫩聪牛嚣一 铡谣群站链最v孵壤掣林蚪圈挺耀圃。军 柽繇林娶赫粘缸琏,匠世蝌霹耀回憾瞄。暖世吲晕牛80n一 旺辛j旧罂岛骚霹申u叫窖鞋摹(蛹鞋匠*最) 糕诋摇督辱卅求。船啊s文删求鞲忙端。旺世蚓霉牛8。虮。船明窨
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 采购流程及电子合同制度
- 原料采购日常管理制度范本
- 采购部部门绩效考评制度
- 采购部门奖惩激励制度
- 采购部验收复秤制度
- 采购集中招聘制度汇编
- 采购项目资金控制制度
- 采购验收保管调配制度
- 重点采购物品管理制度
- 2025年前台沟通礼仪考核集
- 2026年保安摸似考试测试题及答案
- 浙江省新阵地教育联盟2026届第二次联考英语+答案
- 2026年行测真题及答案
- 游乐设施安全管理台账范本
- 2026贵州遵义市部分市直机关事业单位招聘编外人员(驾驶员岗位)12人笔试备考试题及答案解析
- 2025至2030中国商用车联网市场供需状况及政策影响分析报告
- 2026清醒的一代:Z世代主动定义的人生研究报告-
- 2026届北京市朝阳区高三上学期期末质量检测历史试题(含答案)
- 水泥生产线设备维护检修计划
- 发生食品安全事件后保障供餐的应急管理措施制度
- 2026年安顺职业技术学院单招职业技能测试题库附答案
评论
0/150
提交评论