(生物医学工程专业论文)基因表达数据的集成、分析和可视化.pdf_第1页
(生物医学工程专业论文)基因表达数据的集成、分析和可视化.pdf_第2页
(生物医学工程专业论文)基因表达数据的集成、分析和可视化.pdf_第3页
(生物医学工程专业论文)基因表达数据的集成、分析和可视化.pdf_第4页
(生物医学工程专业论文)基因表达数据的集成、分析和可视化.pdf_第5页
已阅读5页,还剩63页未读 继续免费阅读

(生物医学工程专业论文)基因表达数据的集成、分析和可视化.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

东南大学硕士学位论文 a b s t r a c t t h e s i st i t l e :a n a l y s i s ,i n t e g r a t i o na n dv i s u a l i z a t i o no f g e n ee x p r e s s i o nd a t a g ra d u a = r es t u d e n tn a m e :l is 1 1 i f a s u p e r v i s o rn a m e :s u nx i a o ( p r o f e s s o r ) s c h o o ln a m e :s o u t h e a s tu n i v e r s i t y w i t ht h ea c c o m p l i s h m e n to fh u m a ng e n o m ep r o j e c t ( h g p ) a n dt h ed e v e l o p m e n to ft h e m o l e c u l a rb i o l o g y , t h eg e n o m er e s e a r c h p a y sm o r e a t t e n t i o nt og e n ef u n c t i o n t h e e x p o n e n t i a l l yi n c r e a s i n ga m o u n to fb i o l o g i c a l d a t aa n dt h ea d v a n c e m e n to fi n f o r m a t i o n t e c h n o l o g yp o s en e wc h a l l e n g e sf o rb i o i n f o r m a t i c si nt h ep o s tg e n o m ee r a , t h em a i n t a s ko f b i o i n f o r m a t i c si st ou t i l i z ea n da n a l y z et h eb i o l o g i c a ld a t at ou n d e r s t a n dt h eb i o l o g i c a l m e a n i n go fg e i l o m e i no r d e rt op r o m o t et h ed e v e l o p m e n to fg e n o m er e s e a r c h , t h eg e n er e g u l a t i o n i n f o r m a t i o ni n t e g r a t e dd a t a b a s es y s t e m ( g r a 3h a sb e e ne s t a b l i s h e db yo u rr e s e a r c hg r o u p , w h i c hw i l la s s o c i m eg e n er e g u l a t i o ni n f o r m a t i o nw i t hg e n ee x p r e s s i o nd a t a a l t h o u g hl o t so f g e n er e g u l a t i o ni n f o r m a t i o nh a sb e e ni n t e g r a t e di n t ot h es y s t e m ,t h e r ei sn og e n ee x p r e s s i o n d a t ai ng r i t h em a i na i mo ft h i sp a p e ri st oa c c o m p l i s hd e s i g no fg e n ee x p r e s s i o nd a t a b a s e a n dt oi n t e g r a t eg e n ee x p r e s s i o nd a t ai n t og r i w eh a v ea n a l y z e dt h ei n t e r n a t i o n a lf a m o u ag e n ee x p r e s s i o nd a t a b a s e ,s u c ha sg e o , a r r y e x p r e s s ,e t c t h ed e s i g no fg e n ee x p r e s s i o nd a t a b a s ea n da u t o m a t i cu p d a t ef u n c t i o no f g e n er e g u l a t i o ni n f o r m a t i o nh a db e e na c c o m p l i s h e d ,m o r e o v e r , t h ev i s u a l i z a t i o na n dc o m p l e x q u e r yo fg e n ee x p r e s s i o nd a t ah a v ea l s ob e e nc o m p l e t e d t h es y s t e mp r o v i d e sf r i e n d l ya n d c o n v e n i e n ti n t e r f a c ef o ru s e ra n dt h en s e rc a nu t i l i z et h es y s t e mt oc a r r yo u ts o m ef u l l h e r r e s e a r c h t h ed a t ao fg r ii sc o n s i s t e do fg e n er e g u l a t i o ni n f o r m a t i o na n dg e n ee x p r e s s i o nd a t a a l lo ft h ed a t ai ng r ih a sm u l t i p l ea n do r g a n i cr e l a t i o n s h i pa n di ti si m p o r t a n tt og e tt h e r e l a t i v ei n f o r m a t i o no fg e n ew h e nq u e r y i n g w eh a v ea l s oi m p l e m e n t e dt h ea s s o c i a t e dq u e r y f u n c t i o nb a s e do ng e n ee x p r e s s i o nd a t a v i s u a l i z a t i o nf u n c t i o nc a np r o v i d eu s e r sa n i n t n i t i o n i s t i ci m p r e s s i o no fg e n ee x p r e s s i o nu n d e rd i f f e r e n tc o n d i t i o n s f u r t h e r m o r e ,t h eg e n e r e g u l a t i o ni n f o r m a t i o na n dg e n ee x p r e s s i o nd a t ac a nb ed o w n l o a d e da n dp e r f o r m e ds o m e f l l r t h e ra n a l y s i sb yr e s e a r e h e r s i naw o r d ,g r ii sa ni n t e g r a t e dd a t a b a s es y s t e mo fg e n er e g u l a t i o ni n f o r m a t i o na n dg e n e e x p r e s s i o nd a t a i tp r o v i d e san e ww a y t oa n a l y z et h ef u n c t i o no fg e n o m e ib e l i e v ei tw i l lb e ag o o dp l a t f o r mf o rb i o l o g yr e s e a r c h e r s k e y w o r d :g e n er e g u l a t i o n , g e n ee x p r e s s i o n ,d a t ai n t e g r a t e d ,v i s u a l i z a t i o n ,i n t e l l i g e n ta g e n t i i 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表或撰写过的研究成果,也不包含为获得东南大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 己在论文中作了明确的说明并表示了谢意。 研究生签名: 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位 论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人 电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论 文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包 括刊登) 授权东南大学研究生院办理。 研究生签名:盔z 翌! 导师签名: 日期: 第一章绪论 第一章绪论 随着人类基因组计划( h g p ) 的完成以及分子生物学等相关学科的发展,基因组学的研究重心 开始从揭示生命的所有遗传信息转移到分子水平功能的研究上。后基因组学强调发展和应用整体的 实验方法,分析基因组序列信息、阐明基因功能。其任务是进行基因组功能注释,了解基因的功能, 认识基因与疾病的关系,掌握基因的产物及其在生命活动中的作用。生物信息学的研究重点也从基 因组序列转移到序列的生物学意义的研究上。在后基因组时代,生物信息学主要研究基因组编码序 列的转录、翻译的过程和结果,着重分析基因表达调控信息,分析基因及其产物的功能。随着功能 基因组研究的深入,产生了海量的生物数据。如何有效地利用这些数据,研究基因的表达调控机制, 研究基因在生物体代谢途径中的地位,分析基因、基因产物之间的相互作用关系,已经成为生物信 息学在功能基因组学研究的重要任务。 1 1 研究背景 随着人类基因组计划( h g p ) l l 叫的发展,基因组学的研究重心开始从揭示生命的所有遗传信 息转移到分子水平功能的研究上。从1 9 9 6 年起h g p 研究的重心逐步由“结构”向“功能”转移, 开始进行大规模d n a 测序和疾病相关基因的鉴定分析f “l 。这就是通常所说的“后基因组学” 1 2 - 1 3 】。 功能基因组学是后基因组研究的核心内容,它强调发展和应用整体的( 基因组水平或系统水平) 实 验方法分析基因组序列信息阐明基因功能,特点是采用高通量的实验方法结合的大规模数据统计计 算方法进行研究,基本策略是从研究单一基因或蛋白上升到从系统角度一次研究所有基因或蛋白。 随着功能基因组实验研究的深入,以及分子生物学和生物工程技术的飞速发展,大量的数据不断涌 现,生物学数据正以前所未有的速度呈爆炸式增长。生物信息学 “叫将在功能基因组学研究中的扮 演关键角色。研究基因表达和调控机制是了解所有基因在生物体发育过程中的作用和生物体整个生 命体的复杂过程的重要途径。 1 2 基因表达和调控 虽然关于人类基因组“结构”的研究得到了迅速的发展,但是如何解析基因组的功能这个问题 依然没有被很好的解决。利用基因表达谱数据分析是研究基因功能非常重要的手段之一。基因表达 数据包含大量的生物信息,它提了供细胞表达状况的信息,且为了解与某些特殊生命现象相关的基 因提供有力的工具。同时,对于基因调控以及基因相互作用机理的探讨有重要作用。基因表达数据 较直观地反应了不同条件和状态下基因转录调控水平,从而为寻找基因调控的机理提供了一条有效 的途径。研究基因表达调控机制、分析基因表达结果成为解析基因功能的重要途径。 1 2 1 基因表达 基因组大致可以分为编码区和非编码区,编码区就是能够编码蛋白质的基因片段。在刚刚完成 的人类基因组测序计划中发现,人类d n a 中只有1 1 左右为编码区,而剩余的大约9 9 0 o 都是非编 码区。基因调控信息是非编码区中的重要组成部分。对于调控机制我们现在认识得还很少,这一部 分的信息就像是一个未知宝藏,将是今后基因组研究工作中的重点。 遗传物质d n a 通过自我复制,在生物体的繁衍过程中传递遗传信息,使遗传信息从亲代传向子 代。在后代的生长发育过程中,d n a 分子中的遗传信息转录到r n a 分子中( 即以d n a 为模板合 成r n a ) ,再由r n a 翻译生成体内各种蛋白质,行使特定的生物功能。这样,通过遗传信息从亲代 东南大学硕士学位论文 传向子代,并在子代表达,使得子代获得了亲代的遗传性状。另外,科学家还发现一些病毒中存在 着由r n a 转录为d n a 的逆转录酶,并且r n a 能进行自我复制。某些特异性蛋白质会以转录因子 的形式在d n a 向r n a 的转录过程中起到调控的作用。这就是分子生物学的中心法则( 图1 1 ) d n a , 霪鼷笺莎笺震莎锈多怒罐够餐r 。熹。赫。 t ; r c - v e r s e 1 钠w d p t i o n t r a n s 喇p t i o n ;| r n a v l r o t e i n 图1 - 1 中心法则 基因表达( g e n ee x p r e s s i o n ) 是指存储遗传信息的基因经过一系列步骤表现出其生物功能的整 个过程。典型的基因表达是基因经过转录、翻译,产生有生物活性的蛋白质的过程。这是从基因到 蛋白质的过程。生物体的遗传信息全部编写在d n a 上( 低等生物在r n a 上) ,在进行基因表达的 时候,首先基因信息被转录到m r n a 上,然后再翻译成蛋白质。这种转录和翻译是忠实的,从而保 证了生物的遗传特性。 1 2 2 基因调控 生物基因组的遗传信息d n a 在生物体繁殖、发育过程中,并不是同时、同样的强度表达出来的。 基因表达的程序、时间和位置是受不同层次的调控信息控制的,这种调控机制不仅决定了基因的产 物的数量,而且也决定了基因表达的时空秩序性。生物的正常生长、发育和分化都是基因受控表达 的结果。一旦这种调控机制由于种种原因出现了差错,就会导致各种各样的病变。同时,基因转录 受调控因子以及调控元件以及它们相互作用的控制;此外,d n a 序列与蛋白质序列的对应关系,还 有很多目前不确定的因素,例如真核基因的不连续性,转录后的剪接;翻译过程中m r n a 的再次程 序化的遗传译码,以及翻译后蛋白质的多肽剪切等等。这些都说明了遗传信息的传递方式是多种多 样的,而且控制机制十分复杂。 从d n a 到蛋白质要经历两个过程,转录和翻译。基因调控机制始终贯穿在这两个过程中。基因 转录是指d n a 双链解旋后,按照碱基互补原则把基因信息转录到r n a 上,再由r n a 翻译成具有 一定功能的蛋白质。基因调控的作用是激发或者抑制转录过程中的基因表达,每个细胞都有一定的 基因调控系统,使各种蛋白质只有在需要的时候才被合成,这样才能使生物适应多变的环境,防止 生命活动中浪费和有害后果的发生,保持体内新陈代谢的正常进行。而这种调控往往是由某些特异 性的蛋白质和基因相结合而发生的作用。我们可以认为这个过程是由蛋白质影响基因的过程。 基因表达调控主要表现在几个方面,第一是染色质水平上的调控。基因转录前染色质结构发生 一系列重要变化是基因转录的前提,活化的基因处于染色质的伸展状态之中,可以被转录,而非活 化的染色质d n a 不能被转录。第二是转录水平上的表达调控,这是最主要的基因调控方式。转录水 平调控的重点是在特定组织或细胞中、在特定的生长发育阶段、在特定的体内外条件下,选择特定 2 第一章绪论 基因进行转录表达。第三是转录后调控,指基因转录起始后对转录产物进行的一系列修饰、加工等 调控行为,主要包括提前终止转录过程,对m r n a 前体进行加工剪切,m r n a 通过核孔和细胞质内 定位,r n a 编辑。第四是翻译水平上的调控,这是基因表达调控的重要环节,翻译的速率和细胞生 长的速度之间是密切协调的。在肽链合成的起始、延伸和终止三个阶段中,翻译起始速率的调控是 重要的,而在翻译的延伸和终止阶段也存在着调控因素。最后一个方面的调控是蛋白质活性的调节。 来自m r n a 遗传信息翻译成蛋白质后,这些蛋白质如何活化并发挥其生物学功能,涉及到蛋白质合 成后的加工问题。从m r n a 翻译产生的多肽中,经过正常折叠有些已经具有生物活性,然而对于真 核生物中大部分蛋白质来说,还需要进一步加工、修饰和活化,才具有生理功能。这种修饰有时还 是不可逆转的过程。 基因转录调控信息隐藏在基因组序列中,基因表达数据代表基因转录调控的结果,是转录调控 信息的实际体现。将基因表达数据与基因调控区域的核酸序列结合起来,有利于揭示基因调控的规 律,解析基因的功能和基因表达的内在机制。通过基因表达谱数据分析,可以同时观察成千上万个 基因在不同个体、不同组织、不同发育阶段的表达状况,研究它们的功能和相互关系,加深对生命 本质的认识。另外也可以根据基因在不同条件下表达的差异性来进行复杂疾病诊断、药物筛选、个 性化治疗、基因功能发现、农作物优育和优选、环境检测和防治、食品卫生监督及司法鉴定等。因 此,基因表达谱的研究具有重要的理论价值和应用意义。 近年来通过基因表达谱芯片实验产生了大量的表达谱数据。但是,如何有效地利用、共享这些 数据,还存在一些困难。首先,基因表达数据的质量问题。不同实验室做同样的实验,由于实验材 料、实验人员、实验仪器和实验环境的不同,所获得的表达数据会有较大差别,这种数据间的不一 致性和噪音成为研究表达谱的一大障碍。并且采用不同表达谱芯片所做实验结果会有较大差异。另 外,实验中各种噪音的影响,数据不可避免地存在误差,这样对有差异的数据进行分析往往会得到 不同的结果,尽管通过预处理可以减少这种差异。其次,基因表达数据的种类和数据量的问题。基 因表达谱研究的目的是想通过基因表达谱来认识复杂的生命现象,确定与特定生命现象( 如发育、生 长、肿瘤发生等) 相关的基因,分析不同基因的功能及它们之间的调控关系,推断潜在的调控区域 和基因网络。要想达到上述目的则需要多层面( 不同的代谢过程,不同的发育阶段,不同的外界、内 部刺激等) 的高通量实验数据,而目前的表达数据大多是单一实验条件下或某几种实验条件下的数 据,尽管网上公布的基因表达数据以指数的速度增长,但对于所研究的问题来讲,这些数据提供的 信息仍然是十分有限,因此需要更多的基因表达谱实验数据。 从根本上解决实验数据的不一致性问题需要国际合作,尽快制订出实验的相关标准,这样才能 做到数据具有较强的可比性,分析结果具有可信性。 1 3 基因调控信息公共数据库 随着人类基因组计划及其它模式生物基因组测序计划的实施,以及分子生物学和生物工程技术 的飞速发展,生物学数据正以前所未有的速度呈爆炸式增长。截止到2 0 0 5 年1 2 月,g e n b a n k 数据 库中收录的全基因组序列物种达到3 1 0 种,其中细菌2 6 7 种,古细菌2 4 种,真核生物1 9 种。而正 在处理的基因组物种总数则已经达到1 0 4 6 种之多。同时,也建立了许多与基因调控信息相关的数据 库:德国生物工程研究的t r a n s f a c i ”。8 1 :真核基因启动子数据库e p d i j w ;酵母启动子数据库 s c p d l 。 1 t r a n s f a c ( b t t p :w w w g e n e - r e g u l a t i o n c o m p u b d a t a b a s e s h t m l # t r a n s f a e ) 德国生物工程研究所开发的t r a n s f a c 数据库是关于转录因子、它们在基因组上的结合位点和 与d n a 结合的p r o f i l e s 的数据库。由s i t e 、g e n e 、f a c t o r 、c l a s s 、m a t r i x 、c e l l s 、m e t h o d 3 东南大学硕士学位论文 和r e f e r e n c e 等数据表构成。此外,还有几个与t r a n s f a c 密切相关的扩展库:p a t h o d b 库收 集了可能导致病态的突变的转录因子和结合位点;s m a r t d b 收集了与染色体结构变化相关的蛋白 因子和位点的信息;t r a n s p a t h 数据库用于描述与转录因子调控相关的信号传递的网络; c y t o m e r 数据库表现了人类转录因子在各个器官、细胞类型、生理系统和发育时期的表达状况。 t r a n s f a c 及其相关数据库可以免费下载,也可以通过w e b 进行检索和查询。t r a n s f a c 数据库 始建于1 9 8 8 年,采用关系数据库模式,用表格存放数据。1 9 9 7 年起,基于w e b 的版本开始上网, 目前,该数据库正在进一步开发,如构建各种转录因子在不同细胞组织中的表达特异性数据库等。 2 e p d ( h t t p :i l w w w e p d i s b - s i b e h ) e p d ( t h ee u k a r y o t i cp r o m o t e rd a t a b a s e ) 是真核基因启动子数据库,提供从e m b l 中得到的真 核基因的启动子序列,目标是帮助实验研究人员、生物信息学研究人员分析真核基因的转录信号。 现有1 5 0 0 多个启动子序列数据,按照层次方式组织数据。关于启动子的描述信息直接摘自科学文献, 因而相对独立于e m b l 。 该数据库所有的启动子均经过一系列的实验证实:如是否为真核r n a 聚合酶i i 启动子、是否 在高等真核生物中有生物学活性、是否与数据库中的其他启动子有同源性等等。e p d 与其他的相关 数据库也建立了相关链接,如e m b l 、s w i s s - p r o t 、t r a n s f a c 等。在最新版本第7 6 版本中, e p d 将收集的启动子分为六大类:植物启动子、线虫启动子、拟南芥启动子、软体动物启动子、棘 皮类动物启动子和脊椎动物启动子。共2 9 9 7 个条目,其中脊椎动物中的人类启动子有1 8 7 1 个,约 占总数的6 2 。 e p d 是目前唯一的一个实验证实启动子数据库,所以是各种预测软件的评论手段之一。 3 s c p d ( h t t p :e g s i g m a x s h l o r 斯i a n ) 酵母启动子数据库( t h ep r o m o t e rd a m b eo fs a c c h a r o m y c e sc o r e v i s i a e ) 提供6 0 0 0 余条酵母基 因和o r f 以及相关的调控元件和转录因子数据。在s c p d 中列有酵母菌的2 5 6 个转录因子,目前已 经可以借助基因表达分析来搜寻基因的调控位置。r o t h 等人及h u g h e s 等人针对有类似基因表现图 谱的基因启动子位置,寻找统计上经常出现的d n a 序列,发现3 3 1 1 个d n am o t i f , 经归类后有近 4 0 0 个d n a m o t i f 由于一个基冈的启动子区域经常含有一个以上的不同的d n a m o t i f , 并且无法知 道哪些d n a m o t i f 必须同时与转录因子结合进而促进基因表达。p i l p e l 等人设计了一种称作基因表达 一致性分数( e x p r e s s i o nc o h e r e n c es c o r e ) 的度量,做法是先收集酵母菌全部在启动子区域上拥有某 种特殊d n am o t i f 组合的基因,接下来计算酵母菌在不同生理状况下基因表现的相关性( 即 e x p r e s s i o nc o h e r e n c es c o r e ) ,如果相关系数高,则可以推测出此种d n am o t i f 的特殊组合对基因表 达进行调控。 1 4 基因表达公共数据库 随着人类基因组测序逐渐接近完成,科学家发现即使获得了完整基因图谱,对了解生命活动还 有很大距离。我们从基因图谱不知道基因表达的产物是否出现与何时出现;基因表达产物的浓度是 多少;是否存在翻译后的修饰过程,若存在是如何修饰的,等一系列问题。这些问题的实质是不了 解按照特定的时间、空间进行的基因表达谱。获得基因表达的信息是比d n a 序列测定艰巨得多的任 务,因为基因表达是依赖于许多因素的动态过程。 同时,d n a 芯片技术i 2 ”驯的发展,使人们能够在基因组水平分析基因表达,检测基因的转录水 平。d n a 芯片的应用使生物学实验数据呈爆炸趋势增长,而这些数据中包含丰富的生物信息。为了 充分利用和更好地共享这些芯片实验数据,需要采用先进的计算机数据库技术,来存储海量的生物 学数据。目前国际上至少有3 个大的公共基因表达数据库:斯坦福大学的s m d u4 j ;美国国家生物技 4 第一章绪论 术信息中心( n c b i ) 的g e n ee x p r e s s i o no m n i b u s 2 - ”1 ;欧洲生物信息学研究所( e b i ) 的 a r r a y e x p r e s s 【2 1 。 1 s m d ( h t i p :g e n o m e - w w w 5 s t a n f o r d e d u ) s m d ( s t a n f o r dm i c m a r r a yd a t a b a s e ) 是由斯坦福大学建立的一个知名的基因表达数据库,其中 包括大量的微阵列实验的原始数据、归一化数据和对应的图像文件等。另外,s m d 提供数据获取、 分析和可视化的界面,包括层次聚类和自组织映射等方法,还将加入k - 平均聚类、单值分解和丢失 值归纳等方法。 2 g e o ( h t t p :w w w n c b i h i m n i h g o v g e o ) g e o ( g e n ee x p r e s s i o no m n i b u s ) 于2 0 0 0 年7 月开始建立,是一个存储高通量基因表达和分子 丰度数据的数据库。g e o 是一个基因表达数据仓库和在线资源,用于从任何物种或人造的来源检索 基因表达数据。来自于m i c r oa r r a y ,高密度寡核苷酸a r r a y ( h a d ) ,杂交膜( f i l t e r ) 和s a g e 的许 多类型的基因表达数据都被接受,登记,和存档。作为一个公共数据集合,一系列预先计算的数据 的定义和描述,以及用于交互检索和分析这些表达数据的在线工具即将放入。到2 0 0 6 年3 月,g e o 已经拥有了2 1 0 1 个p l a t f o r m 数据,7 4 0 5 5 个s a m p l e 数据,3 2 1 1 个s e r i e s 数据。其中p l a t f o r m 是关 于物理反应物的信息;s a m p l e 是关于待检测的样本信息和使用单个p l a t f o r m 产生的数据;而s e r i e s 是关于样本集的信息,反映样本间的相关性和组织。g e o 包括各式各样的基因表达测试的数据,研 究人员键入测试的标题可以从中得到相关的结果。 3 a r r a y e x p r c s s ( h t t p :w w w e b i a c u k a r r a y e x p r e s s ) a r r a y e x p r e s s 是一个关于基因表达数据的微阵列公共数据库,在a r r a y e x p r e s s 中每一个微阵列 项目会被再分为两个主要的部分:阵列和实验。阵列部分包括设计和制造阵列的信息,实验部分则 提供了实验的要素信息和得到的实验数据。另外,a r r a y e x p r e s s 还包括描述在生产阵列和进行实验 中的规程或协议。a r r a y e x p r e s s 数据库中的数据将与所有由e b i 维护的或在线的数据库相联接。目 前,a r r a y e x p r e s s 数据库有1 7 7 个试验数据,1 9 7 个芯片数据和1 0 0 4 个方案数据。 这些数据库的建立,为该领域的科研工作者提供了很好的科研平台,如:通过研究一些特定的 基因表达谱的,发现基因与疾病的关系;通过对数据库数据进行基因表达谱的相似性分析,对疾病 早期诊断具有临床价值;通过比较实验室样本和数据库中标准对照样本,找出方法和设备问题;通 过公共的基因表达数据库,了解其他研究者的研究现状,避免重复实验,节约经费。 1 5 基因表达数据库的特点 基因表达数据涉及到实验相关的信息,因此它比基因调控数据复杂的多。基因表达数据至少包 括:联系信息、杂交靶探针信息、杂交样本、统计学意义等信息。由于基因表达数据来自世界不同 的科研机构,对实验条件细节的描述不尽相同,对表达水平相对定量方法也不一致。为了实现基因 表达数据的共享,国际上该领域的专家致力于建立一套描述基因表达数据的规范以及基因表达数据 库建立的标准。这项工作的难点主要在于: 1 实验条件细节的描述 实验条件的描述不仅包括:基因名称,物种,发育阶段,组织或细胞系,还要考虑偶然的不受 控制实验因素也可能影响表达:例如空气湿度,甚至实验室的噪音水平。因此很难建立一种结构能 对将来实验设计的所有细节进行描述。当前的解决办法是大部分采用自由文本描述实验,同时尽可 能加上有实用价值的结构。由于实验条件的描述没有统一的标准,致使我们在集成基因表达数据过 程中,很难找到通用的方式来解析基因表达数据相应得实验条件。 2 表达水平定量方法 5 东南大学硕士学位论文 目前所有的基因表达水平定量都是相对的:哪些基因差异表达仅仅是与另外一个实验比较而言, 或者与相同实验的另一个基因的相比而言。这种方法不能确定m r n a 的拷贝数,转录水平是总的细 胞群的平均水平。结果导致采用不同技术进行基因表达的检测,甚至不同实验室采用相同技术,都 有可能不能进行比较。 1 6 本课题的目标、任务、成果以及创新 1 6 1 本课题的目标 大规模基因表达数据之中隐藏着基因之间的相互作用的关系,如果将基因表达数据分析与调控 因子对调控元件作用关系分析结合起来,将更加有利于发现基因调控网络。然而,目前国内外的分 子数据库通常侧重于基因调控或基因表达,缺乏将两者有机的关联起来,这样不利于揭示基因调控 和基因表达的内在联系。因此,我们实验室建立一个基因表达调控集成系统,为科研人员提供一个 很好的研究平台。 本课题是在现有g r i 系统的基础上,实现基因表达数据库的设计,使之与现有的基因调控数据 库相结合,以提供研究基因表达和调控的平台。对g e o 等相关表达数据库中的表达数据和芯片数据 进行处理,提取出与基因表达相关的信息,并将其集成到本地g r i 系统中。同时,提供以基因为中 心的调控信息、表达数据查询界面,实现基因表达数据和调控信息的可视化功能以及提供相应的数 据接口,以便于用户使用系统的表达数据分析工具对基因的表达数据做进一步的分析。 1 6 2 基因表达数据的集成、分析和可视化的关键任务 针对本课题的目标,计划开展以下几个方面的研究: 一、g r i 系统中基因表达数据库的建立以及表达数据的集成 1 ) 分析s 佃,a r r a y e x p r e s s ,g e 0 ( g e n ee x p r e s s i o no m n i b u s ) 等国外著名基因表达数据库 的组织方式,在已有的系统的基础上设计基因表达数库。研究数据仓库,并且根据生物信息数据的 特点选择最优的存储方案,提高数据查询和数据分析的效率。 2 )分析g e 0 数据库中的表达数据格式,编写自动化处理程序,将g e 0 中的表达数据集成到g r i 数据库系统中。 3 ) 采用智能代理技术,编写g r i 系统自动更新程序,实现g r i 数据的自动更新。 二、w e b 查询功能的实现 研究w e b 数据库系统的体系结构和w e b 服务器的架设,选择合适的部署方案。调整现有的w e b 服务系统,将w e b 服务器与数据库服务器分离,以提高系统的安全性。提供友好的w e b 查询页面, 用户通过g r i 系统,可以查询与特定基因相关的表达数据和调控信息。 三、基因表达数据可视化的研究 研究和比较各大知名基因表达数据库的基因信息可视化方法;研究w e b 技术,完成基因表达数 据的可视化研究,并选择合适的可视化方法,实现基因表达数据的可视化。 1 6 3 主要成果 在现有g r i 系统的基础上,完成了基因表达数据库的需求分析、关系模型设计以及表达数据库 的建立。对表达数据库g e o 中的表达数据和芯片数据进行处理,提取出与基因表达数据相关的信息, 并将其集成到g r j 系统中。实现了w e b 查询功能,并且已经实现了不同数据之间的关联查询。数据 可视化也已经设计完成,并且可视化单元也已经同w e b 查询功能连接,通过数据可视化单元也已经 可以相关数据的详细显示页。同时,实现了基因调控信息的自动更新。 6 第一章绪论 目前,w e b 服务器平台搭建完毕。采用a p a c h e + t o m c a t 架构。将原来部署在同一台物理机上的 w e b 服务器和数据库服务器,分别部署到不同的物理机上,提高了系统的安全度。提高了用户的访 问速度,系统已经进入试运行阶段。g r i 数据库系统的建立为研究基因调控信息提供了一个平台。 今后还会在此基础上进行数据挖掘方面的工作。 1 6 4 本课题意义及创新 不同条件下基因表达谱的变化是调控的结果。这种调控直接决定了不同蛋白的变化,进而影响 相应的生化代谢通路的作用,最终引起一定的表型变化。所以,研究某一特定基因的功能,就不能 不研究基因表达谱以及相应的调控信息。如果我们能够把基因表达数据的分析和调控因子对调控元 件的关系分析结合起来,势必更加有利于发现基因功能和相互作用的关系,从而发现复杂的调控网 络。 目前现有的基因信息数据库,大多是提供某一种数据或者某几种数据,还没有能够把基因序列 数据,基因表达数据,以及转录因子、调控元件、启动子等调控信息数据完全集成在一个数据库系 统中。本系统把上述与基因调控有关的多种类型的数据和表达数据集成在一个数据库系统中,并且 借助自主开发的分析软件对数据进行分析,有利于找到各种数据之间的联系以及整个基因调控的机 制。 g i l l 数据库系统的数据主体是基因调控信息和基因表达数据,所有类型的数据之间都存在着联 系,很好地将不同数据源集成在一起。这样有利于帮助科研工作者在该领域的开展研究工作。 g r i 系统的查询操作是系统最为重要的功能,由于在数据库设计阶段已经实现了数据库级的关 系操作,使得关系查询成为g r i 的一大特色,通过这些关系查询我们把各种基因调控信息数据和基 因表达数据真正的“集成”在一起,成为了一个整体,使用户查询到的不仅仅是一种或者几种调控 信息数据,而是整个的基因表达调控过程。 可视化是g r i 的另外一个特色,它能够把参与调控的所有因素都直观的显示给用户,配合一些 图形技术,用户不再是简单的看到文本信息,而是直观的看到了整个调控表达过程。从而对感兴趣 的信息作进一步的分析。可视化为基因表达分析提供非常有价值的工具,有助于从新的视角看待基 因组水平的转录调控并建立模型。 总之,g r i 是一个将基因调控数据和表达数据相关联的系统,它真正实现了对整个基因调控过 程和调控结果的描述。该系统具有强大的服务功能,友好的用户界面。它不是单纯的国外基因数据 库的镜像,而是一个真正自主开发的,优秀的基因调控信息集成数据库系统。 7 东南大学硕士学位论文 第二章基因表达数据库系统的设计 本章当中,首先简要介绍o r a c l e 数据库技术,然后对现有的基因调控信息集成数据库系统( g r i ) “的完成情况作概要介绍,最后详细阐述g r i 系统中的基因表达数据库设计以及g r i 系统的管理和 维护。 2 1 w e b 数据库技术 数据库技术产生于2 0 世纪6 0 年代,其发展历史主要分三个阶段:人工管理阶段,即由程序员 管理数据,用于计算机中的科学计算:文件管理阶段,数据以文件形式被操作系统管理,但数据处 理仍是低效和高成本的;数据库系统阶段,先后产生了层次型、网状型、关系型数据库系统。数据 库( d b ) 是长期存储在计算机系统内的一个通用化的、综合性的、有结构的、可共享的数据集合,具 有较小的数据冗余度和较高的数据独立性,安全性和完整性。 数据库系统( d b s ) 是实现有组织和动态存储大量相关的结构化数据、方便各类用户使用数据库 的计算机软,硬件资源的集合,由数据库、数据库管理系统( d b m s ) 及其开发工具、数据库管理员 ( d b a ) 、计算机软腰件和用户组成。数据库管理系统是数据库系统的核心,用于数据管理和维护, 主要功能包括数据定义功能、数据操作功能、数据库运行管理、数据库建立和维护功能、数据字典、 数据通信功能等等。 目前,商品化的数据库管理系统以关系型数据库为主导产品,技术比较成熟。国际国内的主导 关系型数据库管理系统o r a c l e 、s y b a s e 、i n f o r m i x 和i n g r e s 。这些产品都支持多平台,如 u n i x 、v m s 、w i n d o w s ,但支持的程度不一样。由于g p d 系统的后台数据库采用的是o r a c l e g i , 我们下面对o r a c l e 数据库做个简要的介绍。 2 1 1o r a c l e 数据库简介 o r a c l e p 是以高级结构化查询语言( s q l ) 为基础的大型关系数据库,它在数据库管理、数据完整 性检查、数据库查询性能、数据库安全方面都具有强大的功能,而且它还在保密机制、备份与恢复、 空间管理、开放式联接以及开发工具方面提供了不同手段和方法。其特点是:支持大数据库、多用 户的高性能的事务处理。o r a c l e 支持最大数据库,其大小可到几百千兆,可充分利用硬件设备。支 持大量用户同时在同一数据上执行各种数据应用,并使数据争用最小,保证数据一致性。系统维护 具有高的性能,o r a c l e 每天可连续2 4 小时工作,正常的系统操作不会中断数据库的使用。可控制数 据库中数据的可用性,可在数据库级或在子数据库级上控制。 o r a c l e 是一个开放系统。遵守数据存取语言、操作系统、用户接口和网络通信协议的工业标准; 实施安全性控制和完整性控制;支持分布式数据库和分布处理;具有可移植性、可兼容性和连接性。 2 1 2o r a c l e 数据库系统的体系结构 o r a c l e 数据库系统为具有管理o r a c l e 数据库功能的计算机系统。每一个运行的o r a c l e 数据库与 一个o r a c l e 实例( i n s t a n c e ) 相联系。一个o r a c l e 实例是存取和控制数据库的软件机制。每一次在 数据库服务器上启动一数据库时,称为系统全局区( s y s t e mg l o b a la r e a ) 的内存区( 简称s g a ) 被分配,有一个或多个o r a c l e 进程被启动。该s g a 和o r a c l e 进程的结合称为一个o r a c l e 数据 库实例。一个实例的s g a 和进程为管理数据库数据、为该数据库一个或多个用户服务而工作。 8 第二章基因表达数据库系统的设计 1 o r a c l e 存储结构 o r a c l e 的存储结构分为逻辑存储结构和物理存储结构两部分( 图2 - 1 ) 。逻辑存储结构主要用于 描述在o r a c l e 内部组织和管理数据的方式。o r a c l e 数据库的逻辑结构自上而下有六层,分别是:数 据库、表空间、逻辑对象、数据段、数据区间、数据块。数据库由一个或者多个表空间组成,某个 应用程序的所有逻辑存储结构和数据库对象存储在一个独立的表空间中,用户在数据库中创建的具 有实际存储结构的对象的数据保存在某个表空间为它创建的段中,每个段由多个区组成,这些区就 是数据的存储空间,每个区是由多个连续的块组成的,o r a c l e 进行存储空间的分配、回收,管理都 是以块为基本单位,块就是最小的逻辑存储单元。 图2 - 1o r a c l e 实例内存结构 o r a c l e 数据库逻辑上由一个或多个表空间组成,每个表空间在物理上由一个或多个数据文件组 成,其中s y s t e m 表空间由一个独立的数据文件组成。 数据库的存储结构包括数据文件、控制文件和重做日志文件三个物理文件。数据文件用于存放 所有的数据,日志文件记录了对数据库所作的所有操作,而控制文件则记录了数据库所有文件的控 制信息。数据库在加载实例时,必须读取控制文件中记录的数据库的逻辑结构和物理结构等基本信 息,它是数据库能否成功启动和正常运行的关键文件,而当数据库发生故障时,需要重做日志文件 中的信息来恢复内存中丢失的数据修改信息,以保持数据库的完整性和一致性。 2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论