(遗传学专业论文)拟南芥花药发育相关基因调控关系的预测.pdf_第1页
(遗传学专业论文)拟南芥花药发育相关基因调控关系的预测.pdf_第2页
(遗传学专业论文)拟南芥花药发育相关基因调控关系的预测.pdf_第3页
(遗传学专业论文)拟南芥花药发育相关基因调控关系的预测.pdf_第4页
(遗传学专业论文)拟南芥花药发育相关基因调控关系的预测.pdf_第5页
已阅读5页,还剩49页未读 继续免费阅读

(遗传学专业论文)拟南芥花药发育相关基因调控关系的预测.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

上海师范大学硕士学位论文摘要 摘要 模式植物拟南芥花药的发育过程由一系列复杂的基因调控网络所控制,基因调 控网络及特定基因与其它基因的调控关系对于发育分子机理深入研究具有重要 的意义。至今为止,由于实验技术的限制,我们对这一调控网络的了解非常有 限。在本项目中,我们利用一种整合基因芯片数据与启动子序列分析的生物信 息学方法来预测拟南芥花药发育相关基因之间的调控关系。基于这种方法,一 共预测到了7 7 1 0 对具有调控关系的基因对,并利用这7 7 1 0 对共2 3 1 9 个基因构 建成了了一个可视化的拟南芥转录调控网络。经过我们的筛选,在这7 7 1 0 对调 控关系中有8 0 对为高可信度的调控关系基因对,其中,有三对调控关系已被之 前的实验验证。基于以上数据,我们建立了一个与拟南芥花药发育相关的转录 调控数据库,其中存储了预测到的拟南芥转录调控关系。这个数据库将有助于 拟南芥花药发育分子机理的深入研究,其相关的生物信息学研究方法也为拟南 芥的其他基因调控关系研究提供一条可行的途径。 关键词:拟南芥花药发育基因调控网络生物信息学 上海师范大学硕士学位论文摘要 a b s t r a c t 胁b i d o p s i s 锄t h e rd e v e l o p m e n ti sc o n 仃o l l e db yc o m p l e xg e n en e t 、) r o r k s 1 1 1 e i n v e s t i g a t i o no fg e n en e 觚o r k 锄dr e g u l a t i o nb e t 、) ,e e n 似og e n e si si m p o n a n tt 0 u n d e r s t a r l dm o l e c u l a rm e c h a n i s mo fd e v e l o p m e m s of 她l i t t l ei sk n o w na _ b o u tt h e r e g u l a t o r ym e c h a n i s mb e c a u s eo ft e c l l i l i q u el i m i t a t i o n w er e p o r th e r ea ni n t e 伊a t e d b i o i n f o n n a t i cm e t h o dt h a tc o m b i n e sg e n ee x p r e s s i o nd a t a 锄a l y s i sw i t hp r o m o t e r a n a j y s i st oi n f e rd i r e c tt r a n s c r i p t i o n a lr e g u l a t o r yr e l a t i o n s h i pb e t w e e ng e n e si n v o l v e d i na r a b i d o p s i sa n t h e rd e v e l o p m e n t at o t a lo f7 71od i r e c t e dr e g u l a t e dr e l a t i o n s l l i p s b e t w e e nt f sa i l di t st a 唱e tg e n e sa r eo b t a i n e db yo u rp r e d i c t i o n 印p r o a c h e s f o r p u r p o s eo fi m p r o v i n gt h ep r e c i s i o no fo u rw o r k ,8 0h i 曲c o n f i d e n td i r e c tr e g u l a t o 巧 r e l a t i o n s h i p s 、e r ep i c k e d 丘o mt h e7 71op a i r s 锄d3o u to f8 0r e g u l a t o r yp a i r sw e r e v a l i d a t i e db yp r e v i o u se x p e r i m e n t s o u rw o r ke s t a b l i s h e sav a l u a b l eg e n e t i cr e g u l a t i o n 胁n e w o r kf o ra n t h e rd e v e l o p m e n t t h em e t h o du s e di nt l l i sw o r kc a i la l s ob ea p p l i e d f o rt h ep r e d i c t i o no f g e n er e g u l a t i o n s h i p so fo 玛a nd e v e l o p m e mi na r a b i d o p s i s k e y w o r d :a 协i d o p s i s ;a n t h e rd e v e l o p m e n t ;g e n er e g u l a t o 巧n e t 、o r k ;b i o i n f o r m a t i c s ; 上海师范大学硕士学位论文 论文独创性声明 本论文是我个人在导师指导下进行的研究工作及取得的研究成果论文中除 了特别加以标注和致谢的地方外,不包含其他人或机构已经发表或撰写过的研 究成果其他同志对本研究的启发和所做的贡献均已在论文中做了明确的声明并 表示了谢意 作者签名:日期: 论文使用授权声明 本人完全了解上海师范大学有关保留、使用学位论文的规定,即:学校有 权保留送交论文的复印件,允许论文被查阅和借阅:学校可以公布论文的全部 或部分内容,可以采用影印、缩印或其它手段保存论文保密的论文在解密后遵 守此规定 作者签名:导师签名: 5 2 期: 少帮,f 哆 上海师范大学硕士学位论文前言 1 前言 1 1 生物信息学简介 随着人类基因组计划的实施,我们获得了大量的原始生物序列数据和注释信 息。研究人员需要利用现代计算技术对这些数据进行收集、整理、存储、注 释、搜索、建模和使用,这就促成了一门新兴的交叉学科:生物信息学的诞生。 可以说,生物信息学是与基因组计划一同发展起来的。它是多学科交叉、相互 渗透的产物,涉及分子生物学、数学、信息科学以及计算机科学等诸多学科的 知识。生物信息学把d n a 序列,氨基酸序列,以及其它相关数据信息( 例如基 因芯片数据) 作为分析对象,力求揭示蛋白质和i 州a 基因的编码区,以及基因 组中非编码区的信息实质。生物信息学还利用基因组中编码区的信息进行蛋白 质空间结构的模拟和蛋白质功能的预测。借助强大的计算能力,生物信息学力 求在生物体的整体水平发现生命信息的传递和指导功能,在整体水平认识生命 现象,并将此类信息与生物体和生命过程的生理生化信息相结合,阐明其分子 机理,最终进行蛋白质、核酸的分子设计、药物设计和个体化的医疗保健设 计。当前,生物信息学已然深入到了生命科学的方方面面。当前人类基因组研究 已进入一个重要时期,2 0 0 3 年获得人类基因组的几乎全部序列,这是基因组研 究的转折点和关键时刻,意味着人类基因组的研究将全面进入信息提取和数据分 析阶段,即生物信息学发挥重要作用的阶段。功能基因组和蛋白质组的大量数据 己开始涌现。如何分析这些数据,从中获得生物结构、功能的相关信息是基因组 研究取得成果的决定性步骤。从目前生物信息学的研究情况来看,国际上公认的 生物信息学的研究内容,大致包括以下几个方面( 郝柏林,2 0 0 0 ) : 1 生物信息的收集、存储、管理与提供。包括建立国际基本生物信息库和生 物信息传输的国际联网系统;建立生物信息数据质量的评估与检测系统:生物信息 的在线服务;生物信息可视化和专家系统。 2 基因组序列信息的提取和分析。包括基因的发现与鉴定,如利用国际e s t 数据库( d b e s t ) 和各自实验室测定的相应数据,经过大规模并行计算发现新基因 和新s n p :以及各种功能位点:基因组中非编码区的信息结构分析,提出理论模型, 上海师范大学硕士学位论文 前言 阐明该区域的重要生物学功能:进行模式生物完整基因组的信息结构分析和比较 研究;利用生物信息研究遗传密码起源、基因组结构的演化、基因组空间结构与 d n a 折叠的关系以及基因组信息与生物进化关系等生物学的重大问题。 3 功能基因组相关信息分析。包括与大规模基因表达谱分析相关的算法、软 件研究,基因表达调控网络的研究;与基因组信息相关的核酸、蛋白质空间结构 的预测和模拟。以及蛋白质功能预测的研究。 4 生物大分子结构模拟和药物设计。包括i a ( 核糖核酸) 的结构模拟和反义 l 瑚a 的分子设计;蛋白质空间结构模拟和分子设计;具有不同功能域的复合蛋白 质以及连接肤的设计:生物活性分子的电子结构计算和设计:纳米生物材料的模拟 与设计;基于酶和功能蛋白质结构、细胞表面受体结构的药物设计;基于d n a 结 构的药物设计等。 5 生物信息分析的技术与方法研究。包括发展有效的能支持大尺度作图与测 序需要的软件、数据库以及若干数据库工具,诸如电子网络等远程通讯工具:改 进现有的理论分析方法,如统计方法、模式识别方法、隐马尔科夫过程方法、分 维方法、神经网络方法、复杂性分析方法、密码学方法、多序列比较方法等:创 建一切适用于基因组信息分析的新方法、新技术。包括引入复杂系统分析技术、 信息系统分析技术等;建立严格的多序列比较方法;发展与应用密码学方法以及其 他算法和分析技术,用于解释基因组的信息,探索d n a 序列及其空间结构信息 的新表征:发展研究基因组完整信息结构和信息网络的研究方法等:发展生物大分 子空间结构模拟、电子结构模拟和药物设计的新方法与新技术。 6 应用与发展研究。汇集与疾病相关的人类基因信息,发展患者样品序列信 息检测技术和基于序列信息选择表达载体、引物的技术,建立与动植物良种繁育 相关的数据库以及与大分子设计和药物设计相关的数据库。 1 2 系统生物学简介 8 0 年代,国际学术界兴起了研究非线性科学的热潮,因为人们意识到非线性 科学取得的成就昭示了对世界本质的认识又跃进了一步。一个系统不仅是其部分 的总和,这意味着叠加原理的失效,在数学上说就是非线性。一切事物作为系统, 无论是系统内部结构和外显的系统功能,其本质是非线性的。8 0 年代中期以来, 国际学术界兴起了对复杂性的研究,一个突出的标志是1 9 8 4 年在美国新墨西哥 2 上海师范大学硕士学位论文前言 州成立了以研究复杂性为宗旨的圣菲研究所( s a n 胁f ei n s t i t u t e ) 。他们认为事物的 复杂性是由简单性发展来的,是在适应环境的过程中产生的。他们把经济、生态、 免疫系统、胚胎、神经系统及计算机网络等称为复杂适应系统( c o m p l e xa d a p t i v e s y s t e m ) ,认为存在某些一般性的规律控制着这些复杂适应系统的行为。他们的这 种认识体现了现代科学技术发展的综合趋势,反映了不同科学领域的共识。关于 生物系统复杂性,也发表了一些研究者所做的工作( h u a n ge ta 1 ,1 9 9 9 ) 。 然而,现代生物学无疑是以还原主义( r e d u c t i o n i s m ) 作为其方法论的。对于众 多各种各样的生物大分子的研究是现代生物学研究的基础,尤其是基因学说和 d n a 双螺旋结构理论的提出,奠定了现代分子生物学的理论基础,使人类对生 命现象的认识深入到了分子水平。还原主义的研究方法,通过研究各组分的关系 来推导、解释整体的性质。通过对各种生物大分子一一核酸、蛋白质、糖、脂类 以及它们的复合物的研究,知道它们的结构、功能、代谢途径,从而勾画出完整 的生命系统蓝图。分子生物学的确是近几十年来发展最为迅速的生物学科,但如 果因此试图将生物学彻底还原到分子水平,那将使整个生命科学研究进入误区, 因为越来越多的事实证明,生命现象中有许多还原主义无法解释的现象。自从1 9 5 3 年w a t s o n 和c r i c k 提出d n a 双螺旋结构以后,生命科学研究就开始以基因为 研究中心了。特别是分子生物学出现以后,生命科学的各个学科在研究生命现象 时,往往把生物体层层分解,从个体到器官,从器官到组织,从组织到细胞,再 从细胞到分子,最终力求在基因水平上寻找个体生命现象的内在根源。当然,人 类基因组计划以前的遗传学,与所有涉及基因的生命科学一样,主要都是以分析 和还原的研究思路致力于对各种基因的研究,特别侧重于对单个基因的寻找、分 离和克隆。但是随着研究的深入,人们发现对于复杂的生命现象,仅仅研究单个 基因是远远不够的,对单个基因的研究难以认识生命体及其行为的整体性,生物 体是一个复杂的有机整体,基因在生命体中的存在并不是孤立的,基因之间的相 互作用也不是简单的线性关系,基因和基因之间,生物体和环境之间,有着一个 复杂的调控网络。1 9 8 6 年,当诺贝尔奖获得者杜伯克在s c i e n c e 杂志上发表了一 篇题为 癌症研究的转折点一一人类基因组的全序列分析 的重要短文,深刻的 指出,基因研究面临两种选择: 要么大家研究自己感兴趣的基因,即用零敲碎 打的方法开展研究,要么从整体上研究和分析人类基因组及其序列。基因组学的 上海师范大学硕士学位论文前言 提出和人类基因组测序的完成标志着生命科学中整体主义时代的开始,是整体主 义( h o l i s m ) 在生命科学研究的重要应用,这是人类第一次从整个基因组的结构、 功能和规模去研究人类的全部基因。在许多模式生物测序完成以后,我们面 对着一个新的挑战,那就是所谓的物种重建问题。给定一个生物的全基因组,如 何在计算机上构建这个生物体的功能体系。这个问题包含了对所有组成部分( 基 因和其他生物分子) 之间相互作用的预测。传统的看法是基因组是生命的蓝图一, 基因组中包含了构建一个生物体的所必需的信息。但是实际上,父代向子代传递 的不仅是包含细胞核,还包括整个细胞。因此,有一种看法是很有道理的:这种 观点认为基因组只是细胞中分子之间相互作用的整个网络中的一部分。基因组不 是细胞指令的大本营,而只是一个大仓库;相互作用的网络本身才是那个所谓的 指令系统,这个系统遵循固有的程序引导发育过程,并且产生生殖细胞( k a l l e h i s 钆 2 0 0 2 ) 。因此可以说,生命的全部可以看作是一个由各个生物个体相互作用形成 的网络,它可以用理论上所有可能的基因组的空间分布来近似地模拟;物种就是 这个基因组空间中的局部集合,而物种的集合则是基因组空间里面更平滑的大集 合。在这种大背景下,系统生物学应运而生了。 1 3 基因表达与转录因子 基因是具有遗传效应的d n a 分子片段,它存在于染色体上,并在染色体上呈 线性排列。基因不仅可以通过复制把遗传信息传递给下一代,还可以使遗传信 息得到表达,也就是使遗传信息以一定方式反映到蛋白质的分子结构上,从而 使后代表现出与亲代相似的性状。大多数生物的基因是由d n a 组成,而d n a 则是染色体的主要化学成分。大多数真核生物细胞内的d n a 是由双股多核昔酸 单链结合而成。基因表达是指存储遗传信息的基因经过一系列步骤来表现出其 控制遗传性状和活性调节功能的整个过程。典型的基因表达是基因通过转录, 翻译,从而产生有生物活性的蛋白质的过程。r r n a 的基因转录和转录后直接加 工产生成熟的r i 矾a ,也是基因的一种表达方式。真核细胞的调控,比原核细胞 要复杂得多,至今还没有较为系统而又为实验所证实的理论。普遍认为,真核 基因的表达调控主要有三种形式:结构基因的内部或其附近存在对基因表达起调 控作用的d n a 序列:基因中某段富含c g 的序列的甲基化对基因表达起调控作用; 通过染色体结构的变化控制基因的表达。一般认为,在真核基因的结构基因的 4 上海师范大学硕士学位论文前言 上游有一个启动基因区( 由增强子、启动子、t 觚a 框组成) ,下游结构基因由一 些外显子和内含子组成。基因组是指含有一个生物体生存,发育,活动和繁殖 所需要的全部遗传信息的整套核酸。但是生物的遗传信息并不是同时全部表达 出来的,基因组的所包含的全部基因也不是以相同的强度同时表达出来的。在 一个组织细胞中通常只有一部分基因表达,其他的基因多数处于沉默状态。通 常各组织细胞只合成其自身结构和生存需要的蛋白质,不同的组织细胞中不仅 表达的基因数量和种类不相同,而且即使是同一个基因表达强度也不完全相 同,这就是基因表达的组织特异性。细胞特定的基因表达状态决定了基因的形 态和功能,如果细胞的基因表达调控发生了变化,细胞的形态和功能也会随之 而变,发生疾病。细胞分化的不同时期,基因表达的情况是不同的,这就是基 因表达的阶段特异性。生物只有适应环境才能生存,当周围的环境发生变化时 就要调节自身的基因表达来适应新的环境。由此可以把基因表达分为组成性表 达和适应性表达两类。组成性表达是指不受环境变动而变动的一类基因的表 达,其中有些基因表达的表达产物是生物体整个生命过程中所必须的,这类基 因也称为看家基因。适应性表达指环境的变化容易使其表达水平发生变动的一 类基因表达。 调控蛋白包括负调控因子( 阻遏蛋白) 和正调控因子( 转录因子) 在这里,出于简 化的目的,我们将它们统称为转录因子。原核生物的启动子( 及操纵子) 的结构 较为简单,所涉及的调控蛋白质的种类也较少;真核生物的启动子结构则更为 复杂,有的还有增强子结构,因而涉及得调控蛋白质得种类也较多其中主要是 各种转录因子。一个真核生物基因对于环境和发育过程中的不同信号以及这些 信号的不同组合将做出不同的响应,都有着不同程度的表达,在基因表达过程的 不同阶段,基因都会受到某种程度的调控。其中最为关键的步骤发生在转录起 始阶段,原核生物的基因表达的调控是这样,转录调控是在转录起始阶段实现 的,如图所示。基因的启动子区域能吸i 矾a 聚合酶,并正确引导r n a 的合 成。细菌和真核生物的启动子都包括起始位点嚣转录真正开始的地方和一个位 于起始位点”上游”的大约5 0 个核苷酸长的序列。这个区域包括了l 州a 聚合酶与 启动予结合所需的位点。除了启动子以外,几乎所有的基因都还有激活靶基因 所需的d n a 结合位点,也称为转录因子结合位点。转录因子结合位点本身并不 o i s t a c o n t r o l 圳帅:、_ 7 衄“v a 协r s l 、,- _ , e n h a n c e 7 l j 照苎曛簪燃 i , f c d n a ,b e n 别“n 吣 骧岁 焉譬恕黑咖。谚吾忑万意渊。 i n i t i a l i o 九c o m p e x 。”h 鲁y 譬鲁。 :一一 吾i | ;| , 一一v一融 ,一, 上海师范大学硕士学位论文 日u 看 最保守。尽管不同物种代谢网络差别可能很大,但生物多样性的主要原因还是 在调控网络和蛋白质相互作用网络上。由于蛋白质相互作用网络更加复杂,所 以目前的研究热点在调控网络上。转录水平上的调控是基因调控网络三个调控 水平中最重要的一部分,所以研究对象就是转录水平上的基因调控网络的重构 ( b 1 a i se ta 1 ,2 0 0 5 ) 。确定了研究对象之后,需要对这个研究对象作进一步认识 和描述,确定对象的特征,从而建立对象的模型。转录水平上的基因调控网络 虽然是整个生物系统中的一小部分,但同样复杂。在原核生物中,大部分调控区 域都在基因上游附近,大约几百个碱基长度。但在真核生物中调控区域可能远 离基因上游,有的还位于基因下游,甚至位于基因内含子中。 图1 2 大肠杆菌的转录调控网络 并且长度往往是一千到几千个碱基不等。在真核生物中一个基因转录和调节 包括数十个转录因子的协调,有些特定功能比如人血压调节过程就包括了上百 个基因的调节。在原核生物中,一些小的调控网络研究的比较清楚,比如枯草杆 海| j 【f j 范大学坝1 j 学位沦文扫u 高 基因组的e c 值大 二分别由单个m o t i f 所控制摹凶组的e c 值之和,就认为这两个 m c j t i f 是具有协作作用的。由于贝叶斯网络可以很好的把询:多相义的数掂联系起 来,贝叶斯网络也是很重要的一个研究方法,l l 丁以把不同阶段的表达数掘有机的 结合起来。 ( 2 ) 通过c h i p ( ) nc h i p 技术来推断转录控制嘲络 l e e 等人于2 0 0 2 年利用c h i po nc h ip 技术对酿酒酵母基因组全部的转录因子 做了b j n d 实验,得到了这些转录因了在基因组中- 1 丁能结合的目标基因,并基于 这些结合信息构建了与酵母细胞周期有关的转录调控网络( l e ee ta 1 ,2 0 0 2 ) 。网 络请见图1 4 : i 纠卜4 酵母的转录训拎f 叫络,_ j :面的i 卅络代表酵母伞艰组转录j i 之间的调控关系,下图则为与细胞 周期相关的转录例r 之间的转录调托! 关系 上海师范大学硕士学位论文前言 ( 3 ) 从蛋白质相互作用网络来推断t f 间的相互作用 2 0 0 5 年n a g a m i n e 提出利用蛋白质相互作用的信息来预测t f s 的协作关系 ( n a g a m i n ee ta 1 ,2 0 0 5 ) 。思想是基于这样一个假设:执行同一生物学过程的基 因应该具有相同的控制机制,既是在蛋白质相互作用网络中临近的蛋白质应该被 同一个t f s 来控制。该算法分为两步来实现的。首先,蛋白质相互作用网络可以 用来计算同一功能模块里的基因之间的相似性,然后利用这些相似性和染色体免 疫沉淀数据来预测协作的转录因子对。在蛋白质相互作用网络中临近的蛋白质应 该被同一个t f s 来控制。 1 6 本研究的目的意义和内容 近年来,基因分子生物学研究领域的重点已经逐渐从功能基因转到启动子的 顺式作用元件和转录因子及其调控机理上。对转录因子的结构与功能的分析鉴 定,是阐明在各种条件下基因表达调控机理的重要内容之一,揭示转录因子之 间及它们与d n a 之间相互作用的具体机制,就可以人为的控制特定基因的表 达,使植物基因转化能获得好的结果。而转录因子与其调控d n a 直接的关系又 组成了转录调控网络,因此预测转录调控关系是构建生命体转录调控网络的第一 步。目前酵母、人、果蝇等几种模式生物的基因调控网络已被构建出来。 l e e 等人利用一种整合c h i p c h i p 方法与基因表达数据的方法,构建了一个酵母的细 胞周期的转录调控网络( l e ee ta 1 ,2 0 0 2 ) 。对调控网络的结构分析表明,真核 生物的细胞功能与网络中的高连接度的调节基因有着密切的关系。o d o m 等人 为人类肝细胞的六个主要的调节基因构建了转录调控网络,他们进一步发现这六 个主要的调节基因会联合结合在它们的靶基因的启动子区域中( o d o me ta 1 , 2 0 0 6 ) 。 然而,由于缺少足够的基因表达数据与高通量实验数据,鲜有大规模的拟南芥 的转录调控网络被构建出来。目前只报道过一些小规模的、基于少数特定调控 基因的调控网络。e s p i n o s a 等人利用一种离散网络模型( d i s c r e t en e 觚o r km o d e l ) 将早先植物中已知的a b c 模型转换成了一个动态模型( e s p i n o s a e ta 1 ,2 0 0 4 ) 。t o 等人利用整合实验与基因表达数据的方法构建了一个与拟南芥种子成熟有关的 基因调控网络( t 0e ta 1 ,2 0 0 6 ) 。 1 0 上海师范大学硕士学位论文 前言 花药的发育是植物有性生殖的重要环节。本文我们利用一种整合基因表达数 据与启动子区域转录因子结合位点预测的生物信息学方法来构建一个拟南芥花 药发育有关的基因调控网络。首先我们从一些拟南芥实验的基因芯片数据中鉴 定出有强表达量的花药表达基因。 利用基因共表达数据库的拟南芥基因共表达 数据从这些基因中筛选出有共表达情况的基因,并根据其共表达情况将这些基 因分成了若干共表达基因组。然后,使用模体( m o t i f ) 预测软件对每一组中的基 因启动子序列进行预测,找到这些基因启动子区域上转录因子结合位点( t f b s ) 。 再使用m o t i f 匹配工具将t f b s 信息转换成转录因子信息,从而确定一个基因及 其启动子上结合的转录因子,这样我么就可以得到转录因子与其靶基因的调控 关系。通过以上的基因共表达分析和启动子区域的t f b s 预测,我们预测出了 一些高可信度的花药发育相关基因的调控关系,并将这些调控关系构建成了一个 拟南芥花药发育的调控网络。 上海师范大学硕士学位论文材料与方法 2 1 材料 2 材料与方法 2 1 1 拟南芥花药基因芯片 基因芯片技术主要是基于近年来的一种全新的d n a 测序方法杂交测序 ( s e q u e n c i n gb yh y b r i d i z a t i o n ,s b h ) 法应运而生的( r 锄s a y ,1 9 9 8 ) 。其原理是将 许多预先设计好的特定序列的寡核苷酸片段,以很高的密度有序地排列固定在 一块玻璃、硅等固体基片上,作为核酸信息的载体,然后将待测样品基因组 d n 删a 通过p c r 爪t p c r 扩增、体外转录等技术掺入标记分子后,与位于芯 片上的探针杂交,再通过扫描系统检测探针分子杂交信号程度,并配以计算机 对信号进行综合分析后,就可获得样品中大量基因序列及表达信息,并对其作 出定性和定量的研究。基因芯片集成了探针固相原位合成技术、照相平板印刷 技术、高分子合成技术、精密控制技术和激光共聚焦显微技术,使得合成、固 定高密度的数以万计的探针分子以及对杂交信号进行实时、灵敏、准确的检测 分析变得切实可行。基因芯片技术在分子生物学领域、医学临床检验领域、生 物制药领域和环境医学领域显示了强大的生命力,其中关键就是基因芯片具有 微型化、集约化和标准化的特点,从而有可能实现“将整个实验室微缩到一片 芯片上的愿望。今年来,国内外的实验室产生了越来越多的拟南芥基因芯片 数据,这些基因芯片数据可以从主要的基因芯片数据库获得,如g e o 数据库等。 基于我的研究对象:拟南芥花药,我们选择了a t g e n e x p r e s s 项目所进行的拟南 芥主要组织的表达实验所产生的基因芯片数据来作为我们的基因芯片材料。 a t g e i l e x p r e s s 是一个国际合作项目,其目的在于研究拟南芥各器官发育的分子机 理,这一项目主要进行了一系列基因芯片实验,其芯片数据发布在网上 (h ! 鲤;丛坠釜垒监堑也i 亟q 遮i 墨:q 匹i 望鱼缱茎p ! 里墨墨i q 巡鱼曼堕垦苎p ! 里曼墨j 墨p ) 。本研究从 e x p r e s s i o na t l 嬲o f 加a b i d o p s i sd e v e l o p m e n t 这一实验中挑选了编号分别为: a t g e3 6 和a t g e4 3 的基因芯片,每个编号各包含了3 张重复实验芯片,我 们从这6 张芯片中筛选出花药发育相关的基因( s c h m i de ta 1 ,2 0 0 5 ) 。 上海师范大学硕士学位论文材料与方法 2 1 2a t t e d i i 数据库 在基因表达芯片实验中我们将同时获得全部或大部分基因的定量表达信息和 动态表达信息,从中可以分析出基因的表达模式。通常,在基因表达实验中有 共表达模式的基因被认为可能会被相同的转录因子所调控,即被同一转录因子调 控的一组基因可能存在共表达的情况。近年来,国际上出现了一些专门存储基因 共表达数据的数据库,如a t t e d i i 数据库( o b a y 勰h ie ta 1 ,2 0 0 7 ) 。a t t e d i i 数据 库收集了大量的拟南芥现有基因芯片数据,并对这些基因芯片数据进行整合与分 析,得出了拟南芥基因间的共表达系数,通过这些系数,我们可以推断拟南芥 基因组里的任意两个基因间的共表达关系。我们从a t t e d i i 数据库中下载了其 根据大量拟南芥基因芯片预测出来的基因共表达系数,用这些系数来对我们的拟 南芥花药基因芯片进行筛选。同时a t t e d i i 数据库也提供将这些基因共表达信 息从数字转化为图像的w 曲服务,只要使用者输入某个基因的a g i 编号, a 1 盯e d i i 数据库将会依据其数据库中的共表达系数来将与该输入基因有一定共 表达值的基因都列出来,并将这些信息绘制成网络图像,以便研究者能更加直观 的分析这些基因。具体的图像请见图2 1 。 图2 - 1a n t d - i l 数据库提供的基因共表达信息 上海师范大学硕士学位论文材料与方法 2 1 3m e m e 工具 m e m e 工具被我们用来从一组共表达的基因启动子序列中预测转录因子集合 位点( b a i l e ye ta 1 ,2 0 0 6 ) 。m e m e 工具的核心算法是基于e m 算法的( j e f f c f ,1 9 8 3 ) 。e m ( e x p e c t i o n ma x i m i z a t i o n ) 算法是一种广泛用来迭代计算极大似然 估计( m a x i m u ml i k e l i h o o de s t i m a t i o n ,m l e ) 的方法,在各类不完全数据问题 ( i n c o m p l e t e d a c ap r o b l e m ) 中非常有用,而这时候传统的n e w t c ) n r a p h s o n 方 法可能会变的非常复杂,这里的不完全数据有两种情况,一种情况是显然的不 完全数据的问题,包括缺失数据问题,截断分布问题( 生存数据中有这类情 况) ,检查或分组( c e n s o r e d 锄dg r o u p e d ) 数据问题。另一种情况则是不显然的不 完全数据问题,包括混合模型问题,潜数据问题( 1 a t e n tv a r i a b l es t r u c t u r e s ) 。在 e m 算法的每一步迭代中,有两步:e x p e c t i o nst e p 与m a ) ( i m i z a t i o nst e p 简称为 e s t e p 和m s t e p ,这也是e m 算法名称的由来,e m 算法的名称最初由 d e m p s t e r 。 l a i r d 。和r u b i n 提出的,但事实上,在此之前,已经有了e m 算法 的想法,并且在实际中有一些应用。在我们遇到的许多问题中,大体可分为完 全数据和不完全数据的问题,对于一个完全数据问题的极大似然估计可以很容 易的计算出来,比如有些时候完全数据的似然函数有显式的解,或者可以使用 一些计算机程序包来计算,e m 算法最基本的想法自然是和不完全数据相关联 的,它根据由完全数据得到参数的极大似然估计的方法特点,对原来的问题构 造新的公式,试图找到一种不完全数据问题和完全数据问题之间似然函数的关 系,选择更为简单的方法在迭代过程中的m s t e p 来计算极大似然估计。因为完 全数据的似然函数一般都有较好的形式,从而我们可以在e s t e p 来利用不完全 数据和参数的估计值来生成完全数据集,然后在m s t e p 中来利用较简单的完全 数据集的m l 估计方法得到下一次e s t e p 中使用的参数估计,直到收敛。 e m 算法简单说来,是对于缺失数据进行极大似然估计的一个迭代算法,假定 一统计模型由参数秒决定,观测到的数量称为x ,支的概率由一些缺失数据y 来 决定,p 为所有模型的参数的集合,目标是找到模型,使得如下的对数似然最大, 即使得 i d g p 扛l 缈= j o g 芝:以z ,圳功 1 4 上海师范大学硕士学位论文材料与方法 最大假设己有一个有效的模型( v a l i dm o d e l ) ,对应的参数的集合为矿,想着估计 一个新的而且更好的模型,其参数是矿”,应用p ( x ,y 1 秒) = p ( y l x ,秒) p ( x i 口) , 可以写成对数似然形式 i o g p 如l 口) 一l o g 烈z ,夥lp ) 一l o g p 壹r i 霉,9 ) 两边都乘以p ( y i x ,矿) 然后对y 所有取值求和可以产生 l o g p ( 工i p ) 蕾p ( 磋z ,铲) l o g 烈毛哦p ) 一厦矾z ,矿) 蚝p ( 掣k 学) , 记上式右端第一项记作q ( 秒j 矿) ,为了找到l o gp ( x l 口) 的极大值,需要l o gp ( x i9 ) 大于l o gp ( x i 矿) ,即差值应该为正数,由此 1 0 9p ( 咖) - p ( z = q 口 即一。( 矿渺) + 莩p ( 出1 0 9 裂篇 注意到最后一项为p ( y i x ,1 9 f ) 对于p ( y i x ,秒) 的相对嫡,它往往是非负的,所 以 l o g p ( 善| p 一l o g 硝z 矿) q ( 纠伊) 一q ( i 矿) 等号成立当且仅当秒= 或者对护矿时p ( y l x ,) = p ( y | x ,p ) 选取 矿1 一a r g m f q ( 酲伊) 可保证差值为正值,新模型的似然度高于参数为时的似然度,如果最大值己达 到,即+ 1 = 矿则似然度不改变由于p ( y i x ,) 是在给定目前的参数集合和已观 测数据的基础上对未观测数据的分布的描述,而p ( y i x ,) 21 ,所以函数q y 可以这么看待:对l o gp ( x ,yi 护) 的加权平均数 算法形式如下: e 双e p ,计算q 函数,即邑户( 纠毛矿) 崤烈z 圳9 ) m 一醴e p ,对于以最大化q 6 1 1 ) 可以看出,每迭代一步,似然度就提高一步,所以程序总能使得似然度随着时间 上海师范大学硕士学位论文材料与方法 t 斗。渐进达到局部最大 2 1 4s t a m p 工具 s t a m p 工具被我们用于m o t i f 之间的匹配,即将我们通过m e m e 工具预测 到的m o t i f 和转录因子数据库中已知的m o t i f 做对比( m a h o n ye ta 1 ,2 0 0 7 ) 。 s t a m p 工具以w 曲服务的形式读取使用者上传的存有m o t i f 信息的文件,然 后利用一些m o t i f 比对算法来对预测出来的m o t i f 与己知的m o t i f 进行匹配,最 后以h t m l 的形式将结果返回给使用者。图2 2 是s t a m p 的输出结果,其中第 一列是匹配到的m o t i f 结果,第二列为该结果的可能性,该值越小则可能性越 大。 m o t i fs i m i l a r 姆m a t c h e s 铅c 攀i 2 1 5g o 数据库 e n o 9 j ? 9 9 e l o 9 1 7 9 9 e l o l3 2 5 0 e 图2 2s 1 a m p 工具的输出结果 :磁磁g 镰代鲨 :魄奠他 g o ( g e n eo n t 0 1 0 9 y ) , 即基因本体,本体在生物学数据库的整合和生物数据注 释过程中起到了巨大的作用( a s h b u m e re ta 1 ,2 0 0 0 ) 。数据整合面临的一个重要问 题是语法和语义的不相容。语法规则的不相容可以很容易地采用模式匹配软件来 重。一 蛳艇一一 慧 篓 黧 卜v 。 上海师范大学硕士学位论文材料与方法 进行排列,而语义不相容却无法通过此方法有效地解决。对于语义不相容,原则 上并不要求一个完美的本体论,仅仅要求一个控制性词汇,主要目的是提供不变 的单一的参考词汇。基因本体论工程开发了g o 这个概念,提供了一系列连续的 所谓g o 标识符( g 0i d ) 。这意味着新的概念要采用新的g oi d s ,而老的概念, 即使在本体论的层次结构中被移动到另外一个地方,将继续保持原来的g 0i d s , 被删除的g oi d s 则不再使用。g o 目标是建立一个可以动态控制的词表,该词 表可以应用于所有真核生物,即使关于某个基因或蛋白的功能与作用的知识未知 或在不断积累变化中,我们仍然能有一定的规则去描述它。为此,g 0 数据库构 建了3 个相对独立的本体论。其中,生物过程( b i o l o g i c a lp r o c e s s ) 、分子功能 ( m o l e c u l a rf u n c t i o n ) 和细胞成分( c e l lc o m p o n e n t ) 是基因和基因产物的所有的属性。 构建生物数据库与g e n eo n t 0 1 0 9 y 之间的联系,同时g 0 的基因注释也是由其制 定的一套规范来形成层次的,具体层次请见图2 3 。其最终目的是使g e n e 0 n t o l o g y 成为关系型数据库中建立数据问关联的生物学基础,真正从生物语义上 实现各数据库的最大整合。 图2 3g 0 注释信息的层次关系 上海师范大学硕士学位论文材料与方法 2 1 6p e r i 语言 p e d 是p r a c t i c a le x t r a c t i o n 锄dr e p o n l a i l g u a g e 的首字母缩写,它是由 l a n y w a l l 设计, 并由他不断更新和维护p e r l 语言最初用于u n i x 环境下的编程 语言。p e r l 具有高级语言( 如c 语言) 的强大能力和灵活性( s 埘i c he ta 1 , 2 0 0 2 ) 。p e r l 是一种脚本语言( s c r i p tl a i l g u a g e ) , 脚本语言是目前各种语言发展 的方向之一。p e r l 也是一种解释型的语言。p e r l 还具有很多其它高级语言不具备 的优良特性。其中,正则表达式的特点是这个语言最大的特色。这与p e r l 的名称 即p m c t i c a le x t r a c t i o na l l dr e p o r tl a n g u a g e ( 实用提取与报告语言) 相一致。特别 适用于对网页如h t m l 和x m l 的解析。p e r l 可以直接进行模式匹配,p e r l 语 言的复杂性也就是体现在高效使用正则表达式进行的模式查找上在生物信息学 领域可以很方便的用p e d 的正则表达式进行序列的解析如著名的蛋白质m o t i f 数 据库p r o s i t e 中的数据条目也是用正则表达式存贮的。用户可以用这种数据库 中的结构或者功能m o t i f 来分析自己的蛋白质序列,以便对自己分离到的蛋白 质序列进行结构和功能的预测。在国际上著名的b i o p e r l 项目的模块中, 对各 种b l a s t 、f a s t a 结果报告的解析也使用了大量的正则表达式。 生物信息学的研究特点非常明显的表现在:第一,巨量数据计算,这是生物信 息学研究的最大特点如水稻基因组,中国华大基因中心测定的籼稻品种9 3 1 1 的 基因组序列就有4 6 6 兆、而美国s y n g e n t a 公司t e q 实验室测定的粳稻品种 n i p p o n b a r e 基因组也有4 2 0 兆、人类基因组则更大有3 g 之巨。如果生物信息学 工作者要遍历一次一个基因组,可以比喻为拷贝一次几百兆的数据文件,这个过 程也要在目前的微机上也要好几分钟。而常常是一次计算要遍历很多次。第二, 序列分析中字符串处理占了大部分的内容,如数据库搜索,序列比对等,所以在 选择计算语言时必须考虑能很方便地进行字符串处理。第三,广泛的w e b 技术 应用,生物信息学研究中的w e b 技术包括w e b 客户端技术和w e b 服务器端 技术,两者缺一不可。w e b 服务器端技术可以充分发挥大型计算机的能力,实 现分布式巨量计算以达到资源共享。同时w e b 服务器技术可以很方便的实现对 外信息发布和信息交流。而w e b 客户端技术可以实现与大的数据中心共享巨型 计算的计算能力和数据。 而p e r l 语言的种种特性恰好满足以上三点的要求,因此在我们的课题中,p e r l 1 8 上海师范大学硕士学位论文材料与方法 语言成为了我们首选的编程语言,用以实现项目的每一个步骤。 2 2 实验方法 2 2 1 花药表达基因的挑选 本课题的目标是预测出在拟南芥花药发育过程中表达的转录因子与其靶基因 之间的关系。首先,我们从基因芯片中挑选出表达量达到一定标准的基因来作为 预测对象。首先我们从t a i r 网站上( h 却:,、 ,、矾a r a b i d o p s i s o r 们下载了由 a t g e n e x p r e s s 项目所发布的基因芯片数据,我们挑选了其中的a t g e 3 6 和 a t g e 4 3 这两张芯片作为筛选对象,因为这两张芯片采用的植物的样本为拟南 芥的雄蕊,而雄蕊又包括了花药,所以我们依然可以从中挑选出在花药发育过 程中表达的基因。我们先简要介绍一下芯片数据的格式,我们下载的芯片数据 是已经处理过的芯片数据文本格式,处理过程由a t g e i l e x p f e s s 项目的实验人员 完成( s c l l l i l i de t2 1 1 ,2 0 0 5 ) 。通过处理过程,实验人员将基因芯片的基因表达光信 号转换为数字信息,同时使用了许多统计学的方法来进行误差处理。图2 - 4 为处

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论