版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基因本体论与GO技术张波 Bozhang_2015年9月引 言背景 随着后基因组(post-genomics)时代的来临,基因组学的研究重心开始从阐明所有遗传信息转移到在整体分子水平对功能进行研究。这种转变的一个重要标志是产生了功能基因组学(functional genomics)。任务 功能基因组学的主要任务之一是进行基因组功能注释(genome annotation),了解基因的功能,认识基因与疾病的关系,掌握基因的产物及其在生命活动中的作用等。意义 快速有效的基因注释对进一步识别基因,研究基因的表达调控机制,研究基因在生物体代谢途径中的地位,分析基因、基因产物之间的相互作用关系,预测和发
2、现蛋白质功能,揭示生命的起源和进化等具有重要的意义。 本体论的哲学基础 第一哲学:是者之所以为 是 者,以 及是者由 于 本 性 所 应 有 的 性 质。” “是者”(being)是 从 系 词 是(to be)的 分 词 作 成 的 哲学概念,在西方哲学中可以用作表示泛指一切的概念、其涵盖范围比中文的“存在”、“万物”都要广。 ontology:即我们译作“本体论”并得到广泛流传的这个词,就是由 ont(的变式)加上词尾logy(意为科学、学说)组成的。因此,从亚里士多德起,“第一哲学”也就是本体论。西方哲学分类基因注释数据库 研究人员已经掌握了大量的全基因组数据,同时关于基因、基因产物以及
3、生物学通路的数据也越来越多,解释生物学实验的结果,尤其从基因组角度,需要系统的方法。 在基因组范围内描述蛋白质功能十分复杂,最好的工具就是计算机程序,提供结构化的标准的生物学模型,以便计算机程序进行分析,成为从整体水平系统研究基因及其产物的一项基本需求。 基因注释数据库产生的原因基因注释数据库产生的原因生物学与计算机信息学的矛盾生物信息的巨大与混乱:生物学家们浪费了太多的时间和精力在搜寻生物信息上。生物学上定义混乱,不同数据库使用不同的术语。计算机难以搜寻,随时间和人为多重因素而随机改变。生物信息的归类对研究工作带来的挑战:找一个用于制抗生素的药物靶点,找到所有的和细菌蛋白质合成相关的基因产物
4、,特别是那些和人体中蛋白质合成组分显著不同的。如果一个数据库描述这些基因产物为“翻译类”,而另一个数据库描述其为“蛋白质合成类”,那么这无疑对于计算机来说是难以区分这两个在字面上相差甚远却在功能上相一致的定义。一、基因本体论(gene ontology) 1988 年对三个模式生物数据库的整合开始:the FlyBase (果蝇数据库 Drosophila),the Saccharomyces Genome Database (酵母基因组数据库 SGD) 和 the Mouse Genome Informatics (小鼠基因组数据库 MGI)。从那开始,GO 不断发展扩大,现在已包含数十个动
5、物、植物、微生物的数据库(详见 GO Consortium Page )。 /GO.consortiumlist.shtmlGene Ontology widely adopted AgBaseGO的三级语义词汇标准 GO 开发了具有三级结构的语义词汇标准(Ontologies),根据基因产物的相关生物学途径、细胞学组件以及分子功能而分别给予定义,与具体物种无关。 第一,给予并维持语义(terms); 第二,将位于数据库当中的基因、基因产物与 GO本体论语言当中的语义(terms)进行关联,形成网络; 第三,开发相关工具,使本体论标准语言的产
6、生和维持更为便捷。本体论(The ontologies)介绍 GO 提供了一系列的语义(terms)用来描述基因、基因产物的特性。这些语义分为三种不同的种类: 细胞学组件(CC),用于描述亚细胞结构、位置和大分子复合物,如核仁、端粒和识别起始的复合物等; 分子功能(MF),用于描述基因、基因产物个体的功能,如与碳水化合物结合或 ATP 水解酶活性等; 生物学途径(BP),指分子功能的有序组合,达成更广的生物功能,如有丝分裂或嘌呤代谢等。 GO 的具体定义 细胞组件 即细胞中的位置,指基因产物位于何种细胞器或基因产物组中(如糙面内质网,核或核糖体,蛋白酶体等)。 GO 的具体定义 分子功能 分子
7、功能描述在分子生物学上的活性,如催化活性或结合活性。GO 分子功能用来定义功能而不是整体分子,而且不特异性地指出这些功能具体的时空信息。分子功能大部分指的是单个基因产物的功能,还有一小部分是此基因产物形成的复合物的功能。定义功能的义项包括催化活性、转运活性、结合活性等,更为狭窄的定义包括腺苷酸环化酶活性或钟形受体结合活性等。 生物学途径 生物学途径是由分子功能有序地组成的,具有多个步骤的一个过程。举例来说,较为宽泛的是细胞生长和维持、信号传导。一些更为具体的例子包括嘧啶代谢或配糖基的运输等。一个生物学途径并不是完全和一条生物学通路相等。因此,GO 并不涉及到通路中复杂的机制和所依赖的因素。语义
8、之间的关系及其组织结构 语义之间关系的基本理解 基因本体论组织类似于图,语义作为图的结点,语义之间的关系为图中的边。因此,一旦产生新的语义,其与其它语义之间的关系也会同时被定义。语义之间的关系有三种:is a、part of 和 regulates。关系表示的几点约定 1. “语义”用图论的术语“结点”表示 2. 我们习惯于用父子结点来表示语义之间的关系,其中父结点离根结点较近,表示相对宽泛的语义,而子结点离叶子结点较近,相对父结点其语义所代表的内容更为具体。 3. 图中的实线表示结点之间的关系 4. 虚线表示推理而并未证明的关系基本关系图示语义关系的推导1 is a 的传递性语义关系的推导2
9、 part of 也具有传递性语义关系的推导3 part of 具有优先性调节控制关系(regulate)与推导1调节控制关系(regulate)与推导1调节控制关系的复合变换本体论的组织结构 本体论的图形化表示:语义表示为结点,其间的关系表示为结点之间的边。 GO 语义之间的单向关系:线粒体(mitochondrion)是一个细胞器(organelle),可以表示为 a mitochondrion is an organelle,但反过来不成立,细胞器不是一个线粒体! GO图形特征:有向非循环树,其中离根结点越近的结点越概括,离叶子结点越近的结点越具体。本体论的结构可视化 本体论结构图中的结
10、点可以有两个及其以上的父结点。 例如:BP已糖合成(hexose biosynthetic process)就有两个 父 结 点 , 已 糖 代 谢 (hexose metabolic process) 和 单 糖 合 成 (monosaccharide biosyntheticprocess)。其并不难理解,因为已糖(hexose)是一种单糖(monosaccharide),生物合成过程(biosyntheitc process)也是一种生物代谢过程(metabolic process) 。GO语义的注释(Annotation)注释原理 一个基因产物可以被一种本体论定义的多种分支或多种水平注
11、释。注释需要反映在正常情况下此基因产物的功能,生物途径,定位等,而并不包括其在突变或病理状态下的情况。GO 联合会的各个数据库成员采用手动或自动的方式生成注释,这两种方式共有的原理是: 1. 所有的注释都需要有来源,可以是文字、另一个数据库或是计算机分析结果; 2. 注释必须提供支持这种基因产物和 GO 术语之间联系的证据。二、GO 怎么用? GO 是分别从三个不同的层面描述基因产物的语义集。基因产物数据库用GO 提供的语义去注释基因产物,并向 GO 联合会提供注释文件,阐明了基因产物和用于定义他们的 GO 术语之间的关系。 如何下载本体论文件、注释文件。 如何浏览 GO 语义及其相关的注释。
12、下载本体论文件和注释文件AmiGO的使用BAD的GO注册信息GO:0051712 : positive regulation of killing of cells of other organism GO词条关联图示法GO数据库的开放性二、GO的应用 GO语义检索 未知序列的确认 整合代谢途径分析 基因功能富集分析 基因功能预测GO语义检索根据基因产物检索“NOT”词条的涵义未知序列的确认 对于未知基因名的序列,可以用序列直接检索GO 数据库。点击AmiGO首页上方的“BLAST”。 界面风格类似于其他数据库BLAST搜索的网页,在检索框中铁如氨基酸或核酸序列,网页能自动识别并相应地做BLA
13、STP或BLASTX和数据库中的序列比对。 这里以检索一段未知基因的序列为例,如图所示。整合代谢途径分析 京都基因与基因组百科全书(Kyoto encyclopedia of genes and genomes, KEGG) 是系统分析基因功能、基因组信息的数据库,它整合了基因组学、生物化学以及系统功能组学的信息,有助于研究者把基因及表达信息作为一个整体网络进行研究。KEGG数据库的注释与检索数据库的注释与检索 一组基因直接注释的结果是得到大量的功能结点。这些功能具有概念上的交叠现象,导致分析结果冗余,不利于进一步的精细分析,所以研究人员希望对得到的功能结点加以过滤和筛选,以便获得更有意义的功
14、能信息。 进行基因集功能富集分析的原因进行基因集功能富集分析的原因富集分析算法富集分析算法 富集分析(超几何分布)Fishers Exact Test 问题的由来:经常看到一些饼图,描述某些事物的组成,比如说有钱人的学历分布,然后我们可以看到高学历所占比例并不高,根据这个比例下结论通常是错的,这些比例说明不了问题,如果把各种学历在总体人口中的分布做为背景进行考虑的话,你就会发现学历还是有点用的。当我们用组学测定了一大堆分子之后,我们希望站在更高的角度去看这些分子和那些生物学过程相关。那么通常各种注释,对这些基因/蛋白进行分类,那么从分类的比例上,是不能草率下结论,正如上面有钱人学历分布的例子一
15、样。我们需要把总体的分布考虑进去。 在做富集分析的时候,会涉及到这么一个概念。统计原理超几何分布是统计学上一种离散概率分布。它描述了由有限个物件中抽出n个物件,成功抽出指定种类的物件的个数(不归还)。超几何分布和Fishers Exact Test是完全一模一样的原理,只是两种不同的称谓。例如在有N个样本,其中m个是不及格的。超几何分布描述了在该N个样本中抽出n个,其中k个是不合格的的机率:上式可如此理解:(nN)表示所有在N个样本中抽出n个,而抽出的结果不一样的数目。(km)表示在m个样本中,抽出k个的方法数目。剩下来的样本都是及格的,而及格的样本有N-m个,剩下的抽法便有(n-KN-m)种
16、。若n=1,超几何分布还原为伯努利分布。若N接近,超几何分布可视为二项分布。 p(x) = choose(m, x) choose(n, k-x) / choose(m+n, k) for x = 0, , k. 其中, m 是袋里面白球的个数, n 是白球的个数, k 是从袋中随机取出的球数, x 是取出球中红球的个数。累计超几何分布例:在一个口袋中装有30个球,其中有10个红球,其余为白球,这些球除颜色外完全相同.游戏者一次从中摸出5个球.摸到至少4个红球就中一等奖,那么获一等奖的概率是多少?解:由题意可见此问题归结为超几何分布模型。其中N = 30. M = 10. n = 5.P(一等
17、奖) = P(X=4 or 5) = P(X=4) + P(X=5)由公式P(X=k)=C(k,M)*C(n-k,N-M)/C(n,N),k=0,1,2,.得:P(X=4) = C(4,10)*C(1,20)/C(5,30)P(X=5) = C(5,10)*C(0,20)/C(5,30)P(一等奖) = 106/3393常用富集分析软件常用富集分析软件 富集分析应用实例富集分析应用实例 人民卫生出版社8年制及7年制临床医学等专业用生物信息学功能分子基因列表 ACHE TOP2A BLA SCN5A ESR1 PTPN1 AR HSP90AA1 PPARG RXRA NCOA2 PTGS2 PT
18、GS1 CHRM3 PRKACA CHRM1 OPRD1 F2 ESR2 CHRM2 ACHE ADRB2 PRSS1 PDE3A OPRM1 GABRA1 MAOB CA2 CALM1 ADRA1B DPP4 NOS2A NFE2L2Figure above (4b in the article): network modules were identified and tested for Gene Ontology-term enrichment (gray genes do not show enrichment). A network module enriched for Gene ontology terms related to Pathogenesis is highlighted in the S. aureus network. (Image reproduced with permission. NPG Lic. No. 3346711104169)近来已经发展了很多基于GO数据库或KEGG数据库的方法,利用高通量的基因表达和蛋白质互作数据进行功能预测,其中一些新开发的方法试图整合多种数据类型,通过构建功能相关网络的方式预测基因
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 持续性心律失常监测措施
- 骨折病人的护理
- 2026年成人高考高起专英语(基础)模拟单套试卷
- 2026年财务管理专升本会计学基础单套试卷
- 2026版人教版八年级历史下册近现代史单元测试卷(含试题及答案)
- 2025-2026学年人教版七年级英语下册情景交际单元测试(含真题答案解析)
- 运动处方制定题库及答案
- CTFPWN模拟知识考试题库及答案
- 交通工程外委安全管理制度(3篇)
- 初中室外策划活动方案(3篇)
- 颅内高压患者的监护
- 铁道概论高职PPT完整全套教学课件
- 七十岁换证三力测试题库
- 医生进修申请表(经典版)
- Unit 4 A glimpse of the future Starting out Listening-高中英语外研版(2019)选择性必修第三册
- 医院麻醉精神药品的管理与使用
- 园林苗圃学复习2014概要
- GB/T 3390.1-2013手动套筒扳手套筒
- 2022年德清县文化旅游发展集团有限公司招聘笔试试题及答案解析
- 液压与气压传动全版课件
- 小学数学人教三年级上册倍的认识教学设计倍的认识
评论
0/150
提交评论