Gene Ontology(GO)使用指南(内部资料)_第1页
Gene Ontology(GO)使用指南(内部资料)_第2页
Gene Ontology(GO)使用指南(内部资料)_第3页
Gene Ontology(GO)使用指南(内部资料)_第4页
Gene Ontology(GO)使用指南(内部资料)_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、GO 数据库使用指南Version No.2010.09.03(内部资料 仅供参考)目 录目 录第一部分GO 是什么? 21.1基因本体论(gene ontology)的建立21.2本体论(The ontologies)简介31.3本体论语义之间的关系及其组织结构 41.3.1语义之间关系的基本理解 41.3.2关系之间的推导 51.3.3调节控制关系(the regulates relation)及其推导 61.3.4本体论的组织结构 71.4GO 的注释(Annotation)8第二部分GO 怎么用? 102.1下载本体论文件和注释文件 102.2GO 语义及其相关注释的浏览与搜索172.

2、2.1AmiGO 的基本使用说明172.2.2语义关系的图形化描述 202.2.3 根据语义检索 222.2.4根据基因产物检索 25第一部分 GO 是什么?- 1 -第一部分GO 是什么?GO(gene ontology)是基因本体联合会(Gene Onotology Consortium)所建立的数据库,旨在建立一个适用于各种物种的,对基因和蛋白质功能进行限定和描述的,并能随着研究不断深入而更新的语义词汇标准。GO 是多种生物本体语言中的一种,提供了三层结构的系统定义方式,用于描述基因产物的功能1.1基因本体论(gene ontology)的建立现今的生物学家们浪费了太多的时间和精力在搜寻

3、生物信息上。这种情况归结为生物学上定义混乱的原因,不同的生物学数据库可能会使用不同的术语,好比是一些方言一样。不光是精确的计算机难以搜寻到这些 随时间和人为多重因素而随机改变的定义,即使是完全由人手动处理也无法完成。举个例子来说,如果需要找到一个用于制抗生素的药物靶点,你可能想找到所有的和细菌蛋白质合成相关的基因产物,特别是那些和人体中蛋白质合成组分显著不同的。但如果一个数据库描述这些基因产物为“翻译类”,而另一个数据库描述其为“蛋白质合成类”,那么这无疑对于计算机来说是难以区分这两个在字面上相差甚远却在功能上相一致的定义。Gene Ontology 就是为了解决上述问题,使各种数据库中基因产

4、物功能描述相一致而发起的一个项目。这个项目最初是由1988 年对三个模式生物数据库的整合开始:the FlyBase (果蝇数据库 Drosophila),the Saccharomyces Genome Database (酵母基因组数据库 SGD) 和 theMouse Genome Informatics (小鼠基因组数据库 MGI)。从那开始,GO 不断发展扩大,现在已是包含数十个动物、植物、微生物的数据库(详见 GO Consortium Page )。GO 开发了具有三级结构的语义词汇标准(Ontologies),根据基因产物的相关生物学途径、细胞学组件以及分子功能而分别给予定义,

5、与具体物种无关。GO 的工作大致可分为三个部分:第一,给予并维持语义(terms);第二,将位于数据库当中的基因、基因产物与 GO 本体论语言当中的语义(terms)进行关联,形成网络;第三,开发相关工具,使本体论标准语言的产生和维持更为便捷。GO 的定义法则已经在多个合作的数据库中使用,这使在这些数据库中的查询具有极高第一部分 GO 是什么?- 2 -的一致性。这种定义语言具有多重结构,因此在各种程度上都能进行查询。举例来说,GO可以被用来在小鼠基因组中查询和信号转导相关的基因产物,也可以进一步找到各种生物的受体酪氨酸激酶。这种结构允许在各种水平添加对此基因产物特性的认识。1.2本体论(Th

6、e ontologies)简介GO 提供了一系列的语义(terms)用来描述基因、基因产物的特性。这些语义分为三种不同的种类:细胞学组件,用于描述亚细胞结构、位置和大分子复合物,如核仁、端粒和识别起始的复合物等;分子功能,用于描述基因、基因产物个体的功能,如与碳水化合物结合或 ATP 水解酶活性等;生物学途径,指分子功能的有序组合,达成更广的生物功能,如有丝分裂或嘌呤代谢等。基因产物可能分别具有分子生物学上的功能、生物学途径和在细胞中的组件作用。当然,它们也可能在某一个方面有多种性质。如细胞色素 C,在分子功能上体现为电子传递活性,在生物学途径中与氧化磷酸化和细胞凋亡有关,在细胞中存在于线粒体

7、质中和线粒体内膜上。注:基因产物和其生物功能常常被我们混淆。例如,“乙醇脱氢酶”既可以指放在 Eppendorf 试管里的基因产物,也表明了它的功能。但是这之间其实是存在差别的:一个基因产物可以拥有多种分子功能,多种基因产物也可以行使同一种分子功能。比如还是“乙醇脱氢酶”,其实多种基因产物都具有这种功能,而并不是所有的这些酶都是由乙醇脱氢酶基因编码的。一个基因产物可以同时具有“乙醇脱氢酶”和“乙醛歧化酶”两种功能,甚至更多。所以,在 GO 中,很重要的一点在于,当使用“乙醇脱氢酶活性”这种术语时,所指的是功能,并不是基因产物。下面,将进一步的分别说明 GO 的具体定义情况。细胞组件即细胞中的位

8、置,指基因产物位于何种细胞器或基因产物组中(如糙面内质网,核或核糖体,蛋白酶体等)。分子功能分子功能描述在分子生物学上的活性,如催化活性或结合活性。GO 分子功能用来定义功能而不是整体分子,而且不特异性地指出这些功能具体的时空信息。分子功能大部分指的第一部分 GO 是什么?- 3 -是单个基因产物的功能,还有一小部分是此基因产物形成的复合物的功能。定义功能的义项包括催化活性、转运活性、结合活性等,更为狭窄的定义包括腺苷酸环化酶活性或钟形受体结合活性等。生物学途径生物学途径是由分子功能有序地组成的,具有多个步骤的一个过程。举例来说,较为宽泛的是细胞生长和维持、信号传导。一些更为具体的例子包括嘧啶

9、代谢或配糖基的运输等。一个生物学途径并不是完全和一条生物学通路相等。因此,GO 并不涉及到通路中复杂的机制和所依赖的因素。1.3本体论语义之间的关系及其组织结构1.3.1语义之间关系的基本理解基因本体论组织类似于图,语义作为图的结点,语义之间的关系为图中的边。因此,一旦产生新的语义,其与其它语义之间的关系也会同时被定义。语义之间的关系有四种:is a、part of 和 regulates。关系表示的几点约定1. “语义”用图论的术语“结点”表示2. 我们习惯于用父子结点来表示语义之间的关系,其中父结点离根结点较近,表示相对宽泛的语义,而子结点离叶子结点较近,相对父结点其语义所代表的内容更为具

10、体。3. 图中的实线表示结点之间的关系4. 虚线表示推理而并未证明的关系上述可以用下图表示:A is a B;B is part of C第一部分 GO 是什么?- 4 -从而可以得出:A is part of C,其形式化表示为:is apart of part ofGO 图具有树的性质,但与其不同的是,GO 图中结点不但可能具有多个孩子结点,而且可能具有多个父亲结点,且与不同的父结点具有不同的关系,如下图所示:线粒体(mitochondrion)便有两个父亲结点,因为线粒体既是一种细胞器(organelle),又是细胞质(cytoplasm)的一部分。同样,细胞器(organelle)也有

11、两个孩子结点,因为线粒体是一种细胞器(organelle),细胞器膜(organelle membrane)是细胞器的一部分。1.3.2关系之间的推导is a is a is ais a 具有传递性,即如果 A is a B,B is a C,那么 A is a C。形式化表示为 is a is a is a。如下图:线粒体(mitochondrion)是一种胞内细胞器(intracellular organelle),而胞内细胞器是一种细胞器官(organelle),从而可以推出:线粒体是一种细胞器官。part ofpart of part ofpart of 具有传递性,如果 A is p

12、art of B,B is part of C,那么 A is part of C。形式化表示为 part ofpart of part of。同样如下图所示:线粒体(mitochondrion)是细胞质(cytoplasm)的一部分,细胞质又是细胞(cell)的一部分,从而可得出:线粒体是细胞的一部分。第一部分 GO 是什么?- 5 -part ofis a part of 与 is apart of part of如果关系 is a 与 part of 组合,则其关系均为 part of。分别如下图所示:线粒体膜线粒体胞内细胞器线粒体胞内细胞器细胞1.3.3调节控制关系(the regul

13、ates relation)及其推导基因本体论语义中,如果某一过程直接影响另一过程或参数值(quality)的表现形式,我们称前者调节控制(regulates)后者。被调节的对象可以是一个过程,如生物通路、酶促反应等,也可以是一个参数值,如细胞大小,pH 值等。与 part of 类似,调节控制关系也是充分非必要的,即:B 能且仅能调节控制 A,而 A 并非只受 B 的调节控制。如下图所示:例如:一旦 cell cycle checkpoint(细胞周期检查点)出现时,它总是调节控制 cell cycle(细胞周期),然而细胞周期并不单独受细胞周期检查点调节控制,还受其它过程的调节控制。第一部

14、分 GO 是什么?- 6 -regulatesis a regulates 、 is a regulates regulates 以及 regulates part of regulates 均为正确的推导关系,其示意图分别如下:截至目前,尚不能确定 part ofregulates ?、regulatesregulates ? 为何种关系。1.3.4本体论的组织结构GO 委员会除了要定义语义(term)以外,还要定义该语义与其它语义之间的关系,使语义总体构成有一定结构的语义词汇表。本体论的图形化表示本体论的结构可以用图表示,其中语义表示为结点,其间的关系表示为结点之间的边。当然 GO 语义之

15、间的关系是单向的,例如:线粒体(mitochondrion)是一个细胞器(organelle),可以表示为 a mitochondrion is an organelle,但反过来不成立,细胞器不是一个线粒体!在这种意义上说,本体论的结构更像是有向非循环树,其中离根结点越近的结点越概括,离叶第一部分 GO 是什么?- 7 -子结点越近的结点越具体,但与有向非循环树不同的是,本体论结构图中的结点可以有两个及其以上的父结点。例如:生物过程当中的语义已糖合成(hexose biosynthetic process)就有两个父结点,已糖代谢(hexose metabolic process) 和单糖合

16、成(monosaccharide biosyntheticprocess)。其并不难理解,因为已糖(hexose)是一种单糖(monosaccharide),生物合成过程(biosyntheitc process)也是一种生物代谢过程(metabolic process) 。本体论中部分语义结构的图形化表示:1.4GO 的注释(Annotation)那么,GO 中的术语如何和相对应的基因产物相联系的呢?这是由参与合作的数据库来完成的,它们使用 GO 的定义方法,对它们所包含的基因产物进行注解,并且提供支持这种注解的参考和证据。每个基因或基因产物都会有一个列表,列出与之相关的 GO 术语。每个数

17、据库都会给出所有这些基因产物和 GO 术语的联系数据库,可以在 GO 的站点查询到。GO 对基因和基因产物的注释阐明了基因产物和用于定义他们的 GO 术语之间的关系。基因产物指一个基因编码的 RNA 或蛋白产物。因为一个基因可能编码多个具有很不相同性质的产物,所以 GO 推荐的注释是针对基因产物的而不是基因的。一个基因是和所有适用于它的术语联系在一起的。一个基因产物可以被一种本体论定义的多种分支或多种水平注释。注释需要反映在正常情况下此基因产物的功能,生物途径,定位等,而并不包括其在突变或病理状态下的情况。第一部分 GO 是什么?- 8 -GO 联合会的各个数据库成员采用手动或自动的方式生成注

18、释,这两种方式共有的原理是:1. 所有的注释都需要有来源,可以是文字、另一个数据库或是计算机分析结果;2. 注释必须提供支持这种基因产物和 GO 术语之间联系的证据。第二部分 GO 怎么用?- 9 -第二部分GO 怎么用?如上所述,GO 是分别从三个不同的层面描述基因产物的语义集。基因产物数据库用GO 提供的语义去注释基因产物,并向 GO 联合会提供注释文件,阐明了基因产物和用于定义他们的 GO 术语之间的关系。下面将详细介绍如何下载本体论文件、注释文件,以及如何浏览 GO 语义及其相关的注释。2.1下载本体论文件和注释文件如果在研究中用到 GO 数据库,你需要下载相关的本体论文件和注释文件,

19、在使用 GO 之前,对于本体论文件和注释文件组织结构的了解尤为重要。首先,打开浏览器,输入 ,进入 GO 数据的起始页。点击“Downloads”便进入 GO 数据库相关文件的下载界面,如下图所示:第二部分 GO 怎么用?- 10 -其中包括:tools 工具栏中相关的工具软件、本体论文件、注释文件、数据库文件以及其它相关的技术支持文件。本文主要介绍本体论文件、注释文件和教学资源文件。点击“Ontology file downloads”进入如下界面:如图所示的本体论语义的统计分析:截至 2010 年 8 月 27 日下午 4 时 41 分,共有 32

20、282 条语义,99.3%已被明确定义。其中描述生物学途径的有 19303 条语义,描述细胞组件的有 2750 条,描述分子功能的有 8784 条。另有 1445 为已被废弃的语义,因为随着语义集的不第二部分 GO 怎么用?- 11 -断更新和发展,有些语义并不能被正确地定义,或者已不能用来描述生物学途径、细胞组件、分子功能。如果想要详细地了解本体论语义文件的格式信息,可以点击“format guide”。这些本体论语义文件每天都会更新,GO 的管理者会加入当天新增的语义及其关系,因此在下载使用这些文件时一定要注意其版本和更新时间。点击 Download 列的“OBO v1.2”,可以在新打开

21、的窗口中看到如下的文件内容信息:*format-version: 1.2date: 27:08:2010 16:41saved-by: tanyaberardiniauto-generated-by: OBO-Edit 2.0subsetdef: goslim_candida Candida GO slimsubsetdef: goslim_generic Generic GO slimsubsetdef: goslim_goa GOA and proteome slimsubsetdef: goslim_pir PIR GO slimsubsetdef: goslim_plant Plant

22、 GO slimsubsetdef: goslim_pombe Fission yeast GO slimsubsetdef: goslim_yeast Yeast GO slimsubsetdef: gosubset_prok Prokaryotic GO subsetsubsetdef: unvetted unvettedsynonymtypedef: systematic_synonym Systematic synonym EXACTdefault-namespace: gene_ontologyremark: cvs version: $Revision: 1.1393 $Termi

23、d: GO:0000001name: mitochondrion inheritancenamespace: biological_processdef: The distribution of mitochondria, including the mitochondrial genome, into daughter cells after mitosis or meiosis, mediated by interactions between mitochondria and the cytoskeleton. GOC:mcc, PMID:10873824, PMID:11389764s

24、ynonym: mitochondrial inheritance EXACT is_a: GO:0048308 ! organelle inheritanceis_a: GO:0048311 ! mitochondrion distributionTermid: GO:0000002name: mitochondrial genome maintenancenamespace: biological_process第二部分 GO 怎么用?- 12 -def: The maintenance of the structure and integrity of the mitochondrial

25、 genome; includes replication and segregation of the mitochondrial chromosome. GOC:ai, GOC:vwis_a: GO:0007005 ! mitochondrion organizationTermid: GO:0000003name: reproductionnamespace: biological_processalt_id: GO:0019952alt_id: GO:0050876def: The production by an organism of new individuals that co

26、ntain some portion of their genetic material inherited from that organism. GOC:go_curators, GOC:isa_complete, ISBN:0198506732 Oxford Dictionary of Biochemistry and Molecular Biologysubset: goslim_genericsubset: goslim_pirsubset: goslim_plantsubset: gosubset_proksynonym: reproductive physiological pr

27、ocess EXACT xref: Wikipedia:Reproductionis_a: GO:0008150 ! biological_process*可以看到,在一段文件格式信息之后,便依次列举了每一个语义(term):首先是语义的ID 号,紧接着是语义的名字,以及所属的范畴。接下来是该语义的定义,在定义最后的方括号里说明了该定义的来源依据。最后列出了该语义与其它语义之间的关系。点击 Downloads 下的“Annotations”,如下图所示:第二部分 GO 怎么用?- 13 -便进入到注释文件的介绍与下载界面:点击“Annotation Details and Downloads”

28、下面的“Filtered files”:第二部分 GO 怎么用?- 14 -可以看到,这里列举了所有物种或数据库用 GO 语义的注释情况,统计时间为 2010 年8 月 28 日。其中第一列为物种或数据库的名字,第二列为用 GO 语义注释的基因产物数目,第三列为注释的条目数,第四列为提交的时间,第五列为该物种或数据库注释文件的下载链接。仔细观察,不难得出:不同物种或数据库,其中用 GO 语义注释的基因产物数目相差甚远!例如: Anaplasma phagocytophilum HZ JCVI 的数目为 1289 ,而 Agrobacterium tumefaciensstr.C58 PAMGO

29、 的数目为 83。 这些差别之所以存在,不光是因为不同物种或数据库本身所包含的基因产物数量不同,还与该数据库的注释水平有关,像酵母基因组几乎全部被 GO 语义注释,而斑马鱼基因组的注释工作还处于刚起始的阶段。第二部分 GO 怎么用?- 15 -如图,在 GO 的下载页面点击“Teaching resources”,进入关于 GO 的教学文件的下载页面:该页面提供了关于 GO 如何使用的一些演示文件以及相关的说明文档,具体为 GO 联合会的工作人员针对不同的情况,对 GO 项目进行的介绍与讲解,其中有的讲解时间过早,已与目前的 GO 项目有所出入,参考时请注意检查时期,并以 GO 项目当前网站信

30、息为准。第二部分 GO 怎么用?- 16 -2.2GO 语义及其相关注释的浏览与搜索本节介绍如何使用由 GO 联合会开发的 AmiGO 浏览器搜索本体论语义及与其相关的注释。2.2.1AmiGO 的基本使用说明打开浏览器输入 ,如下所示:点击“Borwse”,进入如下所示页面:如上图所示,本体论语义可以归为三个独立的部分: biological_process 、cellular_component、molecular_function。语义之间有类似树的组织结构,点击每行前面的+便展开包含于该项的所有语义,同时+变为-,再次点击-,展开的项目收缩

31、回原状。每一条语义单独地占据一行,每行+/-后面的标志表示该语义与其父结点之间的关系,其中表 示关系 is a,表示关系 part of ,表示关系 regulates。第二部分 GO 怎么用?- 17 -点击任一语义的名字,能够在新窗口中显示该语义详细的信息,包括其定义及用其注释的基因产物的链接。例如:点击 carbohydrate utilization,如图所示,为语义 carbohydrate utilization 的详细信息,如果想知道用其注释的基因产物,点击图中的“4 gene product associations”便得到如下所有用该语义注释过的基因产物:第二部分 GO 怎么

32、用?- 18 -除此之外,也可以直接点击任一语义最后面方括号里面的内容,其也说明了用该语义注释的基因产物总数目。如下图所示:某些语义后有标志,如上图所示,点击后便得到该语义所包含的所有子语义各自所占的比例(注释的基因产物数目),如点击 all:all 后面的 :第二部分 GO 怎么用?- 19 -2.2.2语义关系的图形化描述依次展开 biological process - biological regulation - regulation of biological process点击 regulation of anti-apoptosis,便得到该语义的详细信息,其中 Term Li

33、neage 显示了该语义与其它语义之间的关系,树形显示如下:第二部分 GO 怎么用?- 20 -点击右边栏中的 Graphical View,便得到该关系的图形显示:第二部分 GO 怎么用?- 21 -2.2.3 根据语义检索在 AmiGO 的浏览界面,在搜索栏输入想要搜索的语义,如 cytokine secretion,点击提交按钮。第二部分 GO 怎么用?- 22 -搜索到 8 个语义,语义右边是用该语义注释的基因产物,如点击“167 gene products”,便依次列出所有用语义 cytokine secretion 注释的基因产物。第二部分 GO 怎么用?- 23 -返回搜索结果页

34、面,点击“cytokine secretion”,打开语义“cytokine secretion”的详细信息页面:点击“167 gene product associations”,也能在新窗口中依次列出用该语义注释的所有基因产物,如下所示:第二部分 GO 怎么用?- 24 -注意到红色框里的过滤器,在这里可以通过基因产物的类型、来源、所在物种等条件对现存的基因产物进行过滤,从而更精确地搜索基因产物,提高研究结果的精确性。同时,在“View associations”当中选择“Direct associations”,则结果为直接用该语义注释的所有基因产物。2.2.4根据基因产物检索在 Ami

35、GO 的首页,可以通过选择按钮选择所要搜索的是语义还是基因产物,如下所示,选择“gene or proteins”,然后在搜索框中输入“grim”,点击提交按钮。第二部分 GO 怎么用?- 25 -如图依次列出了所有与“grim”有关联的基因产物,以第一行为例,“grim”为该基因产物的名字,名字右边“13 associations”为该基因注释的语义条目数,点击“grim”,在新窗口中显示“grim”的详细信息,点击“13 associations”则在新窗口中依次列出用来注释该基因产物的所有语义条目,分别如下图所示:第二部分 GO 怎么用?- 26 -如上图所示,有的语义条目用 标注,如“

36、nurse cell apoptosis”,其说明根据实验数据,该基因产物并不在“nurse cell apoptosis”过程中起明显作用,因而该基因产物用该语义注释只是研究者的一种推测与期望,此推测的根据是该基因产物与那些在 “nurse cell apoptosis”起明显作用的基因产物有着非常相似的序列结构。如果你想要搜索的基因产物不存在,你可以联系 GO 联合会申请对该基因产物的注释。首先点击“GO helpdesk”,如下图所示:在下面的表格中填入相应的内容,其中 subject 选为 annotation,并确定在 Comment or query 栏中填入如下与基因产物相关的信

37、息:Gene ID from MOD, EntrezGene or UnitProtGene Symbol or Name第二部分 GO 怎么用?- 27 -Publication PubMed ID with experimental dataSuggestions GO:ID and/or GO term for GO annotationThank you.最后,点击“Send message”按钮。Gene Ontology(GO)简介与使用介绍1.GO 怎么就出现了?现今的生物学家们浪费了太多的时间和精力在搜寻生物信息上。这种情况归结为生物学上定义混乱的原因:不光是精确的计算机难以搜

38、寻到这些随时间和人为多重因 素而随机改变的定义,即使是完全由人手动处理也无法完成。举个例子来说,如果需要找到一个用于制抗生素的药物靶点,你可能想找到所有的和细菌蛋白质合成相 关的基因产物,特别是那些和人中蛋白质合成组分显著不同的。但如果一个数据库描述这些基因产物为“翻译类”,而另一个描述其为“蛋白质合成类”,那么这无 疑对于计算机来说是难以区分这两个在字面上相差甚远却在功能上相一致的定义。Gene Ontology (GO)项目正是为了能够使对各种数据库中基因产物功能描述相一致的努力结果。这个项目最初是由 1988 年对三个模式生物数据库的整合开始:: FlyBase (果蝇数据库 Droso

39、phila),t Saccharomyces Genome Database (酵母基因组数据库 SGD) and the Mouse Genome Database (小鼠基因组数据库 MGD)。从那开始,GO不断发展扩大,现在已包含数十个动物、植物、微生物的数据库。GO 的定义法则已经在多个合作的数据库中使用,这使在这些数据库中的查询具有极高的一致性。这种定义语言具有多重结构,因此在各种程度上都能进行查询。举 例来说,GO 可以被用来在小鼠基因组中查询和信号转导相关的基因产物,也可以进一步找到各种生物地受体酪氨酸激酶。这种结构允许在各种水平添加对此基因产 物特性的认识。2.GO 的发展和组

40、织形式GO 发展了具有三级结构的标准语言(ontologies),根据基因产物的相关分子功能,生物学途径,细胞学组件而给予定义,无物种相关性。三种本体论的内容如下:1)分子功能本体论 基因产物个体的功能,如与碳水化合物结合或 ATP 水解酶活性等2)生物学途径本体论 分子功能的有序组合,达成更广的生物功能,如有丝分裂或嘌呤代谢等3)细胞组件本体论 亚细胞结构、位置和大分子复合物,如核仁、端粒和识别起始的复合物等基本来说,GO 工作可分为三个不同的部分:第一,给予和维持定义;第二,将位于不同数据库中的本体论语言、基因和基因产物进行联系,形成网络;第三,发展相关工具,使本体论的标准语言的产生和维持

41、更为便捷。3.GO 的形式GO 定义的术语有着直接非循环式(directed acyclic graphs (DAGs)的特点,而并非是传统的等级制定义方式(随着代数增加,下一级比上一级更为具体)。举个例子来说,生物学途径中有一个定义是己糖合成,它的上 一级为己糖代谢和单糖合成。当某个基因被注解为“己糖合成活性”后,它自动地获得了己糖代谢和单糖合成地注解。因为在 GO 中,每个术语必须遵循“真途径 “法则,即如果下一代的术语可以用于描述此基因产物,其上一代术语也可以适用。4.GO 的注释(Annotation)那么,GO 中的术语如何和相对应的基因产物相联系的呢?这是由参与合作的数据库来完成的

42、,它们使用 GO 的定义方法,对它们所包含的基因产物进行注解,并且 提供支持这种注解的参考和证据。每个基因或基因产物都会有一个列表,列出与之相关的 GO 术语。每个数据库都会给出这些基因产物和 GO 术语的联系数据库,并 且也可以在 GO 的 ftp 站点上和 WEB 方式查询到。而且,GO 联合会提供了简化的本体论术语(GO slim),这样,可以在更高级的层面上研究基因组的功能。比如,粗略地估计哪一部分的基因组与信号传导、代谢合成或复制有关。GO 对基因和蛋白的注释阐明了基因产物和用于定义他们的 GO 术语之间的关系。基因产物指一个基因编码的 RNA 或蛋白产物。因为一个基因可能编码多个具

43、有很不相同性质的产物,所以 GO 推荐的注释是针对基因产物的而不是基因的。一个基因是和所有适用于它的术语联系在一起的。一个基因产物可以被一种本体论定义的多种分支或多种水平注释。注释需要反映在正常情况下此基因产物的功能,生物途径,定位等,而并不包括其在突变或病理状 态下的情况。GO 联合会的各个数据库成员采用手动或自动的方式生成注释,这两种方式共有的原理是:一.所有的注释都需要有来源,可以是文字、另一个数据库 或是计算机分析结果;二.注释必须提供支持这种基因产物和 GO 术语之间联系的证据。5.GO 文件格式GO 的所有数据都是免费获得的。GO 数据有三种格式:flat(每日更新)、XML(每月

44、更新)和 MySQL(每月更新)。 这些数据格式都可以在 GO ftp 的站点上下载。XML 和 MySQL 文件是被储存于独立的 GO 数据库中。如果需要找到与某一个 GO 术语相关的基因或基因产物,可以找到一个相应表格,搜寻到这种注解的编号,并且可以链接到与之对应的位于不同数据库的基因相关文件。6.GO 浏览器和修改器(browser and editor)GO 术语和注释使用了多种不同的工具软件,它们都可以在 web 方式的“GO 浏览器”下“GO softwarepage”中找到。大多数 GO 浏览器都是 web 模式的,允许你直观的看到术语和其相关信息,如定义、同义词和数据库参考等。

45、有些 GO 浏览器如 AmiGO 和 QuickGO,可以看到每个术语的注释。而可下载的 DAG-Edit 编辑器,一样可以离线地显示注释和所有本体论定义的信息。对于每一个浏览器来说,都可以选择最适用于你要求的工具软件。1)常见的三种浏览器AmiGO from BDGP 在 AmiGO 中,可以通过查询一个 GO 术语而得到所有具有这个注释的基因产物,或查询一个基因产物而得到它所有的注释关系。还可以浏览本体论,得到术语之间的关系和术语对应的基因产物数目。AmiGO直接连接 GO 下的 MySQL。MGI GO Browser MGI GO 的功能类似于 AmiGO,所不同的在于它所得到的基因为小鼠基因。MGI GO 浏览器直接连接 GO 下的 MGI 数据库。Q

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论