




已阅读5页,还剩16页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
最近要学 KEGG,先粘2个有用的内容存档。 以下是我归纳出的使用 KEGG 方法敲门,供给大家参 考使用 KEGG 数据库一个主要用途就是查询分析 pathway,然而直接通过网页打开的是一个图片形 式的数据。如下介绍如何利用下载的数据,以及使用软件 VisANT(首先需要安装 java 虚拟 机,太大了请自己去网上下载)来分析 KEGG 数据。 以人类 MAPK 通路(编号 hsa04010)为例: 一、如何确定一组基因(蛋白)是否在 MAPK 通路中? 通过 ftp 下载人类 hsa04010相关的所有数据。找到 hsa04010.gene 这个文件,其中包含的 就是 geneid,gene name,gene 的描述,通过这个表就能确定哪个基因是在这个通路中了。 二、如何确定一组基因(蛋白)互作是否在 MAPK 通路中? 、首先通过 http:/www.genome.jp/kegg/xml/ KEGG regulatory pathways linked to KO , http:/www.genome.jp/kegg/KGML/KGML_v0.6.1/ko/ko04010.xml 下载 MAPK 通路的 xml 格式的数据,并保存为 xml 文件,hsa04010.xml 、使用 VisANT 软件(/)进行分析,步骤如下: (1)打开后,点击左边按钮 Clear,清除以前的文件 (2)点 Fileopen:打开 hsa04010.xml 文件,这时出现 MAPK 调控网络。 (3)点 FileExport as Tab-Delimited FileAll:之后将在网页上出现如下格式的数据: K04463 K04464 1 M9999 0.0 K02308 K04426 1 M9999 0.0 K04371 K04376 1 M9999 0.0 K04375 K04379 1 M9999 0.0 将此数据 copy 下来,命名为 KO2KOppi 这里的 K0编号意思是:KO(KEGG Orthology) ID (4)打开表:hsa04010.orth,将其中的分号;全部替换为 Tab 符号,将全部的逗号替换为 Tab 符号,之后用 xls 打开。除去所有没有 KO 编号对应的行,我们得到了 KO 编号对 gene name 的表,命名为 KO2GENE。 (5)通过表 KO2KOppi 与表 KO2GENE 对应后,可以得到 gene2gene 的互作数据。 (6) 使用这个gene2gene互作的这个表可以确定要研究的互作数据是不是在MAPK通路中。 KEGG(Kyoto Encyclopedia of Genes and Genomes)是系统分析基因功能、基因组信息 数据库, 它有助于研究者把基因及表达信息作为一个整体网络进行研究。 基因组信息存储在 GENES 数据库里,包括完整和部分测序的基因组序列;更高级的功能信息存储在 PATHWAY 数 据库里,包括图解的细胞生化过程如代谢、膜转运、信号传递、细胞周期,还包括同系保守 的子通路等信息;KEGG 的另一个数据库是 LIGAND,包含关于化学物质、酶分子、酶反应等 信息。 可以免费获取。 KEGG 提供的整合代谢途径(pathway)查询十分出色, 包括碳水化合物、 核苷、氨基酸等的代谢及有机物的生物降解,不仅提供了所有可能的代谢途径,而且对催化 各步反应的酶进行了全面的注解,包含有氨基酸序列、PDB 库的链接等等。KEGG 是进行生物 体内代谢分析、代谢网络研究的强有力工具。 KEGG 简介 KEGG 简介一、KECC 概况(全基因组及代谢途径数据库) 虽然决定生物体基因分类的基因组测序工程有了飞速的发展, 但对单个基因功能的研究 仍然相差甚远。 同时活细胞的生物学功能是许多分子相互作用的结果, 不能仅仅归功于单个 基因或单个分子。日本教育、科学、体育、文化部人类基因组计划于1995年5月建立了 KEGG 工程。KEGG 将基因组信息和高一级的功能信息有机地结合起来,通过对细胞内已知生物学 过程的计算机化处理和将现有的基因功能解释标准化,对基因的功能进行系统化的分析。 KEGG 的另一个任务是一个将基因组中的一系列基因用一个细胞内的分子相互作用的网络连 接起来的过程,如一个通路或是一个复合物,通过它们来展现更高一级的生物学功能。 其目的是由细胞或生物体的基因组信息去了解其较高层次的功能与作用之生物信息资 源,也就是整理出现存的调控网络,并建立其中每个组件与基因间的关系,一但研究者找到 基因即可透过 KEGG,让研究者由基因组至细胞层次做一整合性连结,并对生命现象做 in silico 分析。虽然 KEGG 的工作受到肯定,但距离理想目标还有一大段距离,因为反应路 径图上的每一个关系都应有文献资料做后盾, 我们不能只相信一张可能带有个人偏见的路径 图。 目前数据库中虽已建立各基因与其它数据库的关系, 但它缺少的是讨论到路径正确性或 调控机制的数据。 KEGG 是基因组破译方面的数据库。在后基因时代一个重大挑战是如何使细胞和有机体 在计算机上完整的表达和演绎, 让计算机利用基因信息对更高层次和更复杂细胞活动和生物 体行为做出计算推测。 为达到此目的, 人们建立了一个在相关知识基础上的网络推测计算工 具。在给出染色体中一套完整的基因的情况下,它可以对蛋白质交互(互动)网络在各种细 胞活动起的作用做出预测。 二、KEGG 的组成 KEGG 现在由6个各自独立的数据库组成,分别是基因数据库(GENES database)、通路数 据库(PATHWAY database)、配体化学反应数据库(NGAND database)、序列相似性数据库 (SSDB)、基因表达数据库(EXPRESSION)、蛋白分子相互关系数据库(BRITE)等。 1.基因数据库(GENES database) 含有所有已知的完整的基因组和不完整的基因组。有 细菌、蓝藻、真核生物等生物体的基因序列,如人、小鼠、果蝇、Arabidopsis 等等。总共 240943个条目,其总的条目数远远大于 SWISSPROT 数据库。基因数据库(GENES database) 含有关于每个基因的最低限度的信息, 并且在不断地更新和改进, 同时还可作为通往其他相 关信息的路径。 2.通路数据库(PATHWAY database) 储存了基因功能的相关信息,通过图形来表示细胞 内的生物学过程,例如代谢,膜运输,信号传导和细胞的生长周期。在通路数据库(PATHWAY database)中,有一部分由 ortholog group 图表组成的保守的亚通路(通路基序)信息。亚通 路是由染色体位置偶联的基因编码的,它对预测基因的功能有很大的作用。 (1)代谢通路:目前在通路数据库(PATHWAY database)中代谢通路是建立得最好的,有 大约90个参考代谢途径的图形。每个参考代谢途径是一个由酶或 EC 号组成的网络。利用如 下方法可通过计算机构建出生物体特有的代谢通路: 先根据基因的序列相似性和位置相关性 确定基因组中酶的基因,然后合理地安排 EC 号,最后将基因组中的基因和参照通路中用 EC 号编号的基因产物结合起来。图4519为通路数据库的页面尔例。 (2)Ortholog group 图表:在 KEGG 中目前有83个 ortholog 图表。Ortholog 对单个基因 的序列的相似性进行识别,检查功能组(如保守的亚通路或分子复合物)中所有组分。KEGG ortholog grope 图表表达了三个特征:一个生物体是否具备组成一个功能组的完整基因; 这些基因是否偶联在染色体上; 在不同生物体中的 orthologous 基因是什么。 例如在基 因组中的一个基因簇编码代谢通路中的功能相关的酶簇。在 KEGG 中,这样的相关簇首先被 一个启发式的图表比较算法检测,然后手工编辑为 ortholog group 图表。现有两种类型的 图表比较法,基因组通路和基因组基因组比较法。一个 ortholog grope 图表是这样一 组比较的组成部分,它代表了一个通路的保守的部分,也就是通常说的通路基序。 (3)蛋白蛋白反应:KKGG 通路表达的重点在于由基因产物的构成的网络上,其中包含 大多数蛋白和功能性 RNAs。代谢通路是蛋白蛋白的间接相互作用(实际上是酶酶相互作 用)形成的网络。而调节通路是蛋白蛋白的直接相互作用(如结合,磷酸化)和另一种蛋白 蛋白的间接相互作用(通过基因表达与转录因子及基因的翻译产物相关联)构成的网络。 一 般的蛋白蛋白的相互作用包括了上面所述的这三种形式的相互作用,它是一个抽象的网 络, 但是它在与基因组信息的连接中起到关键作用, 这样网络中的节点(基因产物)与基因织 中的节点(基因)就可以直接相连。 有了这样一个蛋白蛋白相互作用的网络, 就可以增加手 工绘制的参考通路图了。 3.配体数据库(LIGAND database) 包括了细胞内的化学复合物,酶分子和酶反应的信 息。 三、KEGG 的使用 KEGG 提供了 java 的图形工具用于浏览基因组图谱,比较两个基因组图谱,操作表达图 谱,还可作为比较序列、图表、通路的计算工具。 KEGG 需要各种各样的计算工具用来维护基因数据库(GENES database),尤其是从 GenBank 中提取信息和对基因功能的系统化解释。 网络注释工具和其他计算机工具一起用来 分配 EC 号,ortholog 识别符,合并文献中的新的实验证据,并且对以通路结构为基础的推 断做出解释。Ortholog 识别号可以作为查找工具,自动比较通路基因组和基因产物的基因。 GENES 的主要检索系统是 DBGETLinkDB 系统,另外也有其他进入数据库的办法。包括 Java 虚拟的基因组图谱浏览器和文件分层浏览器(用于将基因目录进行功能性分层)。表达 浏览器是 Java 图形浏览器中的一种, 它可以分析从 cDNA 微序列或寡核苦酸序列实验中得到 的基因表达文件。从这样的功能性基因组实验中得到的大量数据将对基因组序列进行补充, 这样有助于理解更高一级的细胞的生物学功能。利用与 KEGG 的通路数据和基因组图谱数据 相连接的一个表达图谱浏览器的预备版本, 用户可以检查一组共同调节的基因是否在通路上 也有相互联系或是否由染色体上的一群基因编码。 四、KEGG 的 Object Identifier 本部分内容设定了隐藏,需要回复后才能看到 五、例子 KEGG 中每一个 Object(除基因外)都含有一个唯一的 KEGG 标识符,它包括一个5位数 的号码并有一个大写字母作为前缀,如 K05032和 D00336 ,或由一个有2-4的字母代码开头 的标识符,如 map00010和 br08301 。 每个 KEGG 的数据库资料都配有一个独特的标识符,如下图所示: Release Database Object Identifier 1995 KEGG PATHWAY map number KEGG GENES locus_tag / GeneID KEGG ENZYME EC number KEGG COMPOUND C number 2000 KEGG GENOME organism code / T number 2001 KEGG REACTION R number 2002 KEGG ORTHOLOGY K number 2003 KEGG GLYCAN G number 2004 KEGG RPAIR A number 2005 KEGG BRITE br number KEGG DRUG D number 2007 KEGG MODULE M number KEGG DISEASE H number 下面我以一个例子来介绍怎样使用 pathway 在 KEGG 上找有关氨基酸代谢的代谢图。首 先打开 KEGG PATHWAY,找到 Amino Acid Metabolism,然后找相应的氨基酸代谢途径就可以 了。如点击 Glutamate metabolism 就进入了其代谢图,我们可以点击 Pathway entry 获得 更多的信息。 六、展望 现在,KEGG 的通路数据库(PATHWAY database)中关于调节通路的部分和代谢通路相比 还相差较多。这是因为代谢通路,特别是中间代谢,在大部分生物(从哺乳动物到细菌)中都 是保守的。 这样就可以徒手画出一条参考通路, 然后用计算机构建出许多生物体特异的通路 来。但是调节通路非常多样化,而且很难归为一个统一的参考通路图。因此需要给每一个生 物分别画一个通路图。 同时还需要鉴别有共同通路或集群的生物群体以及通路图可以合并起 来的生物群体。例如人和小鼠共同的凋亡的通路图表,细菌、archaea 和真核生物的三种核 糖体的集群图表。 另一个在调节通路中存在的问题是缺乏合适的调节通路中的功能识别符。在代谢通路 中,EC 号是节点(酶)的识别符,同时它也是与基因组信息连接的关键。KEGG 目前致力于使 ortholog 识别符具有 EC 号的功能。这样 ortholog 识别符将可以识别调节通路中的节点(蛋 白)同时与基因组信息相连接。随着不断的改进,ortholog 识别符将取代代谢通路中的 EC 号,这样就可以区分对应一个 EC 号的多个基因。例如:一个酶复合物的不同亚单位或是在 不同条件下基因的不同表达。 今天用 blast2go 进行 KEGG 分析,结果不行。请教得出可以利用 KAAS,于是查了查,没 有多少时间去学,明天要回家,先存个找的这个不错的帖子。后面再学 KEGG,Kyoto encyclopedia of Genes and Genomes ,不多说。 KEGG 的数据 KEGG 中的 pathway 是根据相关知识手绘的,这里的手绘的意思可能是指人工以特定的 语言格式来确定通路各组件的联系;基因组信息主要是从 NCBI 等数据库中得到的,除了有 完整的基因序列外,还有没完成的草图;另外 KEGG 中有一个“专有名词”KO(KEGG Orthology) ,它是蛋白质(酶)的一个分类体系,序列高度相似,并且在同一条通路上有相 似功能的蛋白质被归为一组,然后打上 KO(或 K)标签。下面就首先来讲一下 KEGG orthology。 任找一个代谢通路图,在上方有 pathway meue | payhway entry | Show(Hide) description | 这3个选项,点击 pathway entry, 出现了一个页面,这个随时被连接出来的页 面相信大家一定再熟悉不过了。在这个页面中的 pathway map 项中点击按钮状的链接 Ortholog table 。就进入了 Ortholog table 如下的页面: 在这个表中,行与物种对应,3个字母都是相应物中的英文单词缩写,比如 has 表示 Homo sapiens,mcc 表示 Macaca mulatta;列就表示相应的 Ortholog 分类,比如 K00844 就表示生物体内的己糖激酶 hexokinase 这一类序列和功能相似的蛋白质类(酶类) 。如上 图 has 后有3101, 3098, 3099这3个条目, 它表示在人类细胞中中存在3中不同的己糖激酶, 它们分别由以上这3组数字代表的基因所编码,这3组数字应该是这3个基因的登录号。空白 则表示在该物种中不存在这种酶。 点击 K00844则这一KO分类信息及成员列表都可显示出来; 点击has 则链接到物种 (人 类)基因组去了;点击 P,则显示相应的代谢通路。下面我们点击3101,如下: 如上图,就是我们常见的一个页面,3101是 KEGG 中的基因 ID(登录号) , H.sapiens 表示物种,然后是基因的名称,表达的酶,属于哪个 KO 分类以及参与哪些代谢途径;下面 还有结构、序列信息等等。 所以从 Ortholog table 中可以很容易地知道一张代谢通路上有哪些 KO 分类(酶 类) ,并且这些酶类的成员在各物种中分配存在的情况以及特定的名称。 怎么看 KEGG 中代谢通路图 比如以上这个图,方框一般就是酶,方框里面的不是 IP 而是 EC 编号;小圆圈 代表代谢物,你把鼠标放上去, (别放我这上面,放 KEGG 中去)会出现 C00668的东西, C 代表 compound,00668是这种化合物在 KEGG 中的编号,一般在 KEGG 中数据条目都 是这样的,前面一个标志,后面一个五位数编号;大的圆方块,就表示是另一个代谢图了, 所以就不展开了。 但是:为什么这个图上有的小框框是绿色呢?(这是绿色吧?我蓝绿不分的,下同) 因为这是一张特定物种(S. cere. 酿酒酵母)的代谢图,蓝色的框框表示专属于这个物 种。在 KEGG 中有两种代谢图,一种是参考代谢通路图 reference pathway,是根据已有的 知识绘制的概括的、详尽的具有一般参考意义的代谢图,这种图上就不会有绿色的小框,而 都是无色的, 所有的框都可以点击查看更详细的信息; 另一种就是像上面这样的属于特定物 种的代谢图 species-specific pathway,会用绿色来标出这个物种特有的基因或酶,只有这 些绿色的框点击以后才会给出更详细的信息。这两种图很好区分,reference pathway 在 KEGG 中的名字是以 map 开头的,比如 map00010,就是糖酵解途径的参考图,而特定物 种的代谢通路图开头三个字符不是 map 而是种属英文单词的缩写(应该就是一个属的首字 母+2个种的首字母)比如酵母的糖酵解通路图,就是 sce00010,大肠杆菌的糖酵解通路图 就应该是 eco00010吧。 那么:怎么找这两种图呢? (1)有下拉列表的时候,在列表选择 reference 或者是特定物种即可。 (2)在 pathway 检索的页面 http:/www.genome.jp/kegg/pathway.html ,如下图: 默认的就是 map, 参考图, 你想要什么物中的代谢图写上它的名称就好了 (种属缩写) , 如果不知道是哪3个字母,点击 organism 选择即可。 (不过你点进去也是一片空白,你要提 示两个字母才会给出下拉条目) 顺便问一下:怎么找基因呢? 还是上面这张图,看到了吗,除了 PATHWAY 之外是不是还有 BRITE、DISEASE.以 及 GENES 等等,点击基因 GENES,就可以查找基因了,如下图: 不过这里要按一定的格式 (org:gene) 输入要查找的目的基因, 比如它给出的示例: syn 表示物中,ssr3451表示基因 ID,查找出来的基因名称是 psbE。其实我试了一下,若直接 检索基因名称(而不是 KEGG 中的基因 ID)syn:psbE 也是一样的。因为我不知道 KEGG 中基因 ID 如何编制的,但是,我同时也不知道基因的名称是如何定义的。比如果糖1,6- 二磷酸酶 Fructose 1,6-biphosphatase 的基因就叫 fbp,我放进去能检索,但是我把有名的 gal 填上去就不能检索,当然这可能与基因后面的乱七八糟的序号后缀有关,比如填上 gal1 就能检索了,所以我真不知道基因到底怎么命名的?当然我在 syn 中没找到 gal1在 sce 中 检索到了,这也说明了基因果然不是乱长的。 依旧是上面这个图,看到 KEGG2了吗?点击。也会出现检索框,这是一个总体性地检 索框,在这里面输入关键词,代谢通路也好,glycolysis 也好, gal 也好,化合物也好,没 那么多限制,KEGG 中的相关东西都会检索出来,在这里浏览一下,再进行后续检索,也 是一个不错的方法。 当然,代谢通路图,还有其他的查看形式(比如以 KO 查看) ,以及图上可以点击,链 接到这链接到那,点来点去总能点出奇怪的页面来,熟悉一下也就熟悉了,这些东西会很有 用,所以我就不说了。下面讲一下 KEGG 的自动注释功能。 KEGG 的自动注释 KEGG Automatic Annotation Server,KEGG 的自动注释服务简称 KAAS。在线 网址为 http:/www.genome.jp/tools/kaas/ 。就是你提交一段蛋白质序列或者基因序列(必 须是 fasta 格式) ,它自动在内部进行相似性比对,找到最相似的基因,并确定检索基因的 KO 分类,然后给出这些基因所在的代谢通路并以以不同的颜色标示这些基因。如下图: 我在 help 中随便复制了它的两条示例氨基酸序列,然后粘贴到检索框中,进行了检索。 检索框默认的蛋白质序列,如果不是的话要改选。然后填上一个邮箱地址,点击又下角的 compute 即可。不出意外的话,你在接下来的页面中应该看不到任何结果,甚至连提示都 没有, 原来它把结果发到你邮箱去了。 我也不明白就一个网页链接为什么还硬要发送到邮箱。 首先发你一封信说已经接受,并给你一个期待结果显示的网址,一段时间后,会发你另外一 封邮件,说已经完成。打开它给的网址,就能看到结果了,如下: 看来从1:20开始计算到1:50 才结束,两条氨基酸链计算了30分钟(不过我感觉没这 么长呀) 。人家说了,计算时间是与要和检索序列对比的目标序列成正比,因此在检索的时 候最好限制一下检索范围。 点击 html 有两条代谢通量图的条目,点开他们就可以直观地看出我们检索的未知序列 在代谢通路中的位置和作用了。Text 给出的是两个 KO 分类。 好像北京大学的生命科学学院也搞了一个 KOBA,也是基于 KEGG 中的 KO 进行注释 的一个服务,应该和这个差不多吧。 代谢通路的着色 怎么在 KEGG 检索出来的代谢通路中给特定的一些化合物或者基因(酶)着色以 高亮显示呢? 进入网页 http:/www.genome.jp/kegg/tool/color_pathway.html , 或者由 pathway 主页 的 Color objects in KEGG pathways 进入,看图: 如上图, search against 下拉出你可供选择的代谢通量图, 总所周知的一个很烦人的问 题就是,在这些下拉列表中,条目排序竟然是乱七八糟的很难索引。还好我发现把焦点定在 这个下拉列表的最顶端的文本框上(即文本框变成选中的蓝色) ,然后在键盘上拼写你要的 那个物中的英文单词, 只需要拼两三个字符相应的代谢通量图就出现在顶端了。 比如我要找 酵母的代谢通量图,只需要在文本框变蓝的时候拼写“sacc”这几个字符“Saccharomyces cerevisiae(budding yeast)”就自动被置于上面了。或者不把焦点集中在文本框中也行,但是 你要很快地拼写 sacc,否者的话焦点会在以这几个字符开头的条目之间切换。 如上图,右边有示例,这个貌似不要太简单。想给谁着色就把它写出来后面跟上颜色就 好了,一个一行。比如写上 C00118 blue 就表示在代谢通路图中把 C00118这种代谢物(3- 磷酸甘油醛,GAP)给着上蓝色。但是大家也看出来了,着色可以自定义背景色,也可以 同时定义前景色。我曾一度琢磨前景色是干嘛的,琢磨半天发现没用。背景色就是把方框或 者圆圈涂成选定的颜色,这自然是要的;而前景色是谁的颜色,就是方框里面的 这 几个数字的颜色,或者是小圆圈圆周的颜色,这有必要定义吗,所以后面直接跟一种颜色就 行了。 然后就可以了。我随便弄个 gal1想去着色,KEGG 突然说在酵母中找不到 gal1,怎么 可能找不到呢?我前面还在 GENES 中搜过呢,分明是酵母,分明是 gal1,分明搜的到,我 当时还大为兴叹,唉,看来基因果然不能乱长啊,怎么可能一顿饭就说找不到了呢?我又回 去搜里一下,确实搜的到,我再回来着色还说找不到。发现没有哪里不对呀,难道在这里 KEGG 着色只能输入基因 ID 而不能输入名称?不是,输入基因 ID 能给着色,基因名称也 应该能给 哈哈, 我突然大笑起来, 一定是 KEGG 区分大小写了! 果然, 我把搜到的 GAL1 输进去,好了!用 gal1又不行了。我突然觉得好玩起来,就一次次地改大小写,一次次地 看它给出的错误报告,一次次得意地嗤笑它的弱智。既然区分大小写,那 red 能着红色, Red、RED 肯定就不认识了,果然改写一个大小写的 red 就没反应了,c00118也不认识了。 前面那么多检索一直都不区分大小写的,在这里怎么区分大小写呢?KEGG 显然把这点疏 忽了。 着色结果如下: (红色的就是 GAL1的酶,右上角的就是 C00118) 代谢物还好,如果要着色酶,没必要去找基因,还免得像我那样麻烦,直接在输入框中 输入相应的酶就好了,比如 ec: red(ec 要小写) 跟 GAL1 red 是一样的。或者直接 写 red 也是一样的。 这种着色功能还可用于对比(或寻找)两个不同物种的一些基因,或者根据芯片数据, 直观地示意一些基因的表达调控。着色内容也可以预先按以上规定的格式写在文本文件中, 然后直接浏览导入也行。 基因芯片数据的分析 我对基因芯片数据(表达谱)的分析也是蛮感兴趣的。利用基因芯片的表达数据,分析 不同实验条件下的一些上调或下调基因, 并与生物通路结合起来, 用不同的颜色来直观地反 映代谢通路中各基因表达的变化情况, 可以为更好地研究代谢网络提供了很大的帮助。 以前 出去听人家讲课,只知道 GenMapp 不错,可以把基因芯片数据和通路结合起来,没想到在 KEGG 中也可以实现这一功能。 进入网页 http:/www.genome.jp/kegg/expression/ 。网页左边是 KEGG 自身拥有的一 些基因表达数据集 KEGG EXPRESSION Database。网页的右边 KegArray 就是要进行芯 片分析的工具了。 在 KEGG EXPRESSION 下面, 点击“list of experimental data available”, 就打开了 KEGG 中的基因芯片数据,见下图: 这是芯片数据的一个目录层次, 箭头向右和向下分别表示收起和展开数据。 我们以上图 中的第一条数据为例, 即 Suzuki et al. 做的关于 Synechocystis PCC6803 冷激响应的一条 数据 ex0000012, 点击这个数据,在打开的页面下面有个 option 列表,点击 Launch KegArray,加载这个应用程序来分析这条数据。出现如下对话框: 问你是打开还是保存,打开就相当于临时用一下,网页关掉就没了;保存就是把这个 软件下载到自己的电脑上,以后还可以用。你先打开试试吧,这个不是关键,关键的是你可 能打不开这个文件。大家都知道,生物信息学的一些软件往往要求安装 JAVA 才能运行,我 JAVA 早就安装了,但是仍然告诉我打不开这个文件,我看了一下文件格式,是什么 JNLP 格式的没见过,看看属性,又从网上搜搜,说需要 java web start 才能打开和运行,我安 装了 JAVA,java web start 在哪里找到和启动,查了半天也没个头绪,忽然一想,java web start 肯定在 JAVA 安装文件夹里, 取首字母缩写, 很有可能是 javaws.exe,我一搜还真在安 装文件夹里搜到这个执行程序了,用作 JNLP 的默认打开方式,立马就呼呼地启动了。出现 了如下的界面: 图中的 File Name、Organism 还都对,下面的参数一般都是默认的,不需要改。右边 还有一个统计图,用以显示上调、下调和不调的基因数目比例。绿色表示下调,红色上调, 黄色无明显差异(之前有文献说红色是下调,搞的我迷糊了好大一阵子! ) 。 那怎么在生物学通路中看这些基因的调整情况呢? 看到最下面的 Mapping to 了吗,选择 pathway(默认的也是 pathway),GO 一下,就 OK 了。然后它就会把这个芯片数据涉及到的基因所在的通路图列出来,并在通路中用不同 的颜色标明基因表达差异。如下图(选取的是嘌呤代谢通路的一部分) 绿色表示基因下调,黄色表示没明显变化,灰色是什么,这个可能 species-specific 基 因,与芯片无关的吧。那怎么没红色? (1)通路中本就没有基因上调 (2)虽然绿色表示下调,红色上调,但是在他们之间有过渡的颜色,比如某个基因只 是稍微上调,因此不能大红大紫,只能呈现过渡的暗黄色。如果你一定有见红情结的话,那 你可以在 help 菜单中选择 preferences,把颜色梯度改成1, 即下调就是绿色, 上调就是红色, 没中间余地。此时一旦有所上调不论多少都是大红。 (呵呵) 除此之外,看到了吗,KegArray 还有一个做聚类 Clustering 的命令,你可以点击 GenomeNet 从 KEGG 中选择芯片数据进行聚类,不过貌似做得很简单,也没有红绿颜色。 当然,你可以选择 KEGG 其他芯片数据进行类似分析,可可以从本地导入其他的芯片 数据。也可以把 KegArray 保存在本地运行,但是不管怎样,不管你选在 KEGG 中选了那 条数据,需要指出的一点是,当你再运行 KegArray 时,加载的数据总是你第一次使用的数 据。 比如我即使在 KEGG 中选择 ex000013 而不是 ex000012,然后 launch KegArray, 启动 后出现的数据依旧是我第一次分析的数据 ex000012而不是 ex000013, 只有打开以后,点 击 GenemoNet 重新选择芯片数据。而 KegArray 本身又找不到可以设置这些东西的地方, 真不知道 KEGG 想要干嘛! KGML 与通路编辑 这个我不
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电表改装课件
- 车辆保险服务投标方案
- 电脑知识培训计划课件
- 输电线路巡检技术服务合同
- 电脑培训知识点总结
- sis考试试题及答案
- pqc考试试题及答案
- 电缆业务知识培训课件
- 第7章 消费者的需要与购买动机
- 高级餐厅基础知识培训内容
- 2025年度房屋拆迁补偿安置房买卖协议
- 电子竞技赛事策划与组织运营管理方案设计
- 人教版(2024)八年级上册数学全册教案
- 2025年智慧城市信息化运维服务合作合同模板
- 职工职业健康体检实施方案与标准
- 公安科技信息化课件
- 桥梁工程支架浇筑连续箱梁的施工监理实施细则
- 2025年国家药品监督管理局直属单位招聘126人笔试模拟试题及参考答案详解
- 2025年医疗器械经营企业法律法规培训考试(含答案)
- 2025年部编版新教材语文九年级上册教学计划(含进度表)
- 2025年多省公务员联考公安基础知识考试真题(附答案)
评论
0/150
提交评论