基因芯片数据功能分析_第1页
基因芯片数据功能分析_第2页
基因芯片数据功能分析_第3页
基因芯片数据功能分析_第4页
基因芯片数据功能分析_第5页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、生物信息学在基因芯片数据功能分析中的应用 2009-4-29 随着人类基因组计划 (Human Genome Project)即全部核苷酸测序的即将完 成,人类基因组研究的重心逐渐进入后基因组时代 (PostgenomeEra),向基因的 功能及基因的多样性倾斜。 通过对个体在不同生长发育阶段或不同生理状态下大量基因表达的平行分 析,研究相应基因在生物体内的功能,阐明不同层次多基因协同作用的机理, 进而在人类重大疾病如癌症、心血管疾病的发病机理、诊断治疗、药物开发等 方面的研究发挥巨大的作用。它将大大推动人类结构基因组及功能基因组的各 项基因组研究计划。生物信息学在基因组学中发挥着重大的作用

2、,而另一项崭新 的技术 基因芯片已经成为大规模探索和提取生物分子信息的强有力手段, 将在后基因组研究中发挥突出的作用。基因芯片与生物信息学是相辅相成的, 基因芯片技术本身是为了解决如何快速获得庞大遗传信息而发展起来的,可以 为生物信息学研究提供必需的数据库,同时基因芯片的数据分析也极大地依赖 于生物信息学,因此两者的结合给分子生物学研究提供了一条快捷通道。 本文介绍了几种常用的基因功能分析方法和工具: 一、GO基因本体论分类法 最先出现的芯片数据基因功能分析法是 GO分类法。 Gene Ontology(GO, 即基因本体论)数据库是一个较大的公开的生物分类学网络资源的一部分,它 包含 386

3、75个 Entrez Gene注释基因中的 17348个,并把它们的功能分为三类: 分子功能,生物学过程和细胞组分。在每一个分类中,都提供一个描述功 能信息的分级结构。这样, GO中每一个分类术语都以一种被称为定向非循环图 表( DAGs)的结构组织起来。研究者可以通过 GO分类号和各种 GO数据库相关 分析工具将分类与具体基因联系起来,从而对这个基因的功能进行描述。在芯 片的数据分析中,研究者可以找出哪些变化基因属于一个共同的GO功能分支, 并用统计学方法检定结果是否具有统计学意义,从而得出变化基因主要参与了 哪些生物功能。 1/ 5 EASE(ExpressingAnalysisSyste

4、maticExplore)r 是比较早的用于芯片功能分析 的网络平台。由美国国立卫生研究院( NIH)的研究人员开发。研究者可以用多 种不同的格式将芯片中得到的基因导入 EASE进行分析, EASE会找出这一系列的 基因都存在于哪些 GO分类中。 其最主要特点是提供了一些统计学选项以判断得到的 GO分类是否符合统计 学标准。 EASE能进行的统计学检验主要包括 Fisher 精确概率检验,或是对 Fisher精确概率检验进行了修饰的 EASE得分( EASE scor)e 。 由于进行统计学检验的 GO分类的数量很多,所以 EASE采取了一系列方法 对“多重检验 ”的结果进行校正。这些方法包括

5、弗朗尼校正法( Bonferroni ),本 杰明假阳性率法( Benjaminifalsediscovery rate)和靴带法( bootstraping )。同 年出现的基于 GO分类的芯片基因功能分析平台还有底特律韦恩大学开发的 Onto-Express。2002 年,挪威大学和乌普萨拉大学联合推出的 Rosetta 系统将 GO 分类与基因表达数据相联系,引入了 “最小决定法则 ”(minimaldecision rules)的概念。它的基本思想是在对多张芯片结果进行聚类分析之后,与表达 模式不相近的基因相比,相近的基因更有可能参与相同的生物学功能的实现。 比较著名的基于 GO分类法

6、的芯片数据分析网络平台还有七十多个,表1 列举了 其中的一部分。 Onto-Toolshttp: //projects.htm ROSETTAhttp: /rosetta.lcb.uu.se/general/ GOstat FatiGO EASEhttp: /.au/ http: 2/ 5 GOToolBoxhttp: /burgundy.cmmt.ubc.ca/GOToolBox/ GFINDerhttp: http: //ease/ease.jsp 表 1 用 GO 分类法进行芯

7、片功能分析的网络平台 二、Pathway 通路分析法 通路分析是现在经常被使用的芯片数据基因功能分析法。与GO分类法(应 用单个基因的 GO分类信息)不同,通路分析法利用的资源是许多已经研究清楚 的基因之间的相互作用,即生物学通路。研究者可以把表达发生变化的基因列 表导入通路分析软件中,进而得到变化的基因都存在于哪些已知通路中,并通 过统计学方法计算哪些通路与基因表达的变化最为相关。现在已经有丰富的数 据库资源帮助研究人员了解及检索生物学通路,对芯片的结果进行分析。主要 的生物学通路数据库有以下两个: KEGG数据库: BioCarta 数据库: KEGG、GenMAPP和 BioCarta,

8、生成变化基因参与的通路,并用 fisher 精确 概率检验。 PathwayMiner 自动把得到的通路分成两大类: 代谢通路和细胞调节通路。方便使用者根据不同的研究目的选择需要查看 的结果。 Name GenMAPP 3/ 5 PathwayMiner KOBAS GEPAT VitaPad KEGGanim VisANT 3.0 http: http: http: http: /gepat.bioapps.biozentrum.uni-wuerzburg.de/GEPAT/index.faceshttp: //group http: /

9、biit.cs.ut.ee/kegganim/ http: // WholePathwayScopehttp: http: 表二通路分析网络平台 三、基因调控网络分析 4/ 5 通路分析法是芯片功能分析的有力工具之一,其与 GO 分类法的主要区别也 正是它的弱点。在生物反应的过程中,发生表达变化的基因通常不只局限在一 个通路中,而是存在于由许多调控因子和通路参与的复杂调控网络中。生物调 控网络十分复杂,并没有现成的文献和数据库供参考。而且,把芯片中发生表 达变化的基因放在生物调控网络的水平来看,它们通常在多个通路中都有分 布,而每个通路只包含几个发生表达变化的基因。这

10、就解释了为什么有些通路 只有部分基因表达发生变化,而且表达变化的趋势在整个通路水平上不一定是 一致的。 进行生物调控网络的研究需要更多的数据库及分析工具的支持。比如需要 关于基因组调控序列(启动子和增强子)的信息,现在已经有许多关于转录因 子结合位点( transcriptionfactor binding site, TFBS)的数据库可以满足这个要 求,如 TRANSFAC及 JASPAR。而且芯片检测的基因变化应该深入到转录本水 平,因为不同的转录本的转录可能是由不同的启动子启动的。外显子连接芯片 (exonjunctionmicroarray)将基因组中外显子与外显子之间的连接序列做成 36nt 的探针点到芯片上,与样本 mRNA 进行杂交后可检测出样本中多外显子基 因 pre-mRNA 的剪接状况。 转录调节控制基因表

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论