基因芯片分析的理论与方法课件_第1页
基因芯片分析的理论与方法课件_第2页
基因芯片分析的理论与方法课件_第3页
基因芯片分析的理论与方法课件_第4页
基因芯片分析的理论与方法课件_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基因芯片分析的理论与方法ericexist163. comQQ:7049971基因芯片概论基因芯片分析的概念n基因芯片(Gene chip)技术是指通过微阵列(Microarray)技术将高密度DNA片段阵列通过高速机器人或原位合成方式以一定的顺序或排列方式使其附着在如玻璃片等固相表面,以荧光标记的DNA探针,借助碱基互补杂交原理,进行大量的基因表达及监测等方面研究的技术。基因芯片分析的优点n快速n高通量(104 - 106)n自动化n使用的试剂少n低成本基因芯片分析的应用范围nAcademic research of genetic diseasesnCancernPrenatal gene

2、tics(产前遗传学研究)nGeneral genetic diseasesnInfectious diseasesnDrug discoverynAnimal farming/veterinary nIndustrial (fermentation)nEnvironmental发展的方向:从多角度研究揭示生命现象nStages: developmental,transformation, time fter treatment, etc.nTreatments (stimuli, drugs, nutrients, etc.) nPhysiological states (stressed,

3、 fasting, etc.)nTissue distributionn(position, 3D)基因芯片的发展是推动系统生物学发展的动力利用基因芯片研究生命现象的测略nFactors involved = ComponentsnOrder of events = PathwaysnInteractions = Circuit KEGGGO基因芯片的分类E xp ressio n C h ip sG en o m ic C h ip sS eq u en cin g C h ip sD N A C h ip s基因芯片的分类nOligonucleotide arrayn Synthesize

4、d on a chip( Affymetrix)n Spot on a solid matrix( Compugen)ncDNA array( Incyte )一些发展中的基因芯片技术平台n利用生物分子的电物理特性进行基因表达监测:监测速度很快,适用于基因表大,蛋白质组及基因型的研究n利用电场原理进行高密度芯片生产:基于适合用于生物学的集成电路,集成电路包含可以独立寻址的微电极阵列,结合特殊的液体流动系统,可以使大部分生物分子按照来自于计算机的数字指令运动。n喷墨点样技术:以高度定位的形式把合成好的寡核苷酸分子喷点倒玻璃表面。n寡核苷酸包被的微珠芯片n平行信号测序技术:对基因表达进行定量分析基

5、因芯片分析试验方法基因芯片分析的主要步骤cDNA基因芯片分析的主要步骤cDNA芯片分析的主要步骤nSpot by Array spottercDNA芯片分析的主要步骤Hybridizing by Automatic hybridization processorcDNA芯片分析的主要步骤nLaser scannerOligonucleotide array (GeneChipGeneChip )总总RNA的制备的制备反转录反转录体外体外转录转录生物素标记的生物素标记的cRNA片段化处理片段化处理带标记的带标记的cRNA片断片断35-200 bases0.5-2 ug/ul起始用量起始用量5-1

6、0ug(IVT)操作流程操作流程(以真核生物为例)(以真核生物为例)标记的标记的cRNA片断片断杂交混合液的制备杂交混合液的制备EukaryoticHyb.ControlControlOligo B2 杂交杂交(16hour) 数据分析数据分析 扫扫 描描 洗脱洗脱染色染色Oligonucleotide array 的特点1 个平方厘米的面积至少可排个平方厘米的面积至少可排列四十多万个探针合成区列四十多万个探针合成区(“点点”)基因基因2 2基因基因1cDNA1cDNA基因基因2cDNA2cDNA用于用于cDNAcDNA芯片的探针芯片的探针Oligo probeOligo probe基因基因1

7、 1多个检测结果可以参考多个检测结果可以参考Oligonucleotide array 的优越性 序列准确性高 原位合成 PCR扩增,点样 起始Total RNA 110ug 50ug 均一的退火温度 25mer 300bp3Kb 特异性更高 多段探针 单个探针 非特异性杂交 2 30cDNA 芯片芯片Affy 芯片芯片优优 势势芯片分析数据的标准化nQuantitation ndata-quality assessmentsn背景处理:图像上各点的吸光度值包含了样品和背景信号,在提取数据前必须将背景扣除n杂交点质量:由于点样或膜变形等原因目前较多的软件对杂交点的识别定位仍需要人为的调整n数据

8、的标准化:其目的是避免基因芯片实验中因系统差异造成芯片间数据比较的困难。最常用的是“看家基因”法,它预先选择一组表达水平不变的看家基因,计算出这组基因平均ratio 值为1 时的标准化系数,然后将其应用于全部的数据以达到标准化的目的Scatter plots for a Cy5-liver/Cy3-liver control hubridization A Cy5-ovarian tumor/Cy3-normal ovary hubridization The value of Cy3 and Cy5 hydridization signals from each clone were plo

9、tted directly onto the plot (卵巢癌)Data Analysis - Reveal the Difference基因芯片数据分析和信息挖掘方法一. 聚类分析聚类分析n聚类分析是模式识别中一种非常有吸引力聚类分析是模式识别中一种非常有吸引力的方法,特别适用于模式分类数不知道的的方法,特别适用于模式分类数不知道的情况。情况。n从机器学习的角度来看,有两种基本的聚从机器学习的角度来看,有两种基本的聚类分析:类分析:n有教师聚类有教师聚类n无教师聚类无教师聚类n基因表达数据聚类分析一般包括以下几个基因表达数据聚类分析一般包括以下几个步骤:步骤:n()确定基因表达的数据()确

10、定基因表达的数据n()计算相似性矩阵,各个矩阵元素代表两()计算相似性矩阵,各个矩阵元素代表两个基因的表达是否相似个基因的表达是否相似n()选择算法进行聚类分析()选择算法进行聚类分析n()显示分析结果。()显示分析结果。n对数据进行聚类分析之前,必须将包含在基因表对数据进行聚类分析之前,必须将包含在基因表达矩阵中的数据进行相似程度分析,并且对分析达矩阵中的数据进行相似程度分析,并且对分析结果进行量化。结果进行量化。 n通常情况下,相似往往被赋于一个较大的量化的通常情况下,相似往往被赋于一个较大的量化的值,而不相似则由一个较小的量化的值来表示。值,而不相似则由一个较小的量化的值来表示。n在实际

11、计算中,往往在实际计算中,往往以距离代替相似以距离代替相似的概念,相的概念,相似性度量被转化为两个基因表达模式之间的距离。似性度量被转化为两个基因表达模式之间的距离。距离越小,表达模式越相近,反之,则表达模式距离越小,表达模式越相近,反之,则表达模式差异大。差异大。两个表达模式之间的关系(a) 相似(b) 变化趋势一致(c) 两个基因的调控结果不一样或甚至相反聚类分析的目的n可诱导基因是共表达的 n许多构成性表达的基因不受调许多构成性表达的基因不受调节节n根据表达相似形排列基因n功能相似的基因被聚为不同的类n可以揭示细胞的生理状态n可以帮助研究未知基因的功能聚类结果显示聚类结果显示: Clus

12、ter, Cluster viewer二二. 基因调控网络分析基因调控网络分析2.1 基 本 理 论定义n一个基因网络一个基因网络(pathway)由由一组生物分子(如基一组生物分子(如基因、蛋白质)以及它们之间的相互作用构成因、蛋白质)以及它们之间的相互作用构成,这,这些生物分子共同完成一些特定的细胞功能任务些生物分子共同完成一些特定的细胞功能任务n在实际分析过程中,往往以在实际分析过程中,往往以图图这种数据结构表示这种数据结构表示基因网络,图中的基因网络,图中的节点代表基因或者蛋白质,而节点代表基因或者蛋白质,而节点之间的连线代表基因、蛋白质之间的相互作节点之间的连线代表基因、蛋白质之间的

13、相互作用用。基因网络描述了特定细胞或组织中的功能路。基因网络描述了特定细胞或组织中的功能路径,如代谢、基因调控,信号传导等。径,如代谢、基因调控,信号传导等。原理n基因表达实际上是细胞、组织、器官受遗传和环基因表达实际上是细胞、组织、器官受遗传和环境影响的结果。境影响的结果。n一个基因的转录和表达由细胞的生化状态所决定,一个基因的转录和表达由细胞的生化状态所决定,在一个基因的转录过程中,一组转录因子作用于在一个基因的转录过程中,一组转录因子作用于该基因的启动子区域,控制该基因转录,而这些该基因的启动子区域,控制该基因转录,而这些转录因子本身又是其它基因的产物。转录因子本身又是其它基因的产物。n

14、当一个基因通过转录、翻译形成功能基因产物后,当一个基因通过转录、翻译形成功能基因产物后,它将改变细胞的生化状态,从而直接或间接地影它将改变细胞的生化状态,从而直接或间接地影响其它基因的表达,甚至影响自身的表达。多个响其它基因的表达,甚至影响自身的表达。多个基因的表达不断变化,使得细胞的生化状态不断基因的表达不断变化,使得细胞的生化状态不断地变化。地变化。n一个基因的表达受其它基因的影响,而这一个基因的表达受其它基因的影响,而这个基因又会影响其它基因的表达,这种相个基因又会影响其它基因的表达,这种相互影响、相互制约关系构成了复杂的基因互影响、相互制约关系构成了复杂的基因表达调控网络。表达调控网络

15、。 n基因表达数据之中隐含基因之间的相互作基因表达数据之中隐含基因之间的相互作用关系,因而可以通过分析基因表达数据,用关系,因而可以通过分析基因表达数据,构建基因调控网络构建基因调控网络应用nBetter understand the physiology of the organismnPredict the effect of a drug Predict the weaknesses or side effects of a drugnPredict good or bad drug combinationsnUnderstand disease processesnGene funct

16、ion assignmentnMake a “perfect” simulation of cellularnfunction to use as an experimental modelnMany tools “feed” into this understanding including microarrays2.2 pathway 数据库介绍Pathway 数据库nGOnKEGGnGENMAPPnBIACARTAnGeneNetn细胞因子网络数据库n自由基信号数据库关于GOnGO(gene ontology)是基因本体论联合会(Gene Ontology Consortium)所建立的

17、数据库,旨在建立一个适用于各种物种的,对基因和蛋白功能进行限定和描述的,并随着研究的不断深入而更新的语言词汇标准。GO是多种生物学本体论语言中的一种,提供了三层结构的系统定义方式,用于描述基因产物的功能。nGO可以被用来在小鼠基因组中查询和信号转导相关的基因产物nGO发展了具有三级结构的标准语言(ontologies)。根据基因产物的相关分子功能,生物学途径,细胞学组件而给予定义,无物种相关性。关于KEGGnKEGG (Kyoto Encyclopedia of Genes and Genomes) (京都大学基因和基因组百科全(京都大学基因和基因组百科全书数据库)书数据库)nKEGG 是系统

18、分析基因功能的数据库,将基因组的信息与基因功能联系起来,旨在揭示生命现象的遗传与化学蓝图数据库KEGG PATHWAY DatabaseKEGG GENES DatabaseKEGG LIGAND Database用途搜寻pathway, 产生可能的反应路径搜寻类似的基因序列搜寻类似的基因组序列搜寻类似的复合物结构,类似的多糖结构及类似的反应类别通路信息基因组信息化学信息nKEGG中的通路分为五大类:1 新陈代谢通路2 遗传信息处理通路3 环境信息处理通路4 细胞内通路5 人类病症相关通路nPATHWAY提供所选定通路的参考资料、涉及的反应和在其他生物中的通路情况。由GIF等平板文件类型图示,

19、方框显示为涉及的酶EC名称,圆滑框为反应类型,以实线和箭头连接反应物和方向,虚线指向预测的反应类型。关于GenMappnGemapp (http:/) nGenMAPP 是一个以学术研究为基础的科学团体,提供100个以上的通路图. Silicon Genetics公司已经和 GenMAPP组织达成了协议 ,把这些通路整合到了 GeneSpring的通路库. 利用 GeneSpring分析的基因芯片数据可以用 GenMAPP的通路可视化,使研究者研究某些基因在通路中的作用.关于BioCartanBioCarta:“Carta”中文意思是”地图”,BioCarta” 即用图形来描述生物相关知识,形

20、成生物学家所熟悉的生化调控通路(biochemical pathways)。nBioCarta 公司为客户免费提供通路绘制软件,让他们根据自己的研究领域发表通路,建成数据库,通路中的蛋白都是按照HUGO的标准建立的.nBioCarta已收集各物种共大約120,000基因及136個调控通路,数据库载不断增加,其信号传导通路(signal transduction pathways)是当前最全的.GeneNetn真核生物生理过程的调控网络(GeneNet)nGeneNet展示了协调方式下基因的整体功能,良好的调控功能和对外界刺激的反应。该基因网具有以下基本功能:n(a) 描述执行特定生物功能时所涉

21、及到的整体基因交互作用n(b) 描述基因的蛋白质编码n(c) 描述基因对外界刺激的传感途径n(d) 通过一组反馈自动地稳定网络参数或者使网络转换到新的功能状态n(e) 利用外部信号、激素和代谢产物作为生理学参数激发基因网纠正其作用n该基因网描述了四类实体:n (a) 细胞(组织,器官)n (b) 蛋白质n (c) 基因n (d) 物质n该基因网还描述了实体间两种关系:n(a) 反应(reaction), 即通过交互作用产生新的实体或过程n(b) 调控(regulatory)事件, 特定反应对实体的作用。 2.3 功能富集分析功能富集分析定义n功能富集分析(Functional Enrichme

22、nt Analysis)又称功能聚类分析,借助于各种生物学信息数据库(如GO , KEGG, GENMAPP, BIACARTA, TRANSFAC, OMIM)和分析工具(如MAPPFinder, ArrayXPath)进行统计分析,挖掘同差异表达或共表达这组感兴趣基因具有显 著差异的功能类别。n功能富集分析的统计原理是用超几何分布型来检验一组基 因(共表达或差异表达)中某个功能类的显著性,并结合 多重假设检验判断思想选择同这组基因显著相关功能类别MAPPFindernMAPPFinder is a tool that creates a global gene-expression pro

23、 all areas of biology by integrating the annotations of the Gene Ontology (GO) Project with the free software package nGenMAPP http:/. 可以整合GO定义,产生整体的基因表达谱. 输出可以搜索的浏览器,帮助用户快速识别代表性的差异表达基因在GO的定义。工作方式Z值得计算GOminernGominer:最初Version在算法上虽亚于GenMAPP, 在再建立可视关系上(tree-like structure 和directed acyclic graph)有其独特

24、之处.n今年对Original Version进行较大改进,不仅可以富集significant GO categories, 还可以同时对多套芯片实验数据批量分析,控制假发现率FDR, 还整合转录因子结合位点信息.综合而言, 尤其适合TIME-COURSE功能富集分析n需要建立当地Mysql数据库,建立JDB数据源 Pathway ExplorernPathwayExplorer:provides comprehensive and easily accessible representations of expression profiles onto major regulatory, m

25、etabolic and cellular pathways. The integrated pathway resources include KEGG, BioCarta and GenMAPP.nLocusLink was again used as root identifier. The LocusLinks are linked with the user-defined gene identifier groups (UniGene, GeneOntology, GenBank and/or RefSeq), which are used then to align the mapped gene IDs.ArrayXPathna web-based service for mapping and visualizing microarray gene-expression data for integrated biological pathway resources nWhen one inputs gene-expression clusters, ArrayXPath produces a list of the best matching pathways for each cluster nap

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论