基因芯片分析的理论与方法.ppt_第1页
基因芯片分析的理论与方法.ppt_第2页
基因芯片分析的理论与方法.ppt_第3页
基因芯片分析的理论与方法.ppt_第4页
基因芯片分析的理论与方法.ppt_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基因芯片分析的理论与方法 ericexist163. com QQ:7049971 基因芯片概论 基因芯片分析的概念 n基因芯片(Gene chip)技术是指通过微阵 列(Microarray)技术将高密度DNA片段阵列 通过高速机器人或原位合成方式以一定的 顺序或排列方式使其附着在如玻璃片等固 相表面,以荧光标记的DNA探针,借助碱 基互补杂交原理,进行大量的基因表达及 监测等方面研究的技术。 基因芯片分析的优点 n快速 n高通量(104 - 106) n自动化 n使用的试剂少 n低成本 基因芯片分析的应用范围 nAcademic research of genetic diseases nCancer nPrenatal genetics(产前遗传学研究 ) nGeneral genetic diseases nInfectious diseases nDrug discovery nAnimal farming/veterinary nIndustrial (fermentation) nEnvironmental 发展的方向:从多角度研究揭示生命现象 nStages: developmental,transformation, time fter treatment, etc. nTreatments (stimuli, drugs, nutrients, etc.) nPhysiological states (stressed, fasting, etc.) nTissue distribution n(position, 3D) 基因芯片的发展是推动系统生物学发展的动力 利用基因芯片研究生命现象的测略 nFactors involved = Components nOrder of events = Pathways nInteractions = Circuit KEGG GO 基因芯片的分类 根据用途分类根据用途分类 gene expression patterngene expression pattern BiologicalBiological SampleSample FunctionalFunctional InformationInformation 基因芯片的分类 nOligonucleotide array n Synthesized on a chip( Affymetrix) n Spot on a solid matrix( Compugen) ncDNA array( Incyte ) 根据探针类型分类根据探针类型分类 expressionexpressiongenomic analysisgenomic analysis cDNAcDNA-Chip-Chip Genomic Chip Genomic Chip 50,000 n 50,000 n 一些发展中的基因芯片技术平台 n利用生物分子的电物理特性进行基因表达监测:监 测速度很快,适用于基因表大,蛋白质组及基因型 的研究 n利用电场原理进行高密度芯片生产:基于适合用于 生物学的集成电路,集成电路包含可以独立寻址的 微电极阵列,结合特殊的液体流动系统,可以使大 部分生物分子按照来自于计算机的数字指令运动。 n喷墨点样技术:以高度定位的形式把合成好的寡核 苷酸分子喷点倒玻璃表面。 n寡核苷酸包被的微珠芯片 n平行信号测序技术:对基因表达进行定量分析 基因芯片分析 试验方法 基因芯片分析的主要步骤 cDNA基因芯片分析的主要步骤 cDNA芯片分析的主要步骤 nSpot by Array spotter cDNA芯片分析的主要步骤 Hybridizing by Automatic hybridization processor cDNA芯片分析的主要步骤 nLaser scanner Oligonucleotide array (GeneChip) L L L L L L L L L L L L L L L L cDNAcDNA AAAAAAAA 总RNA的制备 反转录 体外 转录 生物素标记的cRNA 片段化处理 带标记的cRNA片断 35-200 bases 0.5-2 ug/ul 起始用量5-10ug (IVT) 操作流程(以真核生物为例 ) L L L L L L L L L L 标记的cRNA片断杂交混合液的制备 Eukaryotic Hyb.Control Control Oligo B2 杂交 (16hour ) 数据分析 扫 描 洗脱 染色 Oligonucleotide array 的特点 1 个平方厘米的面积至少可排列 四十多万个探针合成区(“点” ) 基因2 基因1cDNA 基因2cDNA 用于cDNA 芯片的探针 Oligo probe基因1 多个检测结果可以参考 Oligonucleotide array 的优越性 序列准确性高 原位合成 PCR扩增,点样 起始Total RNA 110ug 50ug 均一的退火温度 25mer 300bp3Kb 特异性更高 多段探针 单个探针 非特异性杂交 2 30 cDNA 芯片Affy 芯片优 势 芯片分析数据的标准化 nQuantitation ndata-quality assessments n背景处理:图像上各点的吸光度值包含了样品和 背景信号,在提取数据前必须将背景扣除 n杂交点质量:由于点样或膜变形等原因目前较多 的软件对杂交点的识别定位仍需要人为的调整 n数据的标准化:其目的是避免基因芯片实验中因 系统差异造成芯片间数据比较的困难。最常用的 是“看家基因”法,它预先选择一组表达水平不 变的看家基因,计算出这组基因平均ratio 值为1 时的标准化系数,然后将其应用于全部的数据以 达到标准化的目的 (A)Scatter plots for a Cy5-liver/Cy3-liver control hubridization A (B)Cy5-ovarian tumor/Cy3-normal ovary hubridization The value of Cy3 and Cy5 hydridization signals from each clone were plotted directly onto the plot (卵巢癌) Data Analysis - Reveal the Difference 基因芯片数据分析 和信息挖掘方法 一. 聚类分析 聚类分析 n聚类分析是模式识别中一种非常有吸引力 的方法,特别适用于模式分类数不知道的 情况。 n从机器学习的角度来看,有两种基本的聚 类分析: n有教师聚类 n无教师聚类 n基因表达数据聚类分析一般包括以下几个 步骤: n()确定基因表达的数据 n()计算相似性矩阵,各个矩阵元素代表两 个基因的表达是否相似 n()选择算法进行聚类分析 n()显示分析结果。 n对数据进行聚类分析之前,必须将包含在基因表 达矩阵中的数据进行相似程度分析,并且对分析 结果进行量化。 n通常情况下,相似往往被赋于一个较大的量化的 值,而不相似则由一个较小的量化的值来表示。 n在实际计算中,往往以距离代替相似的概念,相 似性度量被转化为两个基因表达模式之间的距离 。距离越小,表达模式越相近,反之,则表达模 式差异大。 两个表达模式之间的关系 (a) 相似 (b) 变化趋势一致 (c) 两个基因的调控结果不一样或甚至相反 聚类分析的目的 n可诱导基因是共表达的 n许多构成性表达的基因不受调 节 n根据表达相似形排列基因 n功能相似的基因被聚为不同的 类 n可以揭示细胞的生理状态 n可以帮助研究未知基因的功能 聚类结果显示: Cluster, Cluster viewer 二. 基因调控网络分析 2.1 基 本 理 论 定义 n一个基因网络(pathway)由一组生物分子(如基 因、蛋白质)以及它们之间的相互作用构成,这 些生物分子共同完成一些特定的细胞功能任务 n在实际分析过程中,往往以图这种数据结构表示 基因网络,图中的节点代表基因或者蛋白质,而 节点之间的连线代表基因、蛋白质之间的相互作 用。基因网络描述了特定细胞或组织中的功能路 径,如代谢、基因调控,信号传导等。 原理 n基因表达实际上是细胞、组织、器官受遗传和环 境影响的结果。 n一个基因的转录和表达由细胞的生化状态所决定 ,在一个基因的转录过程中,一组转录因子作用 于该基因的启动子区域,控制该基因转录,而这 些转录因子本身又是其它基因的产物。 n当一个基因通过转录、翻译形成功能基因产物后 ,它将改变细胞的生化状态,从而直接或间接地 影响其它基因的表达,甚至影响自身的表达。多 个基因的表达不断变化,使得细胞的生化状态不 断地变化。 n一个基因的表达受其它基因的影响,而这 个基因又会影响其它基因的表达,这种相 互影响、相互制约关系构成了复杂的基因 表达调控网络。 n基因表达数据之中隐含基因之间的相互作 用关系,因而可以通过分析基因表达数据 ,构建基因调控网络 应用 nBetter understand the physiology of the organism nPredict the effect of a drug Predict the weaknesses or side effects of a drug nPredict good or bad drug combinations nUnderstand disease processes nGene function assignment nMake a “perfect” simulation of cellular nfunction to use as an experimental model nMany tools “feed” into this understanding including microarrays 2.2 pathway 数据库介绍 Pathway 数据库 nGO nKEGG nGENMAPP nBIACARTA nGeneNet n细胞因子网络数据库 n自由基信号数据库 关于GO nGO(gene ontology)是基因本体论联合会(Gene Ontology Consortium)所建立的数据库,旨在建立一 个适用于各种物种的,对基因和蛋白功能进行限定和 描述的,并随着研究的不断深入而更新的语言词汇标 准。GO是多种生物学本体论语言中的一种,提供了三 层结构的系统定义方式,用于描述基因产物的功能。 nGO可以被用来在小鼠基因组中查询和信号转导相关的 基因产物 nGO发展了具有三级结构的标准语言(ontologies) 。根据基因产物的相关分子功能,生物学途径 ,细胞学组件而给予定义,无物种相关性。 关于KEGG nKEGG (Kyoto Encyclopedia of Genes and Genomes) (京都大学基因和基因组百科全 书数据库) nKEGG 是系统分析基因功能的数据库 ,将基因组的信息与基因功能联系起 来,旨在揭示生命现象的遗传与化学 蓝图 数据库 KEGG PATHWAY Database KEGG GENES Database KEGG LIGAND Database 用途 搜寻pathway, 产 生可能的反应路径 搜寻类似的基因序 列搜寻类似的基因 组序列 搜寻类似的复合物 结构,类似的多糖结 构及类似的反应 类别 通路信息 基因组信息 化学信息 nKEGG中的通路分为五大类: 1 新陈代谢通路 2 遗传信息处理通路 3 环境信息处理通路 4 细胞内通路 5 人类病症相关通路 nPATHWAY提供所选定通路的参考资料、涉及的反应和 在其他生物中的通路情况。由GIF等平板文件类型图示 ,方框显示为涉及的酶EC名称,圆滑框为反应类型, 以实线和箭头连接反应物和方向,虚线指向预测的反应 类型。 关于GenMapp nGemapp (http:/www.GenMAPP.org) nGenMAPP 是一个以学术研究为基础的科 学团体,提供100个以上的通路图. Silicon Genetics公司已经和 GenMAPP组织达成 了协议 ,把这些通路整合到了 GeneSpring 的通路库. 利用 GeneSpring分析的基因芯 片数据可以用 GenMAPP的通路可视化, 使研究者研究某些基因在通路中的作用. 关于BioCarta nBioCarta:“Carta”中文意思是”地图”,BioCarta” 即用 图形来描述生物相关知识,形成生物学家所熟悉的生化 调控通路(biochemical pathways)。 nBioCarta 公司为客户免费提供通路绘制软件,让他们根据 自己的研究领域发表通路,建成数据库,通路中的蛋白都 是按照HUGO的标准建立的. nBioCarta已收集各物种共大約120,000基因及136個调控 通路,数据库载不断增加,其信号传导通路(signal transduction pathways)是当前最全的. GeneNet n真核生物生理过程的调控网络(GeneNet) nGeneNet展示了协调方式下基因的整体功能,良 好的调控功能和对外界刺激的反应。该基因网具 有以下基本功能: n(a) 描述执行特定生物功能时所涉及到的整体基因交互 作用 n(b) 描述基因的蛋白质编码 n(c) 描述基因对外界刺激的传感途径 n(d) 通过一组反馈自动地稳定网络参数或者使网络转换 到新的功能状态 n(e) 利用外部信号、激素和代谢产物作为生理学参数激 发基因网纠正其作用 n该基因网描述了四类实体: n (a) 细胞(组织,器官) n (b) 蛋白质 n (c) 基因 n (d) 物质 n该基因网还描述了实体间两种关系: n(a) 反应(reaction), 即通过交互作用产生新的实体或 过程 n(b) 调控(regulatory)事件, 特定反应对实体的作用。 2.3 功能富集分析 功能富集分析定义 n功能富集分析(Functional Enrichment Analysis) 又称功能聚类分析,借助于各种生物学信息数据库(如 GO , KEGG, GENMAPP, BIACARTA, TRANSFAC, OMIM )和分析工具(如MAPPFinder, ArrayXPath)进行统 计分析,挖掘同差异表达或共表达这组感兴趣基因具 有显 著差异的功能类别。 n功能富集分析的统计原理是用超几何分布型来检验一 组基 因(共表达或差异表达)中某个功能类的显著性 ,并结合 多重假设检验 判断思想选择同这组基因显著 相关功能类别 MAPPFinder nMAPPFinder is a tool that creates a global gene- expression profile across all areas of biology by integrating the annotations of the Gene Ontology (GO) Project with the free software package nGenMAPP http:/www.GenMAPP.org. 可以整合GO 定义,产生整体的基因表达谱. 输出可以搜索 的浏览器,帮助用户快速识别代表性的差异表达 基因在GO的定义。 工作方式 Z值得计算 GOminer nGominer:最初Version在算法上虽亚于GenMAPP, 在再建立可视关系上(tree-like structure 和 directed acyclic graph)有其独特之处. n今年对Original Version进行较大改进,不仅可以 富集significant GO categories, 还可以同时对多 套芯片实验数据批量分析,控制假发现率FDR, 还 整合转录因子结合位点信息.综合而言, 尤其适合 TIME-COURSE功能富集分析 n需要建立当地Mysql数据库,建立JDB数据源 Pathway Explorer nPathwayExplorer:provides comprehensive and easily accessible representations of expression profiles onto major regulatory, metabolic and cellular pathways. The integrated pathway resources include KEGG, BioCarta and GenMAPP. nLocusLink was again used as root identifier. The LocusLinks are linked with the user-defined gene identifier groups (UniGene, GeneOntology, GenBank and/or RefSeq), which are used then to align the mapped gene IDs. nhttps:/pathwayexplorer.genome.tugraz.at ArrayXPath na web-based service for mapping and visualizing microarray gene-expression data for integrated biological pathway resources nWhen one inputs gene-expression clusters, ArrayXPath produces a list of the best matching pathways for each cluster napplied Fishers exact test and the false discovery rate (FDR) to evaluate

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论