ChIP-chip与ChIP-seq数据处理方法与分析平台_第1页
ChIP-chip与ChIP-seq数据处理方法与分析平台_第2页
ChIP-chip与ChIP-seq数据处理方法与分析平台_第3页
ChIP-chip与ChIP-seq数据处理方法与分析平台_第4页
ChIP-chip与ChIP-seq数据处理方法与分析平台_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、同济大学生物学前沿课程期末作业论文写作课期末作业综述题目:ChlP-chip与ChlP-seq数据处理方法与分析平台姓名:孙翰菲学号:1132995i同济大学生物学前沿课程期末作业第一章生物学背景知识1.1基因表达的调控从DNA到蛋白质,需要经过若干步骤。对于真核生物来说,基因表达的调控是多 级的,主要发生在4个彼此相互独立的水平上:转录水平的调控,加工水平的调控,翻译水平的调控,翻译后水平的调控。而转录水平的基因表达调控,是其中最重要的调控机制。1.2转录因子与组蛋白修饰转录因子(transcription factor)是一种特异识别某些 DNA序列与之结合的蛋白质。 调控DNA通过生成转

2、录因子来对靶 DNA序列(目标DNA )进行转录水平的调控,促 进或者抑制这些基因的转录。这个机制是非常复杂的,这是由于真核生活的转录因子 种类繁多,加上转录因子之间的相互作用造成的。真核生物转录因子调节基因转录的一种重要机制,就是调节染色质的结构,以影 响转录因子对启动子(promoter)的结合能力。转录因子能调节组蛋白 色质的一种成 分一 心的结构,或称使组蛋白修饰发生改变,从而改变核小体和染色质的紧密程度, 影响转录因子和RNA聚合酶(Pol II)对启动子的结合,调控基因的表达。转录因子从功能上可分为通用转录因子 (ge neral tran scriptio n factors)与

3、特异转录因 子(specific transcription factors)。通用转录因子与结合RNA 聚合酶的核心启动子(promoter)位点结合,而特异转录因子与特异基因的各种调控位点结合,促进或阻遏这 些基因的转录,目前已发现转录因子之间常常具有协同作用的能力。具有完整的启动子的大部分 DNA都可以起始基础水平的转录,这种基础水平的调 控,导致转录水平的上升(受激活因子作用)或下降(受抑制因子的作用)。一般情况下, 真核生物的基因转录还需要其他蛋白因子的参与,以帮助通用转录因子和RNA聚合酶在染色质上组装。这些辅助转录因子在DNA上的正调控元件,称为增强子(enhancer),因为它

4、们的存在能够明显加强目的基因的转录,增强子似乎没有方向性,无论在在启 动子上游还是下游,都不影响其增强基因转录的功能。另外还有一种负调控元件,称 作沉默子(silencer),与增强子作用相反。真核生物的转录因子调节基因转录的一种重要机制,就是调整染色质的结构,以 影响通用转录因子对启动子的结合能力。真核生物的遗传物质是以染色质而不是裸露 DNA的形式存在与细胞核中。而染色体的基本结构单位是核小体,由组蛋白核心(组蛋白八聚体)和包裹在其上长约147bp的DNA构成。如果基因的启动子位于核小体中, 组蛋白核心会阻碍通用转录因子在启动子上的组装以及Pol II与启动子的结合,使得基因转录难以进行。

5、组成核小体的组蛋白的核心部分状态大致是均一的,游离在外的N-端则可以受到 各种各样的修饰,包括组蛋白末端的乙酰化,甲基化1,磷酸化,泛素化,ADP核糖基化 等等,这些修饰的意义是改变染色质的结构,直接影响转录活性,或者使核小体表面 发生改变,使其他转录因子易于和染色质相互接触,间接影响转录活性。组蛋白修饰与转录因子关系密切:不仅组蛋白修饰能影响本区域对其他转录因子的 易结合性,转录因子的结合也能引起组蛋白修饰的变化。由于染色质结构紧密的地方,通用转录因子与 Pol II难以结合启动子区域,从而导 致此处的基因的转录活性降低;所以那些具有激活作用的转录因子,通常会有利于导致 染色质或组蛋白结构松

6、散的蛋白质发挥作用,如组蛋白乙酰化酶。而起抑制作用的转 录因子,则通常会加强那些促进染色质结构紧密的蛋白质的作用,如组蛋白去乙酰化 酶。1.3顺式作用元件与反式作用因子顺式作用元件(cis-acting element)或称顺式元件子,是存在于基因旁侧序列中能影 响基因表达的序列。顺式作用元件包括启动子、增强子、沉默子等,它们的作用是参与基因表达的调控。顺式作用元件本身不编码蛋白质,其作用是提供一个结合位点,反式作用因子通过结合在该位点上来改变结合处的特性,进而调控受此顺式作用元件影 响的基因。调控方式包括对基因转录可变剪切的调控、转录起始位点的调控以及转录 效率的调控。反式作用因子(tran

7、&acting factor)则是指通过直接结合或间接作用于 DNA、RNA等 核酸分子,对基因表达发挥不同调节作用(激活或抑制)的各类蛋白质,其本身对基因表达没有调控作用,只是阻断来自上、下游的调控效应。反式作用因子主要指能结合在 基因序列上的特异性蛋白质 一录因子,然而随着表观遗传学的发展,研究发现除了 蛋白,某些DNA,RNA片断也具有类似的调控功能,因此现在把它们算作反式作用因 子。如图1-1所示,为转录因子调控基因通路的两种方式:直接调控(图1-1 a)与间接调控(图1-1 b)。直接调控就是作为反式作用因子的转录因子(蓝色球形)结合在基因 的顺式作用元件区域(如启动子区域)

8、,调控该基因的表达,进而影响该基因生成的蛋 白质X的量。而在间接调控中,影响蛋白质 X的生成量的转录因子不结合在生成蛋白 质X的基因附近,而是结合在远离该区域的生成蛋白质丫的顺式作用元件区域,而蛋白质丫又是一种能直接调控蛋白质 X生成量的转录因子,通过这种方式,该转录因子 间接地调控了蛋白质X的生成量。Q | Protein XProtein X图1-1转录因子的两种调控模式(图片来源:Nature Reviews )1.4基因芯片技术与测序技术20世纪90年代建立起来的DNA芯片技术和最近发展起来的第二代 DNA测序技 术是高通量研究基因的结构和功能的两种比较重要的技术,推动了功能基因组和系

9、统生 物学研究的发展DNA芯片技术(DNA chip)是应用面积为2.0cm2或更小的晶片,在上面高密度的排 列着许多寡核苷酸,待测的DNA中加入荧光标记物,点到芯片表面,发出荧光信号的 位置表明寡核苷酸与待测 DNA发生杂交。荧光信号的位置与强弱经过转换,变为数据, 用于进一步的分析o相比较于DNA芯片技术,测序技术可以发现更多未知的信息,但是成本更高。高 通量测序技术(High throughput sequencing),又称下一代测序技术,是对传统测序的一 项重大改进,在一次实验中,可以读取 1G到14G的碱基数,其中蕴藏着丰富的信息4iMZbp罚天(200S)GA IIxS&

10、fZbp毎天(2009)Hi5eq 2000>2010)图1-2 Illumina测序仪数据量的增加(图片来源:川umina网站)随着数据量的大幅增长,如何处理这些海量数据就成了摆在研究者面前的挑战, 而生物信息学和统计学是在处理DNA芯片与测序技术产生的海量数据中必不可少的工具41.5 ChIP、ChIP-chip 与 ChIP-seq 技术ChlP(Chromatin immunoprecipitation,染色质免疫共沉淀)一种用主要于检测蛋白质 (包括转录因子,组蛋白)与DNA结合位置的技术。基本原理是在活细胞状态下通过处理,将蛋白质与DNA交联在一起,形成复合体,然后通过超声波

11、将其随机切断为 021.0 kb的染色质小片段,继而通过特异的抗体免 疫沉淀此复合体,将DNA片断的纯化与检测,从而获得受该蛋白质与DNA相互作用的信 息。它能真实、完整地反映结合在DNA序列上的调控蛋白,是目前确定与特定蛋白结合的基因组区域或确定与特定基因组区域结合的蛋白质的一种很好的方法5。过去ChIP实验的结果主要采用对PCR(聚合酶链式反应)扩增产物进行电泳分析的 方法,这种方法只能观测特定的几个目标基因。而 ChIP-chip和ChIP-seq技术的出现 则使得在全基因组上观测蛋白质与 DNA结合成为可能。ChIP与DNA芯片(chip)相结合,称作ChIP-chip (工作原理见图

12、1-3)。同样,ChIP 与高通量测序的整合,则被称作 ChIP-sec(工作流程见图1-4)。这两项技术可在全基因 组内确定特定蛋白质的DNA结合位点,从面为全基因组范围内研究目的蛋白的调控作用(顺式调控组)提供有效的方法。Is&alo nucleiSdentrfy target genesHypotesi?GdUnkncfiMature Reviews |5同济大学生物学前沿课程期末作业#同济大学生物学前沿课程期末作业图1-3 ChIP-chip实验原理图(图片来源:Nature Reviews)#同济大学生物学前沿课程期末作业相对于成本较低的ChlP-chip而言,ChlP-se

13、q有如下优势;第一,ChlP-Seq能实现真正的全基因组分析。而目前的芯片上固定的探针只能代表全基因组部分序列,所获得的杂交信息具有偏向性;第二,对于结合位点分析,ChIP-Seq通过寻找峰”结合分辨率可精确到10-30 bp, 而芯片上探针由于长度所限,无法精确定位,即使目前最高水平的商业芯片的分辨率也无 法比肩ChlP-Seq;第三,是所需样本数量。ChlP-chip需要多达4-5 yg的起始样本,在杂交之前需要 进行LM- PCR但可能导致背景增高,竞争性扩增等导致假阳性。而 ChlP-Seq仅需要纳 克级起始材料,如SOLiD起始材料可低至20ng。ChlP-seq数据由于测序工艺的缺

14、陷,会有高 GC含量区域读段数比实际值偏高的 问题。但是近两年来,随着测序成本的降低以及研究者对数据质量要求的提高,ChlP-seq 数据有明显的增长趋势。综上所述,虽然ChlP-chip实验成本低廉,而且也已经得到较广泛的应用,但是出 于数据质量的考虑以及目前ChlP-seq有逐步取代ChlP-chip技术的趋势,本文分析流程中以讨论分析使用Chip-seq技术产生的数据为主。图1-4 ChlP-seq技术工作流程图1.6本综述的目的和意义ChlP-chip和ChlP-seq实验技术广泛应用于研究组蛋白修饰、特定转录因子在基因 组范围内的顺式调控作用。在全基因组范围内,弄清蛋白质与 DNA的

15、相互作用,进而研究其如何调控基因表达,对于我们探讨各种生物过程和疾病状态是非常重要的。而将 大量的蛋白-DNA相互作用信息进行整合,则是建立整个细胞内的基因表达调控网络,以 及进一步阐明信号通路与生物分子功能的基础之上。在基因组层次上如何分析、整合及阐释高通量数据已成为表观遗传组学中顺式作 用元件研究的瓶颈。本论文的目的在于构建顺式作用元件的综合分析系统,建立ChlP-seq数据质量控制的标准化流程,开发并维护一些对于不同顺式作用元件进行分析的生 物信息学工具,以用于研究转录因子与组蛋白修饰之间的相互作用及其在基因转录调控网络中的协同功能。第二章ChlP-chip与ChlP-seq数据分析面临

16、的挑战2.1实验数据分析的软件层面上的挑战在过去的数十年里,技术的提升使得研究者得以将过去只能在几个特定基因上完 成的实验扩展到全基因组的规模上,这同时也带来了一些挑战。随着生物芯片技术,测序技术工艺的提高与成本的降低 ,自2000年来,癌症相关的 ChlP-chip和ChlP-seq数据越来越多。同时,公有领域上的(Public Domain)各生物学数据 库在不断完善,新的处理ChlP-seq数据的算法和分析ChlP-seq数据的方法论也在不断 涌现。然而,与之相对的是,目前缺乏对这些 ChIP实验的数据、工具以及分析流程的整 合。数据方面,GEO,SRA等常用的生物数据库虽然保存这大部分

17、公开的ChIP实验的数据,但由于这类数据库收集的实验类型的广泛性以及ChIP实验本身的特殊性,一些ChIP实验中很重要的信息,如抗体,转录因子名,细胞系名称等常常没有明确指出, 研究者常常需要查阅该数据的对应文章才能准确地了解这些信息。工具方面,虽然数 量很多,但是却存在不同操作系统之间的兼容性问题,以及不同工具的编译、安装、 使用与更新方式的复杂性问题。分析流程方面,数据分析常常要多个工具配合使用才 能得到最终结果,这些配合使用的过程,也就是分析流程,存在着很多固有的模式,而对这些模式,却很少有相关的分析和总结。对于数据分析者而言,至少有两项任务 (1)分析数据(2)将分析结果发表成文章。举

18、 例来说,一些公认的测序质量好的实验数据会被分析许多次,期间会多次修改分析手 段和分析参数,有时甚至会有实验数据的更新,这些修改的尝试将一直持续到最终实 验结果的产生。然而,在将这些结果发表成文章的时候,对这些分析过程中的细节的 描述往往是不够的,比如分析数据的代码可能就找不到了。可重复性研究被人们提出过很多次,可是生物信息学中的一些分析结果却依然存 在难以重复的问题,某些细小的参数差异就可能导致无法重现原分析的结果。即使是 有些健壮性(robust)很强的结果,由于其中用到了多种不同的软件和人工处理的结合, 却缺少对于此一过程精确细节的标准化描述,也使得其他研究者难以重现这一结果。很多时候,

19、分析人员还需要快速手动编写脚本程序来对实验数据进行处理,这些 脚本程序的运行通常是一次性的,因而常常难以保存下来,其中可能隐藏着一些难以 发现的错误,这也给数据分析的可重复性带来了困难。尽管目前有许多实用的分析工具可以免费下载和使用,并且开放源代码,但是这 些命令行运行的程序的安装和使用方法的不一致性都给没有编程经验的研究者造成不 便。由于这些工具是用不同的编程语言编写的(Pytho n,c,java,perl,R,shell),想在编程的层面将这些工具进行健壮的整合存在着不便。此外,不同的中心产生的数据格式不同,有些分析工具要求数据是某种特定的格式 或者要求将不同类型的数据合在一起。因此 ,

20、在一项分析中重新整理数据格式和整合不 同类型数据是非常耗时的。例如,二代测序公司产生的原始序列数据格式就不是平台统 一的,因为包含核苷酸序列 及其对应的质量值的简单文本文件并不存在一个业内公认的 标准,针对跨平台的序列数据分析要求适应于特定平台的工具。由以上几点看来,开发出可以在不同计算机平台下(采用哪个平台取决于该平台是否 最适用于给定的应用)可交互分析的工具集,然后将这些工具串在一起形成分析流水线 (an alysis pipeli ne)是非常重要的。2.2实验数据分析的硬件层面上的挑战理解生物系统的运转机理需要整合高通量技术产生的多维的生物学信息。举例来 说,千人基因组计划产生的数据量

21、就将数据量推进到TB级。而第三代测序技术快速产生的海量的多维数据将使这种情况更加恶化。对于数据传输、访问控制和管理,假定DNA、RNA和其它感兴趣的变量之间的所有关系被存储和挖掘的话,分析结果会比原始数据显著增加。因此,有效地在网络上移 动这些大数据集、为降低存储代价而集中存储数据并提供访问控制以及为加快分析而 正确地组织大规模数据非常重要。以目前的网速,要在网络上随意传输 TB级的数据还很困难。传输大量数据最有效的模式是把这些数据拷贝到一个大的存储硬盘上,然后把硬盘邮寄到目的地。然而,这种方法相当低效,并且对于团队及时交换数据来说,是一个 很大的障碍。解决方案就是集中存储这些数据集,并且为之

22、提供高性能的计算。尽管这个方案非常诱人,但却由此产生了访问控制的问题,因为产生数据的团队想在数据发表之 前控制对谁能访问数据保留控制权。20另外,对大数据的访问控制需要IT支持。例如,在比较多个肿瘤样本与其肿瘤旁边 的正常组织样本的全基因组测序数据时,我们就会发现,在管理和组织大数据集时,非 常需要数据挖掘的技能。如果我们对数据组织不当,那么仅仅获取所有成对样本的序列 数据,并将其比对到基因组上不同的区域就不是一件轻松的事情。生命科学研究者最主要的目标就是整合多种大规模数据集以构建能预测复杂表型,如疾病的模型。如上文提及的,构建可用于预测的模型依赖于大量的计算。例如,使用大规模DNA、 RNA

23、、DNA-蛋白绑定、蛋白质交互作用、代谢物和其它类型数据来重构 贝叶斯网络模型。随着数据规模和多样性的增加,这种类型的建模对于真实反映复杂系 统以及预测系统行为也会越来 越重要。然而,在计算上这种建模需求是一个 NP hard的 问题(2-1)。通过搜索所有的可能性来找到最佳贝叶斯网络是一个相当复杂的过程。甚至在只有十个基因(或者说节点)的情况下,可能的网络的数量级是1018。节点数目增加, 可能网络的数目也以超指数增加。在生命科学领域,目前可以提供的计算机环境还远远不能满足组织海量数据并根据这些数据构建复杂模型,以及从现有模型和数据中诠释出 更多有价值信息的需求。生物教粧#存储主检数据甲图2

24、-1生物数据增加与计算量的增加速度(图片来源: Nature Reviews Genetics)2.3目前的几种生物平台生物分析平台是在整合分析工具的基础上,依托计算服务器机群,运用软件工程 技术,具有用户管理和数据可视化功能的操作环境。目前存在着 Galaxy10, GenePatterK", GenomeQuest,UCSC, DNAnexus 等几种生物 分析平台,这些平台基于 web网页实现,具有对于不同操作系统的兼容性,然而一些 局限性依然存在,比如过去通过编写脚本可以快速实现的功能,使用平台上的标准工 具包完成就比较繁琐。但无论如何,这些平台从不同程度上提供了实现工具标准

25、化的 可能性。图2-2所示为由Broad Institute开发的GenePattern生物分析平台的主界面,该平台 可以免费使用和下载,平台提供了用于基因表达分析,蛋白质组分析,SNP分析,流式细胞仪,RNA-seq分析与常见的数据处理分析的 150多个工具。该分析平台具有对 应微软Word插件,可将分析流程以标准化的形式添加到doc文档中。'GenePatternDownaadBH-l|料Hu*# apwimMor覚HMvrtl Mn U pto«diujIca-KHeaniClufiterirug向!如输pyOpffl 9*1 | CtOrH1* IU<tM4r

26、U>lt4- AnnoEstaon CcnEiMjer 口 utftcnragi CcnuHiMBfltEiWig半 Hie nrdhn I mrbcinng» KMe ati9dKsXEf1ng» NrMFCnKniW» SOMOuitmfli $ci|K4*Hin vroiiACMWW rSdbM4|>-a«fji FothihiA CMwarwhui» 中甲* ExprlbGa P./q阳3i+ FcsTbCsu» FpkrnJriMSunglfepGct*n FnTROd:.SirnMvvi.SamTFasLii

27、Tnw'MdFlow Cytcmietnrr FLAKChMI#al血1 FUFCaroudDaGEmerabDT mqwrarfflrtdInput ffcnatnne"wkpyb 轉 n*mf *iMimbe* of clurfera.*seed vailue"cluslar &v*i: '如-I - IH 'R«et|rwrt«& | uport | FwSelect d 5lr»gle 论 urKter 2GB to gload. ?E*y VRL He U plw9iripuLAIerMNTie

28、.tWiefMrne.KMc Is【戳.oiMputTTlt l»逐 oucpx riki 常kflip -.护.Number of cdwraG |*duEW£|12345row5EuCiidedfi :.FLAMetatlusher .FUF»llftLreMDdK4 FLAMERnep-DCE55| Mp图2-2 Gen ePattern生物分析平台图2-3所示为DNAnexus平台的分析工具界面,该平台主要侧重于下一代测序技术的数据分析,提供部分功能的免费使用。2011年10月,DNAnexus从GoogleVentures和TPG Biotech获得了

29、1500万美元的投资,用来取代美国政府的国家生物技 术信息中心(NCBI)。未来,DNAnexus将使用Google的云服务。11同济大学生物学前沿课程期末作业#同济大学生物学前沿课程期末作业图2-3 DNAnexus分析平台#同济大学生物学前沿课程期末作业第三章数据分析流程的建立3.1 ChIP -seq原始数据的来源基因表达综合数据库 GEO(Gene Expression Omnibus)是NCBI下的一个的基因表 达的大型数据库,其最大功能是用来储存和检索公开的高通量基因表达和基因组杂交 数据。当文章在科学文献上发表后,其中所产生的高通量实验数据就将放在公有领域 上,供其他研究者免费下

30、载,使得实验数据中的海量信息能够被多次分析与进一步挖 掘12 oGEO的目标是尽量最大范围地涵盖可能的高通量实验方法,虽然具有定义数据信 息的模板,但由于这些数据信息是上传者输入的,因而常常会造成一些数据信息的不 完整和不一致,而这也是我们建立Cistrome生物分析平台的主要目的之一:专门收集ChIP实验数据并定期更新,同时建立顺式作用元件数据库,相对与 GEO而言,这个 数据库应该对ChIP实验数据更有针对性。如图3-1所示为GEO数据库的数据集信息显示界面,包含数据的上传时间,标题, 物种,实验类型,文章摘要,文章引用,实验设计,下载地址等信息。而在图中所示 的实验信息中,ChIP-se

31、q实验中比较重要的转录因子名称,使用抗体名称,细胞系名 称等信息均为单独列出,而是包含在摘要部分。这给ChIP-chip和ChIP-seq实验数据的整合带来了困难。12同济大学生物学前沿课程期末作业13同济大学生物学前沿课程期末作业N"R" - C-FQ Arrovlnn pkplay TNet legged in | L 血弹 何|寸 Format: htmlArnount:Quiet J GEO accmion: |GSE2217PGEQ hellp: Moleo everehmana Fsp informNicn.Query DataJJetg 4or GSE2217

32、8Stop*5erlas GSE2217BStatusTWOO'janism experiment type Summary?ubic 叩 Oct Q7, 2D1Dcombinatonal Tansrptional G&ntrol m Blooa stam/Proonitw £朝忙: GmomcKH Viayss at io ma)or irnstripciopal RcqularorsMus rrtusculusGtiwme tndlrg/occijpcncy pr&fting by high throughput seauericingL&mbin

33、atonat cranscnption factor Th; intcradbixi cantro caluiar ph©n或$p朗 arid trmrtn undorpir ccom cal 旳rmactac, mantarianca and dmrwitiation. Horo roport tha 9cnoni4-hidc binding patterns and comblnafonv mtcraacionE Tor 10 rvgui mote of tfood Aom/proganitor »Nf (Sci/UH AyihHunxi, MeisLh puJj Er

34、g,. Fii-LH Gfil口】thus prQvidrflthft nnwr comprehanjivfl tf daUiOt ft)r "叫 Adurt tta-TKproqenltor ui HP* to date. gnoniQwitfe 3«nputAtlonjl arulyv偉 or campler bndlr pactfn Toluwed 納 fLin<ticna jtA dat on rmvEdltd lh& ro比 ng: Fir&L. a prtk>ulynLnizMl comtilndLoria irtLcliofi tK

35、dtien a heptad ot TFi (Scl, LyiLH Uno” Gctd2, ftunxi ErgFll-1). Setjnd, wt lmphtd:m dirjeL praltln-proCaln inttrdtlkJiib bet拆甘en four key regulators Run)itH Go La 2,刍匚 I# Erg) In sluhilmlng cnfnplvj t> riding to DNA_ Th rdj Hl n s 1 +/*. Gala 2 -/ torn poundmike art not 加匪 with Mfvwis'ltfKiir

36、topoi-t't (Xts nt別 qht limit rogt-lht-r; thi、stu內 Oman貞/产tlik powi-r nr 呼nom?-wi4 nnNRK in pnprntirig nnvf?i MrcJian® irisqlits ntc the troFivript-innDl control of tfvrn end pn>9eriihxO/ral)廿西 gn10(9 PanicnptKTi Factors ano 1 Hirtone Maancatiori 1 Cuntro(lyG). All 他ni 讪H bdfit c*ll 的巧 d

37、hddmdtOpCktiL 尸冯旧此Of C«l> Hn« (HPC-7).Cmtributots)匚 Eauonig:)Witson nk, FMter £D” wanq £ Kriezew K, Schutt酋 J, Kinston £ Ouwehand wh, OKjrzak t, 'imanda Jt, de Hruijn MF, Gcttgcns aa ton NK, FMt©r bD, ?anq x, Kn逊wit k.ai. ccmEUftStoriai transcnpconaicunlr&l H

38、 biexjd btir/fogenKtir CfiH: AomeMkde andty&ls of Lai mAjtf trariHflpUundl riMOrs. Cvif Stem CaH 2010 Oct &7(4);532-441JMFD 2&8879SSubmission aatcLdmt upcaz dateContact nameE-mail Jun 07, 2010Nay C6, 2011gpmuFl Zki jid astpr ztRlcam ac.uk图3-1 GEO数据库如图3-2所示为Cistrome分析平台的数据收集界面,不仅包含数据的上传时间

39、, 标题,物种,实验类型,文章引用,实验设计,下载地址等信息,还通过人工的方式 统计了各实验数据所使用的组织类型,细胞类型,细胞系名称,疾病状况等信息,这 样将为数据的整合、检索带来便利,同时也为后面的数据分析流程提供了很好的数据 来源信息的参照。14同济大学生物学前沿课程期末作业Login: |PsssftOTSqlog TC i st r 0 rue M aHMBenE W!vwwinnmwimubvmbfw|>> 1 - 1 i s , aim- l. i-ur-'u i.,Somtoi inwrnfiiEmpioiw rw wfWYlQf IfWiClvirome

40、DC:Paperft:SCarrh CliVTorrw E3CSun 金 Pwrs1AAithoradTKelJekiittuiIIDhieIRatin gll LbM Vliewd 1Help:WarrMl£ Hjf Schrrna D Ma-re Tb* EJt8ii-sj CNC Homo*jyy 1 .JL Biol 6f,201V0frJ7a PQffrWlEdhA Sh.GuoX.W 1 B Sh.A Ltt*ge Gene Nwmctk in 1側颅.PLoSGenec.Mil M HPC ErmZ-k L.Cimwv EA.pfln»bnn Intflgro

41、sKi jfnfflnfbwidi biro*Huclvc Acin P».Ssbdai JiGkarDmupojlDE S .Higih-rMu4k>i grrWRiB-widaBimdM11-OT-10Lienert F.Mohn FTrfrar VK Geirorrc PrHvalencje of l-ete1-.PLdS Genet.Ml1-Ce-09Wb H.D AJeisiu ACflO S,X4.Dual lurtdions & Teti n L,2OH-06-19K,OhriBt&ftBSrt J,?*.IET1 and ldfc£Br

42、yma<rrylcy to*.Nfllure2011 Ofl-10Ninclw A.P«KzittMl0-flQgic.RAD21 coqwwtM wM pluit,.PLdSOME201106-18Lnri BK.Bhingo AA-lyer VRVi/ida-rarininQ luncionK 出 ENudvit Acioe Rhs.20110600EfH J,KliBradpcur P.ll- k«el.Mapping and anaiyss of chr._NbILTE!SCHISM|血;RAD21 CC'Qfue'fLtBEi wifi pi

43、n耳I世品ncy IraJiscipan Ituctors rt LP rwiirlar日figb < erroryuni stem mW idEitrtyaAuNharc.Nitocht 氐戸阿曲心乩冋口典口 虬吋同屮理 EJirsBiw-MiiBsms EMIHuMh NCSchutr H d« Vriw I.Ding LHus&twt MMinn MiShjnnen£iErg HG.BudhD FAmirsiFo? ser'-reflfiiih oeIm财闻 item wite (ESC】硏口昨 the 聊erf ape盘he trarsertp

44、riori labors 陆ceorn阿田讯 时.paftdcuiar chromoscMmo or(jsnlzal<yi tomaritauni a ha-anoo tetw«or plunpcMoncy and 酋庖 opacity tar tapid altlorgntiatcxn Homww, how transtr jiliofiai rguiixir s ferted Its chrom&s&fflft orgnrjabori iESC$ 略 rot E urK-Brsod Hbtb 畑 shmy that He sohesln Bfpwnn A A

45、D 21 «hltn iundfl ror« In niatntMning ESC ia»nctiy iheuQh auawbofi wWi the plufipcwncy nnacriDdoral netwoA, ChlFaeq ans粗os oF RhWS1an BBC RpKlfc cohesin 3曲g pfitiem 亦事価 chkargriMid by CTOF l»d郎Nndmco-kKsilzfitior dF cohesrfi 潸脑 pMripatertcy re览IM 1r日甜财on 怕ctors Oct4, Nanog. So硬.E

46、srrb and K.f*. upon ESC dflererflialion most of (hese binding st«s.and insHwa ngw CTCF inwpflndH RAD21 Mnciing;剧伽. whch are eratfrt lorbinding iilniffflT9nKfipi«H facri inric«M in tari> dhfhrvWwr Fyrtlwmwf Knock-clcwn of F1AD21 chaj-wb *xpr«i«in dnsnges that Era smiar Ed

47、EiprBssiQn dhanges after Namg deplFtitsn. defronst-! iq the functionBl rEtevsnce cfI the HADS'l-ptjrlpoCBricjf iraneajliDrial network BssotiBtnn. Rualf, we mricw !ib' Mainog phyakxdly lEe 伯 cts 嘛也 Uie co he sin nr cohesb nlwactingipncfliiiris STAG1 sndiWAPL 怕你軻 itub罰nEqpriQ 和* MKKMitcir. Baw

48、d or ttwi* 恤呼53 啊 propow thwl a(Jyn*flnic glpCTnwnC of «hwir by ur pgieiicy twiSCnFbpi 195妁韦*响ibul卵 to 重 MnSEQWF MjsriMliM SUB Kng th® ESC 鹤prfl諒Qn prograTi.Pubrwi ID 创 bflBBGPQFO 站ED: GSEf40 if dir PLoS ONEBgi 叱 201M5-1BFacto* ri:SamplHti;G5WOHI"FtatMgCftM83Xi?<TGSHffW?4aGSW5914fG

49、SMMIMTOMFTfl1471GSMsgiiTt图3-2 Cistrome数据收集部分的界面3.2 Cistrome分析平台简介Cistrome平台基于开源平台Galaxy开发,在Galaxy标准工具包的基础上,添加了 30多个分析ChIP数据的工具包,与此同时,按照分析流程(analysis pipeline)对这些工具包进行了整合,同时对所有 ChIP数据进行了收集(data collection)。Cistrome平台运行于linux系统的服务器端,需要预先安装sqlite3, mysql, postgreSQL等数据库以及Python用于科学运算的包 Scipy, Numpy,以及R

50、语言一 种用于统计的编程语言 一的生物学数据处理相关包。Cistrome的底层是由Django实现的,可以使用 Apache或Nginx来加载,每一个 用户提交的任务都被当作一个实例,程序运行的中间结果放置在一个个独立的文件夹 里临时保管或永久存档。Cistrome的所有工具模块都是通过 xml文件格式来管理载入的,为添加工具和扩 展功能提供便利。3.3 Chip -seq 数据分析流程(analysis pipeline)的实现对于ChIP-seq数据分析的质量控制与初步处理,具体流程如图 3-3所示I 罢若基丙组序列比对3峰榆测(ppak calling峰的保守性曲我44侏守性检测(con

51、servoton)强度信息(rriomlinding7 一基因本体论(Gere Ontology)图3-3 Chip-seq数据分析质量控制与初步处理流程图3.3.1参考基因组序列比对目前有多种序列比对工具(read aligner),但是Bowtie是其中最快的而内存应用效 率很高的佼佼者,它采用一种称作Burrow-Wheeler变换(BWT)的压缩算法对参考基因 组序列进行索引,使用大约 2.2GB (2.9GB用于双末端测序)的内存,就可完成人类基 因组的序列比对。每小时可以比对超过 25,000,000段长度为35bp(base pair)的DNA序 列13。Bowtie还可以同时启

52、动多个线程来加快速度,这对于多核 CPU来说尤为重要。无论从哪个方面来看,Bowtie都很合适,因此本流程采用 Bowtie完成序列的比对 这项工作。经过比对之后,原始的测序读段将带有其在基因组中的位置信息,或者说,该测 序读段被回帖(align)到了基因组中。Bowtie生成的文件为SAM格式的文件,通常需要占用数 GB的硬盘空间,可以使 用Samtools将该SAM文件压缩成BAM文件,可以节约一半以上的空间。3.3.2测序质量检测经过比对之后,可以得到测序读段的位置信息。但是对于测序的质量还需要一些 手段来进行检测,以保证测序的可靠性。我写了一个小脚本,可以调用基因组比对工 具完成流程1

53、,并可以完成之后的测序比对结果的统计功能,接下来画出读段上不同位 置的可靠性分数曲线和可靠性分数的分布图。代码的框架部分如下(Python代码):def main():MSG_USAGE = "myprog -j vjobname>-b <bwaname>-a vfastaname>$q <fast qn ame> arg1, arg2"#命令行使用方式的说明Bwa=BwaA nalasis(opts.job name,opts.bwa name,opts.fasta name,opts.fast qname#输入所需的fasta和fas

54、tq数据,并进行初始化的检测Bwa.FCD()#完成序列的比对,读段数的统计,并画图classBwaA nalasis:def FCD(self):self.fast2sam()#将fast文件转换成带有位置信息的sam文件,即进行序列比对self.co un t_reads()#对结果sam文件中的每一行读段信息进行统计self.quality_bp()#绘制读段位置-分数分布图self.quality_pos()#绘制分数-读段数分布图终端输出结果如下:# reads processed: 13,133,846# reads with at least o ne reported alig

55、 nment: 7,247,893 (55.18%)# reads that failed to align: 2,153,731 (16.40%)# reads with alig nments suppressed due tom: 3,732,222 (28.42%)# reads alig ned un iquely:6,078,344(46.28%)这表明用于比对的读段总共有 13133846个,至少能比对到全基因组某个位置的有 7247893个,由于碱基错配未能正确比对的读段有3732222个,而比对失败的读段有2153731个,而比对到单一序列的读段有 6078344个。可视化的

56、输出结果如图3-4所示,在读段数-测序质量分数分布图(图3-4左图) 中,读段数在58分附近达到峰值。而在测序质量分数-碱基位置分布图(图3-4右图) 中,可以看出,测序分数随位置的增大呈递减趋势,说明测序位点离测序的起始端越 远,测序结果的可靠性越低。这两幅图的趋势受不同测序工艺的影响,可以用于初步 了解测序结果的质量好坏。Raadl csunte verfrus quiSUitYdistiribubafi5?0ualitw ft&oce ve-rAuB baMpair position dislrihution图3-4读段数-测序质量分数分布图(左)与测序质量分数-碱基位置分布图(

57、右)3.3.3 峰检测(peak calling)峰检测(peak calling),是一种用于鉴别读段数特别集中的区域的手段,在本流程中, 选用了 MACS(Model-based Analysis of ChlP-Sec)软件。MACS软件基于模型来进行峰 检测,运用泊松分布来计算结合位置的偏差。MACS运行过程中,会自动绘制峰检测模型的曲线图14。如图3-5所示,测序读段峰检测原理图(图 3-5左图)是测序读段与结合位点的简要关系图,由于测序工艺的影响,实际的结合位点(蓝色星形)往往位于正向读段聚集处与反向读段聚集处(红色矩形)的中心位置,MACS正是基于这一现象建立模型。在MACS峰检测峰信号模型图中(图 3-5右图),正向读段模型(红色曲线)和反向读段模 型(蓝色曲线

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论