




已阅读5页,还剩58页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于Hi-C数据的单倍型三维空间结构及功能分析华中农业大学硕士学位论文基于Hi-C数据的单倍型三维空间结构及功能分析Hi-C derived data for haplotype three-dimensional structureand function analysis研究生:崔望 学号: 2012304110203指导教师:张红雨教授 指导小组:张红雨教授 陈玲玲教授 孔德信教授 马彬广副教授 彭城副教授专业:生物信息学研究方向:系统生物学获得学位名称:理学硕士获得学位时间: 2015年6月26日华中农业大学信息学院 二O 五年六月丨麵s华中农业大学学位论文独创性声明及使用授权书学位论文 是否保密如需保密,解密时间年月曰独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成 果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发 表或撰写过的研究成果,也不包含为获得华中农业大学或其他教育机构的学位或证书 商使用过的材料,指导教师对此进行了审定与我一同工作的同志对本研究所做的任 何贡献均已在论文中做了明确的说明,并表示了谢意。研究生签名:时间:年 r月ii日学位论文使用授权书本人完全了解华中农业大学关于保存、使用学位论文的瘦定,即学生必须按照学 校要求提交学位论文的印刷本和电子版本:学校有权保存提交论文的印刷版和电子版, 并提供目录裣索和阂览服务,可以采用影印、缩印或扫描等复制手段保存、汇编学位 沧文本人同意华中农业大学可以用不同方式在不同煤体上发表、传播学位论文的全 部或部分内容,为存在馆际合作关系的兄弟高校用户提供文献传递和交换服务,同时 本人保留在其他媒体发表论文的权力。注:保密学位论文(即涉及技术秘密、商业秘密或申请专利等潜在需要提交保密的论 文)在解密后适用于本授权书。学&论文作者签名: Vi 签名日期:#年丨月j日万方数据目录S I摘要iAbstractii缩略语表iv1ItTs11.1测序技术的发展和单倍型的组装11.1.1测序技术的发展11.1.2单倍型组装的方法31.2单倍型的应用及成果41.3染色质构象捕获技术51.4研究内容92单倍型染色质交互数据的处理102.1引言102.2材料及方法102.2.1数据的整理准备102.2.2构建单倍型父母本基因组112.2.3单倍型Hi-C数据的处理112.2.4传统方案112.2.5改进方案122.2.6构建单倍型染色质交互热图132.2.7评估单倍型染色质交互矩阵的相似性132.3结果与分析132.3.1传统方案的结果分析132.3.2改进方案的结果分析172.3.3传统方案与改进方案结果的比较182.3.4两方案所得交互数据不一致的原因分析182.3.5单倍型交互热图202.3.6评估单倍型结构的相似性232.4/243单倍型染色质结构改变区域的序列特征的研究253.1弓 IW253.2材料及方法26基于Hi-C数据的单倍型三维空间结构及功能分析3.2.1数据的整理准备263.2.2研究方法263.3结果与分析273.3.1单倍型交互值改变量同单倍型SNP密度的关系273.3.2单倍型交互值改变量同基因密度的关系293.3.3单倍型交互值改变量同单倍型SNP突变类型和方向的关系.303.3.4单倍型交互值改变量同单倍型二联体类型的关系313.3.5不同功能单位单倍型SNP数目和交互值改变量的统计323.4小结334单倍型染色质结构与表达调控的关联分析344.1 s344.2材料及方法344.2.1数据的整理准备344.2.2单倍型染色质有效交互信息的提取344.2.3基因表达RNA-Seq数据的处理354.2.4转录因子和组蛋白修饰的ChIP-Seq数据的处理354.2.5DNA甲基化数据的收集处理354.2.6关联分析364.3结果与分析374.3.1转录因子、组蛋白修饰以及表达与染色质结构的特异性统计.374.3.2单倍型染色质结构与表达调控的关联统计384.4小结41542参考文献43附录47Etf52摘要随着测序技术的蓬勃发展,国际科研机构,如1000 Genomes和HapMap,陆 续启动了关于单倍型的研究项目,包括单倍型的组装、等位基因的特异性表达以及 自然遗传变异的亲本传递效应等。这些研宄揭示了单倍型的个体差异,群体的偏好 以及对于疾病的潜在调控作用,使人们对于单倍型及其功能有了初步的认识。然而 染色质构象捕获技术Hi-C实验和FISH实验发现,处于细胞分裂间期的同源染色 体在细胞核中占据着相对独立的空间位置,形成了染色质域(chromosome territory)。 此外,最新相关实验也表明染色质三维空间结构对于基因表达具有重要调控作用。 这些最新研宄成果暗示着单倍型的三维空间构象对于生物功能起着重要作用,因此 本课题研宄内容为单倍型三维空间构象的特征及调控作用,如同源染色质具有怎样 的三维空间结构差异,这种结构差异对等位基因特异性表达的调控作用及其潜在分 子机理等。针对上述问题,本论文对模式生物人类和小鼠的高通量染色质构象捕获技术 Hi-C数据进行研宄,揭示了单倍型染色质三维空间结构的特征及其对等位基因特异 性表达的调控作用。首先,本论文构建了基于Hi-C的单倍型染色质交互数据处理 流程。它能根据HapMap和1000 Genome项目中已经构建好的单倍型SNP信息 对染色质交互数据进行有效地处理,获得可靠的单倍型交互数据。其次,本论文探 讨了自然遗传变异对单倍型染色质三维空间结构的影响。通过研究发现自然遗传变 异对基因富集区域以及C和G碱基改变较大的染色质区域的结构影响较大,表明 单倍型序列的改变对其三维空间结构具有影响。最后,为了进一步阐述自然遗传变 异对三维空间结构改变的分子机理及其对等位基因特异性表达的调控作用,本论文 对单倍型染色质三维空间结构与等位基因的转录因子结合、表观遗传修饰及特异性 表达进行了关联分析。结果表明它们之间存在着一定的相关性,自然遗传变异造成 的调控和修饰信号改变能够引起染色质交互的改变,即造成了单倍型结构的改变, 从而对等位基因特异性表达起到调控作用。关键词:单倍型;Hi-C;特异性表达;表观修饰;转录调控AbstractWith the growth of sequencing technology, international research projects such as 1000 Genomes and HapMap have launched studies regarding haplotypes,including haplotype assembly, allele-specific expression and parental transmission-related sequence variation. These projects show that haplotypes exhibit individual differences,group preferences, and disease regulation potential,deepening our understanding regarding haplotypes and their functions. Additionally, the latest Hi-C and FISH experiments have revealed that homologous chromosomes occupy relatively independent spatial domains in the nucleus, forming chromosome territories during cell division. The latest experiments have also demonstrated that the three-dimensional spatial structure of chromatin plays an important role in regulating gene expression. Taken together,these results imply that the three-dimensional structures of haplotypes have important roles in biological functions; thus,the characteristics and regulation of haplotypes should be studied in three-dimensional space. Specifically, the three-dimensional structural differences between homologous chromosomes, the potential molecular mechanisms of these differences,and their effects on regulating allele-specific expression should be examined.To explore these problems,this dissertation studied the structural characteristics and regulatory functions of haplotypes in human and mouse species using Hi-C data. First, this dissertation built a computational pipeline to process allele-specific Hi-C chromatin interaction data. Our pipeline can effectively determine reliable haplotype chromatin interactions based on SNPs that have been built by HapMap and 1000 Genome Projects. Second, this dissertation discussed the effect of sequence variation on the three-dimensional structures of haplotypes. We found that DNA variations in gene-rich regions or mutations involving C and G bases have greater effects on chromatin structural reorganization, suggesting the effect of specific DNA variations on the three-dimensional structures of haplotypes. Finally,to investigate the molecular mechanisms of the effects of DNA variations on three-dimensional structural changes and their regulatory roles in allele-specific expression further, this dissertation presents a correlation analysis between allele-specific chromatin interactions and allele-specific transcription factor binding, epigenetic modifications and gene expression. The significant correlations found imply that the DNA variation-induced regulatory changes, particularly TF binding and epigenomic modifications, can result in reorganizing haplotype enhancer-promoter chromatin interactions, which eventually lead to allele-specific expression.Keywords: Haplotype; Hi-C; Allele-specific expression; Epigenetic modifications; Transcriptional regulation万方数据华中农业大学2015届硕士研宄生学位论文缩略语表缩写全称AbbreviationFull name3CChromosome Conformation Capture technology4CChromosome Conformation Capture-on-Chip technology5CChromosome Conformation Capture Carbon Copy technologyTCCTethered Chromosome Conformation CaptureChlA-PETChromatin Interaction Analysis by Paired-End Tag SequencingFISHFluorescent in situ HybridizationASBAllele special bindingASEAllele special expressioncisInteraction in cis within a homologueh-transInteraction in trans between homologous chromosomesCTsChromosome territoryENCODEEncyclopedia of DNA ElementsGRO-SeqGlobal Run-On SequencingSNPSingle Nucleotide Polymorphism万方数据#基于Hi-C数据的单倍型三维空间结构及功能分析万方数据1刖51.1测序技术的发展和单倍型的组装 1.1.1测序技术的发展桑格测序被称为第一代测序技术,新一代的测序技术被称作为二代测序技术 (NGS),它依赖于模板的准备、测序和成像、以及基因组的比对和组装等方法的结 合(VeCOli2015)。相对于第一代测序,第二代测序技术具有通量高和费用低等显著 优势。因此,二代测序技术蓬勃发展,大量的序列数据被收集。二代测序的重要应 用领域包含全基因组或靶定区域的变体的发现(Holt扣a/. 2008, Wold and Myers 2008, Nusbaum et al. 2009), 一些细菌或者较小的真核生物基因组的从头测序 (Hofreuter et al. 2006, Ossowski et al. 2008, Srivatsan et al. 2008),细胞、组织或者器 官的转录组研究(RNA-Seq) (Wang et al. 2009),全基因组的表观标记、染色质结 构或者转录因子作用位点的研究(ChiP-Seq) (Park 2009),一些其它的基于序列的 方法(Methyl-Seq,DNase-Seq,GRO-Seq 等)(Guo扣a/. 2008, Wold and Myers 2008), 以及物种的分类和基因的发现等(Wold and Myers 2008, Metzker 2010)。在测序技术的发展下,大批量的数据被收集,应运而生的是许多数据库的开发 和研究计划的开展,例如,众所周知的ENCODE (Encyclopedia of DNA Elements; DNA元件百科全书)计划。截至2012年,该计划己获得并分析了超过15 TB的数 据(Siggens and Ekwall 2014)。另夕卜,还有 1000 Genomes 和 HapMap 计划等。1000 Genomes始于2008年2月,旨在对人基因组序列变体提供一个深入的描 述,因而能为研究基因型和表型的关联提供基础。它能够提高研究者们对遗传变体 在人类历史、进化和疾病中作用的理解。1000 Genomes采用了一种低覆盖的全基因 组测序和高覆盖的外显子测序的结合方法,构建了 14个人种1092个个体的基因 组,提供了确定的38000000个 SNPs (Single Nucleotide Polymorphism;单核苷酸多 态性),1400000个小的插入和缺失以及超过14000个大的缺失的单倍型图谱(Xue etal. 2012)。HapMap是在2002年发起的,由日本、英国、加拿大、中国、尼日利亚和美国 的科学家合作完成。它的目标是对人类遗传的相似性和差异性进行识别和分类,主 要是通过比较不同个体之间的遗传序列来鉴别那些共同存在的遗传变体所在染色体 的区域(Altshuler e? a/. 2010)。个体之间大部分的碱基序列是一致的,只有少部分 的位点存在碱基序列的差异,可能是SNP,也可能是插入或缺失,这些差异的碱基基于Hi-C数据的单倍型三维空间结构及功能分析令tOroraor*Qfonoscri位点叫做遗传变体(2003)。HapMap计划的主要工作大概分为三个步骤(图1.1)。 第一步,比较多个个体的DNA序列来定义单核苷酸多态性位点(SNPs)。第二步, 临近的共同遗传SNPs被联合编译成为单倍型(haplotypes),这个过程称作相位 (phase)。第三步,将获得的单核苷酸多态性位点定义为Tag SNPs (Manolio and Collins 2009)。最终,这些数据都是免费开源的,能帮助生物制药相关领域的研究者 们根据疾病来开发药物(2004)。AACAC6CCA.TTC6A66TC. A6TCA ACC6.OnT080ne3 AACATCCA. TTCa66TC. A67CA ACC6.Chwwrt4 AACA 0CCA.TTC0 G6TC. ATC ACC0.CTC赢AiaTACSiTTCAOOCA TT羼TTSCGCAACASTAATA H|icxyce3 CCCIATCTT(ATACTG6T _!4pi4 TC&AiACIAACAC0CCA.TTCSC6CTC. A0TC6ACC6-.图l.lThe HapMap计划的主要的工作。图片引自HapMap主页:/whatishapmap.html.enFig. 1.1 The main work of The HapMap project. Figure was obtained from HapMap homepage:/whatishapmap.html.en测序技术的发展带来的是大量数据的产生,使得1000 Genomes和HapMap, 都能够围绕着一个共同的核心SNP,促进了单倍型这个大课题的快速发展。目 前,科学研究者对个体的研究不仅依靠参考基因组,而且增加了个体之间序列的差 异信息,更扩展到了个体中分别遗传来自父亲和母亲的染色单体的遗传信息。单倍 型领域的开拓使得遗传学的研究更为精细,同时也使得基于参考基因组研宄所不能 解决的一些遗传疾病问题得到了解决(Zeng and Lin 2005, Zeng etal. 2006)。1.1.2单倍型组装的方法随着现代技术的发展,大量的基因型数据被收集,这些快速增长的数据能有效 地利用来推断个体的单倍型。将一些等位基因联合定位在同一条染色体上被称作单 倍型组装(Browning and Browning 2011 )。但是现在的测序技术和SNP芯片数据只 能收集得到个体的基因型(genotypes),而不能直接获得SNPs在哪条亲本染色体 的信息。所幸,新的计算方法和实验技术为单倍型的推断提供了可能。图1.2为获 得个体基因型后单倍型组装的流程图解。个体的基因组测序中获得的序列读段来自 于父母本两个亲本,研宄者通过在一个共同的SNP位点上不同的等位基因信息来 推断序列读段来自于不同的亲本染色体,通过序列读段共有的等位基因来推断序列 读段来自于相同的亲本染色体,从而对数据来源进行区分,进而将不同的SNP位 点的等位基因关联起来,构建单倍型(Bansal and Bafna 2008)。构建单倍型的计算方法主要分为基于不相关个体的计算方法以及基于相关个体 的计算方法。基于不相关个体构建单倍型的计算方法有Clark算法(Clark 1990), EM 算法(Hawley and Kidd 1995, Long et al. 1995),以及 Coalescent 方法(McVean and Cardin 2005)和基于隐马尔科夫模型的方法(Davison以乂 2009)等。基于相关 个体的单倍型构建的计算方法,例如用到亲本子代三人小组(父亲一母亲一孩子) 等位基因标记信息时,唯一不能确定子代单倍型三个个体等位基因都是杂合的位置, 这样的位置比例很小。但是这个计算方法是基于基因连锁平衡的假设下,事实上, 基因的连锁不平衡现象是普遍存在的,所以在构建单倍型的时候往往存在一定的错 误率(Schaid以虹2002)。最后研宄者开发了一种联合的算法,不仅使用IBD (identity-by-descent),同样也使用群体单倍型频率信息(population haplotype frequency) (Rohde and Fuerst 2001, Zhang et al. 2005)o根据统计,这种联合算法的 准确率是最高的(Delaneau扣/. 2008)。不论是通过实验技术的改进,还是通过算 法的改进,都使组装的单倍型更加的精准,具体表现为高的分辨率和完整度 (Browning and Browning 2011)。最近,任兵研究组开发了一种基于Hi-C交互数据组装单倍型的方法,能很好 地解决单倍型组装不能跨过着丝粒的问题,从而获得全基因组完整的单倍型 (Selvaraj et al. 2013)。Michael Snyder研究组依靠改进实验方法和统计方法获得接 近10Kb的长序列的方式,能组装具有高分辨率的单倍型(Kuleshov efd 2014)。 单倍型组装方法的日益完善和单倍型基因组组装结果的愈加精准,使得构建单倍型 的基因组染色质三维空间结构成为可能。3万方数据基于Hi-C数据的单倍型三维空间结构及功能分析ACTCACGTATC-GTGCACA-3TCTTCTGAAGAT-A3CATTA _ACQCACGTATCGTOCACACTCTTCTGATGAT- AGC3TTA.SequencingACTCAC-GTATOTGAC3CAC-OTATCCTGCTATCCTGC-ACACTCT-ACAGTCTACTCAC-A03CA-A-GCJTTAGAAGAT-ASCATTHaplotype图1.2单倍型组装的流程图(Bansal and Bafna 2008)Fig. 1.2 Flow chart of haplotype assemble (Bansal and Bafna 2008)1.2单倍型的应用及成果在测序技术的发展下,产生了大量的与单倍型基因组相关的数据,从而使得构 建的单倍型基因组日益精确完善。Michael Snyder实验室通过对统计方法的优化和 长序列的单倍型组装,使得单倍型SNVS组装的分辨率基本能达到98% (Kuleshov ef a/. 2014)。同时 The 1000 Genomes Project 和 Hapmap Project 所提供 的单倍型SNVS的数据,尤其是三联体(父亲一母亲一子代)的单体型数据极大地 便利了科研工作者对单倍型的染色质结构、调控以及表达方面的研宄(Rozowskyef al. 2011)。目前研宄已经构建了模式细胞系的全基因组单倍型,在充分利用这些单倍型单 核苷酸多态性(SNP)和小片段插入缺失Ondel)的基础上,可以把测序获得的染 色质交互数据分别比对到构建好的单倍型,研宄同源染色体交互及其三维空间结构 之间的差异。研宄人员将这种方法应用于两种纯合小鼠的后代,发现同源染色体在 空间上占据着相对独立的空间,具体表现在单倍型内部的交互(cis)显著地高于单 倍型之间的交互(h-trans) CSelvaraj et a/. 2013 ) 转录因子 特异性地结合的等位基因位点(Allele special binding; ASB)以及等位基因特异性 表达的位点(Allele special expression; ASE) (Rozowsky et al. 2011),取得了初步的 数据成果。已有数据分析表明功能性的等位基因的效应是频繁的,互相有关联并且 同疾病相关(Simonis d a/. 2006, Dixon et al. 2015)。单倍型的研究除了定位疾病SNPs,寻找特异性的表达基因外,也对特异性表 达的等位基因的上游调控元件的序列变异及其影响转录、染色质状态的分子机理进 行了分析。单倍型研究阐释了等位基因特异性表达所存在的一种分子机理,序列的 变异发生在转录因子结合的模体(motif)上,使转录因子无法结合,因而无法行使 它调控基因表达的功能(McVickera/. 2013)。另外,研究发现在亲代上如果出现 父亲特异性的表达而母亲不表达的现象时,在子代的单倍型父母本上极大的可能出 现类似的表达情况。基因的表达、转录调控以及染色质状态存在亲代传递现象。对 三联体进行进一步的数理分析发现,转录因子结合具有较强的亲代传递能力,而表 观遗传修饰易受环境影响而改变,亲代传递能力相对较弱(Kilpinen扣a/. 2013, Kasowski et al. 2013)。单倍型研宄同样存在一些局限。其中之一是方法研究,对于短序列的比对大多 都是基于参考基因组层面,这会造成研宄结果的不准确,因而需要对比对结果进行 进一步的调整和处理(Hindorff eM/. 2009, McDaniell et al. 2010, Degner al. 2009)。 另外,等位SNP的低覆盖度使得所有基于二代测序的研宄中只能获得小部分包含 功能位点的数据用来进行后续的分析。1.3染色质构象捕获技术在细胞核内,染色体纤维缠绕着核小体等蛋白在核内固缩成极为紧凑且有规律 的结构。为了了解染色质在细胞核内真正的结构,近年来,染色质构象捕获技术 (Chromosome Conformation Capture; 3C)能借由测序技术来捕获染色体不同基因 座之间的交互频率(Cleardd 2014)。但是该技术只能通过设计的引物捕获染色 体特定位置的基因座之间的交互。基于3C的衍生技术,如4C (Chromosome Conformation Capture-on-Chip technology) (Simonis et al 2006),5C (Chromosome Conformation Capture Carbon Copy technology) (Dostie et al 2006 ),Hi-C (Lieberman-Aiden et al 2009),TCC (Tethered Chromosome Conformation Capture)(Kalhor et al. 2012)等(如图1.3所示),相对3C技术有了较大的改进,能达到 更好地诠释细胞核内染色质的构象的目的。例如Hi-C技术,现在能够在全基因组 范围内捕获染色体中不同基因座之间的交互信息,从全局上研宄染色质交互及其三 维空间结构。图1.3 3C以及其衍生技术流程概述(de Wit and de Laat 2012)图顶部展示的是各种基于3C的技术中相同的步骤,列图展示的是各种方法的后续流程。Fig. 1.3 3C and its derivative technology processes overviewThe same steps of the various technology based on 3C are shown at the top of Figure, column charts show the various methods of subsequent processes.以数学建模和统计分析为手段,通过测序获得的高通量染色质交互数据,人们 构建了基因组染色质的空间结构(van Steensel and Dekker 2010, Marti-Renom and Mimy 2011)o例如,Job Dekker 实验室及其合作者(Lieberman-Aiden 扣 d 2009) 使用Hi-C测量了人类正常淋巴细胞染色体中基因座空间交互信息,证实了 CTs (chromosome territory;染色体域)的存在,并发现它在总体上表现出一种分形的三维结构(Lieberman-Aidene丨a/. 2009)。随着研宄的日益深入,人们提高了 Hi-C的 测序深度,发现不同物种,如人类(Dixon 2012) (Nora etal. 2012)、小鼠 (Dixon 枚a/. 2012)、果绳(Sexton etal. 2012) 酵母(Mizuguchi 扣a/. 2014)、拟 南芥(WangeM/. 2015)和新月柄芽孢杆菌(Le2013)等,均存在着一种叫拓 扑相关结构域(topologically associating domain)的结构单元:同一结构单元内的染 色体区间存在明显的内部交互偏好。Bau等(Bau et al. 2011)通过对人类第16条 染色体中包含alpha-globin的基因域进行研宄,发现基因域也具有球形结构:活化 基因在空间上会聚集在球形中央,而非活化基因则零散地分布在各个基因环(gene loop)上。Duan 课题组(Duan ef a/. 2010)首次预测了酿酒酵母(Budding yeast, Saccharomyces cerevisiae)基因组的空间三维结构,揭示酵母基因组也具有层次化结 构。随着对染色质构象研究的日益深入,研宄者们发现染色质构象与基因的表达及 调控具有密切关联。Tanizawa等(Tanizawa er a/. 2010 )预测了裂殖酵母(Fission yeast, Schizosaccharo myces pombe) (Le et al. 2013 )基因组的空间三维结构,发现染色体 空间结构和基因共表达之间具有十分重要的联系。这些实验及计算结果对揭示基因 组空间层次结构起到了重要的启示作用,但是它们无法确定究竟是何种基因相互结 合在一起,空间结构又是如何对基因实施具体调控的。Fullwood等(Fullwood and Ruan2009)使用ChlA-PET技术对人类基因组中的特定调控因子,雎激素a受体 (ER-a),的空间交互信息进行了研究,发现绝大多数的ER-a结合位点都通过远 程的染色体空间交互而聚集在一起。并且进一步的实验结果表明,这些聚集在一起 的基因比其它基因具有更高的表达水平,从而具体地证明了基因组空间三维结构与 基因调控之间具有直接的关联。随着研究的日益深入,包括人类(Dixon et al. 2012, Nora et al. 2012)、小鼠(Dixon et al. 2012)、果绳 CSexton et al 2012)、酵母(Mizuguchi e? a/. 2014)、拟南芥(Wang etal. 2015) 新月柄芽孢杆菌(Le/. 2013)在内的许多物种的染色质空间结构被 构建,染色质构象的功能也被挖掘,发现染色质构象与基因的表达及调控具有密切 关联,具有显著性交互频率的染色质交互通常都是功能性交互,如增强子和启动子 之间的交互,它们对基因表达调控具有重要作用(Jin eM/. 2013, Phillips-Cremins etal. 2013)。但是,上述的关于染色质构象捕获的科研工作都忽视了单倍型的影响,一方 面原因是当时的测序技术不完善,并不能达到能区分单倍型的测序深度。另一方面 原因是高完整度和高分辨率的单倍型参考基因组的缺失。科研工作者对于同源染色 体之间的结构具有怎样的特征这个问题充满好奇,因此对细胞核内同源染色体结构 域开展了研究。Thomas Cremer 实验室在2005年通过3D FISH (fluorescence in situ hybridization;荧光原位杂交技术)实验技术对细胞分裂S期早期的人成纤维细胞进 7万方数据基于Hi-C数据的单倍型三维空间结构及功能分析行了 24种不同颜色的染色(22种常染色体加上X和Y),发现同源染色体往往 分布在细胞核中的不同的位置并且具有独特的染色体域(图1.4)(Bolzere?d 2005)。 随后,他们对染色质域(CTs)做了更为详细的研究,发现人类的两条X同源染 色体在细胞核中同样具有不同的染色质域并且更精细展现同源染色质浓缩缠绕形成 的有所迥异的形态(Cremer and Cremer 2010)。对于同源染色体的空间结构虽然有 初步的研究成果,但是在研究中缺乏更精细的单倍型三维空间结构的特征及功能分 析。图1.4细胞分裂间期的人成纤维细胞FISH实验结果通过对22种常染色体以及X和Y的荧光染色结果发现同源染色体往往分布在细胞核中的不同的位置井且具有独特的染色体域(Bolzere/a/. 2005)。Fig. 1.4 The FISH result of human fibroblasts cell in interphaseThrough the fluorescence staining results of 22 autosomes and chromosome X and Y find that homologous chromosomes are often distributed in different position in the nucleus and have a unique chromosome territory (Bolzer etal. 2005).1.4研究内容论文将选取小鼠F123和人类类淋巴母细胞GM12878来研究单倍型三维空间结 构特征及其对等位基因特异性表达的调控作用。研宄对象选择原因如下:小鼠F123 具有等位SNP高覆盖度的特点,全基因组平均150 bp就存在一个等位SNP,能弥 补单倍型研宄中的部分短板问题。而人类GM12878是一种模式细胞系,同时,它也 是人类模式三联体GM12891-GM12892-GM12878中的子代,对它的研宄相当广泛, 因而它的数据资源很丰富,极大地便利了本课题对染色质结构和表达调控的研宄。本论文的具体研宄内容可以分为以下三个方面:(1) 单倍型染色质交互数据处理流程的建立。迄今为止,对于小鼠F123和人 类GM12878,还没有通过染色质构象捕获技术构建准确的单倍型染色质结构热图, 也没有比较单倍型染色质交互之间的差异,以及分析单倍型染色质交互的特征。因 此,本课题首先需要建立系统、完善的单倍型染色质Hi-C数据的处理流程及方法。 然后,根据过滤筛选得到的可信交互构建单倍型染色质交互热图。最后分析单倍型 染色质交互的特征及其所揭示的现象。(2) 单倍型染色质结构改变区域的序列特征的研究。蛋白质的一级结构决定其 二级结构,也就是蛋白质的氨基酸序列决定它的空间结构。对于染色质,DNA碱基 序列与染色质结构存在着怎样的关系是科学研宄中尚未解决的问题。单倍型染色质 的结构排除了环境对于染色质结构的影响,为研究序列特征对三维空间结构的影响 提供了可能。在这个工作中,本论文主要探讨小鼠F123单倍型染色质结构显著改 变的区域具有怎样的碱基序列排列特征,以及行使怎样的功能。(3) 单倍型染色质结构与基因表达、转录因子调控以及染色质状态的关联分析。 在以往的研究中,阐释了单倍型的等位SNP对等位基因的表达的作用是通过影响 转录因子的结合。并且,在全基因组范围内,表达与转录调控、染色质状态具有一 定的关联。基于此,本论文主要研究人类GM12878中染色质结构与基因表达、转 录因子调控以及染色质状态的关联,更进一步揭示单倍型父母本特异性结构产生的 内在分子机理。13万方数据2单倍型染色质交互数据的处理2.1引言在科学研究日益精细化的大潮流下,对染色质结构的研究依旧停留在参考基因 组的层面,不免让人好奇单倍型染色质的结构。对于单倍型染色质结构的研究存在 两个疑惑。首先,当对单倍型分开研宄时是否会与在参考基因组层面上的研宄结果 具有显著差异。另外,单倍型染色质结构之间是否具有显著差异。以往,对于单倍 型的研宄存在两种数据缺陷。其中之一是单倍型基因组构建的不完善:缺乏高完整 度和高分辨率的单倍型序列信息。另外一点是在单倍型的研宄中仅仅是覆盖了潜在 有意义的位点的数据才能被利用,因此对测序的深度具有较高的要求。这两个数据 缺陷在单倍型组装技术和测序技术的飞速发展下得到了较为有效的解决。问题的解 决为本课题构建单倍型染色质结构热图提供了数据上的支持。通过FISH实验技术对细胞分裂S期早期的人成纤维细胞进行了 24种不同 颜色的染色(22种常染色体加上X和Y染色体),观察发现同源染色体往往分布 在细胞核的不同位置并且具有独特的染色体域。这表明单倍型染色质的空间结构极 有可能是存在着差异的。因此,利用Hi-C数据构建单倍型染色质结构热图分析单 倍型染色质结构具有较高的研究价值。它能对FISH实验的结果进行进一步验证, 并且阐释FISH实验所不能获得的精细的单倍型染色质结构。在单倍型Hi-C数据的处理上,以往的研究并没有提供完善的处理方法。它的 处理与传统的根据参考基因组的处理有显著不同。因此,亟需开发一套完善的单倍 型Hi-C数据的处理方法。2.2材料及方法2.2.1数据的整理准备单倍型数据收集:小鼠F123和人类GM12878组装好的单倍型数据收集来自 任兵课题组的文献(Selvaraj etal. 2013)。Hi-C交互数据的收集:小鼠的Hi-C交互数据和一部分的GM12878的Hi-C 交互数据来源于任兵课题组的文献(Selvaraj da/. 2013)。另外一部分GM12878的 Hi-C数据使用原位Hi-C技术(Rao以fl/. 2014),它具有更高的测序深度,能更好 地满足单倍型染色质结构分析的条件,来源于文献。参考基因组的获取:人类参考基因组序列hgl8、小鼠参考基因组序列文件mm9 从 UCSC 基因组数据库(/downloads.html)获取。2.2.2构建单倍型父母本基因组单倍型的父母本基因组代表分别遗传来自于父亲和母亲的染色体的DNA序 列,它与人类的参考基因组的差别主要是一些等位SNP或者等位DNA片段的插 入和缺失(Indel)。在本次课题研宄中,由于Indel的研究比较复杂且目前并没有完 善精准的数据,所以主要考虑等位SNP的影响。目前,所获得的单倍型组装信息能提供等位SNP所在的参考基因组的位置以 及父母本碱基的信息。因此,本论文利用这些信息采取perl编程的方式,依靠参考 基因组获得了小鼠F123和人类GM12878的单倍型父母本基因组。编程原理是将 单倍型等位SNP所在位置的参考基因组碱基分别替换成父母本的碱基,获得父母 本两套基因组。所使用的Perl软件版本为:v5.10.1,perl的生物学扩展模块bioperl,其版本 为1.6.1。后文中所用的Perl软件,均为此版本。2.2.3单倍型Hi-C数据的处理与传统的Hi-C数据的处理不同的是单倍型Hi-C数据处理需要将传统Hi-C 实验所测得的数据集进行父母本的区分。所依赖的只能是单倍型等位SNP碱基的 差异,因此单倍型等位SNP的覆盖度的高低对最终获得的有效Hi-C交互数据的 数量具有极大的影响。在单倍型Hi-C数据的处理中,需要充分利用父母本等位 SNP的信息,将序列分别比对到父母本基因组上。根据此原理,本论文使用了两种 不同的比对策略:传统的比对方案,借鉴了任兵的课题组文献(Selvarajefd2013) 中对于单倍型Hi-C数据的处理方法,改进的比对方案为论文开发
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 等我拿下数学试卷
- 甘肃金太阳高一数学试卷
- 肌内效贴技术课件
- 2025年03月临沂临沭县部分医疗卫生事业单位公开招聘卫生类岗位工作人员(38名)笔试历年专业考点(难、易错点)附带答案详解
- 2025年04月四川广元市旺苍县人民医院招聘药学等专业人员3人笔试历年专业考点(难、易错点)附带答案详解
- 陈列手法培训课件
- 阜阳美睫培训课件
- 面试人员培训课件
- 财富传家b课件培训
- 2025至2030茶几行业市场深度研究及发展前景投资可行性分析报告
- 混龄分组教学活动设计
- 2024年琥珀课件:探索琥珀中的生命奥秘
- 代理记账业务内部规范(三篇)
- 皮影教学课程设计
- 会计师事务所职业道德规章制度
- 苏教版二年级下册混合计算题200道及答案
- DB13-T 5723-2023 主要农作物自然灾害损失评估指南
- 西安汇知初级中学数学新初一分班试卷
- 阿米巴经营模式协议书模板
- 2023年青岛版五年级下册科学知识点(六三制)
- 项目资金投资合同范本
评论
0/150
提交评论