




已阅读5页,还剩140页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
生物信息学,第十章计算表观遗传学,哈尔滨医科大学张岩,生物信息学,长颈鹿的来源,第一节引言,Section1Introduction,一、表观遗传学(epigenetics),表观遗传学是研究不涉及DNA序列改变的情况下,DNA甲基化谱、染色质结构状态和基因表达谱在细胞代间传递的遗传现象的一门科学。,遗传现象:生物界普遍存在的现象,表观遗传现象:生物界普遍存在的另一现象,二、计算表观遗传学,应用及开发生物信息学方法(统计分析,模式识别等)解决生物医学相关的表观遗传学问题。,生物信息学构架了基因组学与表观基因组学的桥梁,计算表观遗传学,表观遗传学领域全球发表的论文,计算表观遗传学的发展,三、计算表观遗传学研究方向,预测的角度研究表观遗传现象。应用生物信息学工具建立遗传与表观遗传调控网络。表观遗传数据库。建立在表观遗传机制基础的功能基因组及比较基因组研究。,四、计算表观遗传学研究内容,(一)数据层面,分子水平的表观遗传修饰,(二)数据分类,(三)算法层面,开发新方法和工具,处理及分析表观遗传数据,挖掘表观遗传现象,常用的算法,统计学方法回归分析相关分析及判别分析聚类分析主成分分析因子分析,模式识别方法支持向量机决策树贝叶斯网络最小二乘法最近邻算法,(四)功能层面,目的,有效利用当前已有的高通量表观基因组数据,单核苷酸多态、DNA甲基化与基因表达之间的关系,挖掘调控基因表达的关键因子。,举例:利用DNA甲基化数据预测新的癌症相关基因,Prioritizingcancer-relatedgeneswithaberrantmethylationbasedonaweightedprotein-proteininteractionnetwork.,人类蛋白质互作网络,癌症相关的子网,肿瘤,神经退行性疾病,心血管疾病,精神性疾病,代谢性疾病,(一)计算表观遗传学与疾病,五、计算表观遗传学的应用,内源性逆转录表达,肿瘤抑制基因表达,染色质结构异常,肿瘤表观遗传的特征,精神性疾病DNA甲基化的特征,(二)计算表观遗传学与发育,发育中DNA甲基化的特征,早期胚胎DNA甲基化的特征,(三)计算表观遗传学与进化,DNA甲基化的进化分析,DNA甲基化的进化分析,DNA甲基化的进化分析,DNA甲基化和组蛋白修饰有潜在的临床用途,附加的诊断工具,预后因子,治疗反应预测,用于普遍临床实践,抑癌基因高甲基化和DNA高甲基化谱可用于癌症病人预后指示器,特定基因的高甲基化可对治疗反应进行预测,第二节基因组的DNA甲基化,Section2Genome-wideDNAMethylation,一、CpG岛的DNA甲基化调控基因表达,(一)DNA甲基化与CpG岛,DNA甲基化是一种发生在DNA序列上的化学修饰,可以在转录及细胞分裂前后被稳定地遗传。DNA甲基化是重要的表观遗传代码。,DNA甲基化的发生机制,(二)DNA甲基化对转录的调控,1.DNA甲基化阻碍转录因子的结合2.DNA甲基化识别染色质标记3.DNA甲基化募集其他蛋白引起染色质沉默4.DNA甲基化影响核小体定位,CpG岛甲基化和转录的关系,(三)DNA甲基化的意义,CpG二核苷酸的甲基化与重复元件沉默CpG二核苷酸的甲基化与染色体的选择性沉默DNA甲基化与基因的组织特异表达,二、基因组CpG岛识别方法,(一)CpG岛识别准则,Gardiner-Garden和Frommer长度最短200bpGC含量至少50%CpGO/E最小0.6许多启动子缺乏严格定义的CpG岛,但是有组织特异的甲基化模式和转录活性有密切联系。,1.最初的CpG岛定义,2.改进的CpG岛定义,Takai和Jones增加最短长度、CpGO/E值GC含量分别到500bp,0.65%和55%对预测精度的影响。通过使阈值更加严格,Alu重复元件得到最大程度的排除,但此时却排除了原来数量10%的CpG岛,这表明一些真正的CpG岛可能也被排除。,常见的CpG岛预测算法,常见的CpG岛预测算法,差异取决于以下因素,(1)任意阈值的应用;(2)没有考虑到CpG岛的异质性;(3)基于DNA序列的预测方法忽略了DNA甲基化状态。,举例:窗口法,Analyzeawindow.,DoesitmeetCpGislandcriteria?,Ifnot,slidetotherightonenucleotide,Andanalyzeagain.,Andagain.,Untilitmeetsthecriteria,Thenjumpaheadandcheckthewindowadjacenttotheislandonthe3side.,Repeatasneeded,untilthenewwindowdoesnotmeettheCpGislandcriteria,Thenslidethewindowbacktowardtheisland.,KeepslidinguntilthewindowmeetsCpGislandcriteria.,Ifitdoesntmeetthecriteria,trytrimmingabasepairoffeachendandanalyzingagain.,削减,削减,削减,OnceitmeetsCpGislandcriteria,moveontothenextadjacentwindowandanalyzethat.,(二)实验方法寻找CpG岛,Illingworth等人最近开发了一项CXXC亲和纯化技术(CAP,CXXCaffinitypurification)以富集非甲基化的CpG富集的DNA片段(CpG岛)。该技术使用了半胱氨酸富集的对非甲基化的CpG位点有高亲和性的CXXC3结构域。CXXC结构域对只包含甲基化的CpG位点或缺乏CpG位点的DNA片段几乎没有亲和性。,从小鼠Mbd1中得到的重组的CXXC结构域对非甲基化的CpG位点有高的结合特异性,并被用于从全基因组DNA中提取CpG岛。他们从人类血液中提取了超过17000个CpG岛。,实验方法确定的基因组范围CpG岛图谱,(三)CpG岛定位有助于发现新基因,CpG岛是重要的调控元件,可用于新基因的发现。CpG岛通常是不被甲基化的,作为管家基因的重要标志之一。,UCSC数据库的截图展示了三个CpG岛,三、实验检测技术测定DNA甲基化状态,(一)DNA甲基化的检测方法,目前常用的DNA甲基化检测方法是将待检序列中甲基化的胞嘧啶转化为其他碱基组成的变化。最新的检测方法还用到了基因微阵列(microarray)。,1.限制性内切酶法2.亲和纯化3.重亚硫酸钠法,1.限制性内切酶法,使用甲基化敏感的酶检测DNA甲基化,2.亲和纯化,3.重亚硫酸钠法,(二)基因组范围高通量的DNA甲基化检测方法,高通量测序是最新发展起来的但却是最有前途的全基因组DNA甲基化分析方法。高通量测序技术的出现,使得产生大量序列信息的时间和成本均要低于桑格法。目前,两种高通量的测序平台最为流行:一种是454生命科学公司开发的焦磷酸测序方法,另外一种是Illumina前身的Solexa开发的基于荧光核苷酸的系统。,DNA甲基化大规模分析可用平台一览表,DNA甲基化大规模分析可用平台一览表,四、异常DNA甲基化特征识别,(一)癌症基因组整体低甲基化(二)癌基因的印记丢失(三)基因超甲基化是癌症的标志,不同癌症之间存在差异,MeInfoText和PubMeth数据库汇总了癌症特异的异常甲基化信息。使用生物信息学方法有助于进一步扩充已知的异常甲基化基因列表的信息。,第三节组蛋白修饰的表观基因组,Section3EpigenomeofHistoneModifications,一、组蛋白密码是重要表观遗传标记之一,(一)核小体与组蛋白修饰,1.核小体与组蛋白,组蛋白修饰位点,2.组蛋白修饰与转录,关于组蛋白修饰在转录中的作用,已经有许多模型如电中性模型、组蛋白密码以及信号通路模型被提出来。不同的组蛋白修饰类型的作用不尽相同。,组蛋白乙酰化主要促使基因表达和DNA复制,使组蛋白乙酰化定位的基因得到动态的调控。组蛋白去乙酰化则使基因沉默。组蛋白的磷酸化可以改变组蛋白的电荷,对基因转录、DNA修复和染色质凝聚等过程起调控作用。组蛋白的泛素化可以降解组蛋白的泛素标记,启动基因表达。,3.组蛋白修饰的命名法,一个组蛋白修饰的精确表示由三部分组成:组蛋白名称+组蛋白尾巴上的位点+修饰类型和个数。例如基因转录起始位点富集普遍存在H3K4me3修饰,它是组蛋白H3上,具体的位置为第四个位置即赖氨酸(lysine,K),该位置存在三个甲基基团。,又如H3K9me,则表示组蛋白H3上的第九位置上的甲基化修饰,但并没有指定甲基集团的数目,则泛指组蛋白甲基化修饰,这些模糊记法已被广泛地使用。,(二)激活性和抑制性的组蛋白修饰,根据对基因起到激活还是抑制作用,组蛋白修饰可以大致分为两类:激活性的组蛋白修饰和抑制性的组蛋白修饰。激活性的组蛋白修饰中最常见的是H3K4me。抑制性的组蛋白修饰中最常见的是H3K27me。,(三)组蛋白密码,1.动态而又稳定的组蛋白密码组蛋白的氨基酸残基可以接受许多种化学修饰,包括甲基化和乙酰化等修饰。质谱分析检测到组蛋白H2A有13个可以接受修饰的位点,H2B、H3和H4则分别有12个,21个和14个可以接受修饰的位点。每个氨基酸残基位点可以发生至少一种化学修饰。,2.细胞分化过程中的组蛋白密码,组蛋白修饰的调控在许多生理过程中起到重要作用,这其中就包括细胞分化。研究发现组蛋白乙酰化对维持细胞的未分化和多能状态十分重要。使用组蛋白去乙酰酶抑制剂有助于维持干细胞的多能性(pluripotency)。,相反,用去乙酰酶抑制剂刺激人类成熟细胞或癌症细胞会诱导分化的进行。因此,表观遗传调控对于细胞成熟至关重要。到底是什么类型组蛋白修饰或组蛋白修饰组合控制分化呢?如前所述,组蛋白乙酰化有助于保持细胞的多能性。,细胞分化过程中的组蛋白修饰变化,(一)测定组蛋白修饰的高通量技术,二、组蛋白修饰的高通量测定及分析技术,ChIPchip,来自Genome-wideapproachestostudyingchromatinmodifications,ChIPSAGE,ChIPSeq,(二)分析基因组范围的组蛋白修饰数据,1.高通量组蛋白修饰分析工具,TilingArrayTileMap基于模型的瓦式芯片分析算法(model-basedanalysisoftilingarrayalgorithm,MAT)。ChIP-SeqCisGenomeMACS,2.组蛋白修饰峰值探测,与其他基于ChIP的高通量技术一致的是,从ChIP-Seq标签数据鉴别出可靠的组蛋白修饰谱,等价于寻找一段基因组区域内的统计学显著的组蛋白修饰标签的峰。一个最直接的想法是,对于一段长度一定的基因组区域来说,包含R个序列标签可以从统计学水平支持这段区域被组蛋白修饰所定位。,一般原理,构造背景分布:泊松分布例:人类基因组gsize=3.0E9*0.8=2.4E9窗宽w基因组期望的标签数(CD4+T细胞H3K9me3)求使0.01,当R=3时,p=0.0021,满足要求。所以,以w为窗宽,将基因组打碎,以d为步长,移动窗口,找出满足大于3个标签的窗口,合并后即为组蛋白修饰H3K9me3定位区域。,三、组蛋白修饰与其他表观遗传修饰的协同调控,(一)DNA甲基化和组蛋白修饰的相互作用(二)通过贝叶斯网络重构表观遗传修饰协同调控基因表达网络,四、组蛋白修饰异常与人类疾病,(一)异常组蛋白修饰模式与癌症(二)组蛋白修饰与其他疾病(三)食品营养与组蛋白修饰,第四节基因组印记,Section4GenomicImprinting,一、基因组印记是表观遗传现象,基因组印记是在母本和父本之间产生功能性区别并在哺乳动物发育与生长中起重要作用的一种表观遗传学机制。,二、基于生物信息学方法识别新印记基因,目前实验测得印记基因的主要方法是利用DNA甲基化和基因表达分析基因的印记情况,只关注染色体的一小段区域。由于基因的单等位表达可能只发生在特定亚型、组织或发育阶段,所以实验确定印记基因面临很多问题。主要预测印记基因的方法是用机器学习方法基于基因的序列特征预测全基因组印记基因。,常用的模式识别方法支持向量机(SVM)径向基神经网络(RBF)隐马尔可夫模型Logistic回归主成分分析和二次判别分析,DNA序列特征,CpG岛和GC含量重复序列长散在核元件(LINEs)短散在核元件(SINEs)简单重复序列DNAelements低复杂度重复序列长末端重复序列(LTRs),基于主成分分析和二次判别的预测模型,三、印记基因的表观遗传异常与人类疾病,印记基因对哺乳动物的发育是至关重要的,哺乳动物的基因印记抑制基因表达,印记基因的异常表达会导致多种人类疾病。研究发现许多印记基因对胚胎和胎儿出生后的生长发育有重要的调节作用,对行为和大脑的功能也有很大的影响,印记基因的异常同样可诱发癌症。,第五节表观遗传学数据库及软件,Section5DatabasesandSoftwaresinEpigenetics,一、表观遗传学常用数据库,1.人类表观基因组计划数据库2.表观基因组图谱3.人类DNA甲基化与癌症数据库,EpigenomeProject,Rivera,C.M.,andRen,B.(2013).Mappinghumanepigenomes.Cell155,39-55.,EpigenomeDataResources,EpigenomeBrowser,RahulKarnik1andAlexanderMeissner(2013).Browsing(Epi)genomes:AGuidetoDataResourcesandEpigenomeBrowsersforStemCellResearchers.CellStemCell13,14-21.,LocalEpigenomeBrowser,UCSCGenomeBrowser本地化,二、表观遗传学常用软件,1.差异甲基化区域筛选软件(QDMR)2.表观基因组图谱3.人类DNA甲基化与癌症数据库,IdentificationofDifferentiallyMethylatedRegions(DMRs),CaseandControl,MultipleCases,CaseandControl,MultipleCases,Entropy,差异甲基化区域的识别QDMR,导入甲基化数据,定量甲基化差异,筛选差异甲基化区域,定量差异甲基化区域的特异性,导出分析结果,使用流程,导入甲基化数据,目前QDMR只接受txt文件,浏览本地甲基化数据文件,例子甲基化数据,数据中最大的甲基化值,物种信息区域列信息,样本开始的列,甲基化数据预览,定量甲基化差异,熵表示甲基化差异的大小,熵越小表示各样本间的甲基化差异越大,通过点击上面的某一行,来查看相应区域在各样本中的甲基化值,识别差异甲基化区域,根据生物学研究的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论