DNA甲基化分析_第1页
DNA甲基化分析_第2页
DNA甲基化分析_第3页
DNA甲基化分析_第4页
DNA甲基化分析_第5页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基化分析 基于人类九种细胞系和 15 种组织的单碱基精度的甲基化数据,计算了基因范围六个功能区域(转录起始区域、第一外显子、中间外显子、最后外显子、内含子和转录终止区域)的甲基化水平,分析了各功能区域甲基化的分布,并采用离散增量和欧式距离两类参数分别计算了细胞系和组织间的基因的甲基化差异,并对具有较高差异水平的前 20 个基因在六类细胞系的表达进行了分析。 基因表达是一个多因素调控的复杂过程。 在多细胞生物的发育过程中,基因支持着 生命 的基本构造和性能。生物体的生、老、病、成长等一切的生命现象都与基因有关。其内部的基因表达模式很大程度上决定着细胞如何分化 。而基因的表达不仅仅依赖于储存于 的遗传信息, 转录因子的调控作用,还与组蛋白修饰 、 基化等表观遗传因素相关 。 基化是表观遗传学研究内容之一,是指胞嘧啶第五位碳原子在 基转移酶 )作用 下被甲基化修饰,修饰之后的碱基就叫做“ 5简称为 5。 甲基化参与 了 基因的表达调控、发育调节、基因组印迹和 x 染色体 失 活 等生命活动 2。 人们发现 基化与癌症或人类严重疾病有着密切联系。 在髓细胞性白血病中发现了大量异常超甲基化的基因,并认为癌细胞中的甲基化模式显著不同于正常细胞 。因此, 式的研究与 异常 甲基化的探测具有重要的生物学意义,能够对肿瘤的治疗提供帮助。 基化在转录水平 上 调控 着 基因 的 表达 (主要是在转录起始阶段 )。 例如, 通过基因启动子及其 附近区域内 胞嘧啶的甲基化可以关闭某种组织或细胞不必要的基因,而去甲基化作用则可指导组织特异性或阶段特异性基因的活化,使基因表达具有时空 特点 3。通常情 况下,启动子区域 甲基化不仅伴随着转录抑制,并且高甲基化水平的基因表现出低表达现象,反之,低甲基化水平的基因表现出活跃表达的现 象 4。对哺乳动物来说,正确的基化模式对其生育能力和后代存活率是必不可 少的 5 因此 , 对 基化的研究将增进我们对基因调控和人类基因组的认识。 近年来, 基化方面的研究内容包括 : 1、全基因 组和功能区域 基化差异分析; 2、 功能区域的甲基化 水平的预测; 3、 基化 对基因表达 调控的 作用; 基化与其他因子的相互作用 。 5、 基化对癌症发生的影响。 运用 M&M 算法整合 据识别了全基因组甲基化差异区域,发现组织和细胞的增强子区差异甲基化伴随着转录因子结合和组蛋白修饰的变化,而启动子甲基化特征与维持基本的生物学功能相关。 u 等提出了基于高通量单碱基精度的甲基化数据识别和分析基因组区域甲基化模式的算法,并发现了细 胞系特异的甲基化模式 10。另外,还有 基化特征在细胞分化时的保守性和动力学研究 11, 基化与转录因子结合的关联 12,全基因组 甲基化和基因间区域去甲基化特征研究 13, 14,15,以及 基化对共转录剪接过程的影响 16。 高通量测序方法实现了整个基因组范围内高精度的甲基化检测,如,亚硫酸氢盐测序方法( 10、甲基化 疫共沉淀测序方法( 甲基结合蛋白测序方法。 本文从 ) 下载了 9 类细胞系和 15种组织的 基化数据,是由 法获得的具有全基因组单碱基分辨率的甲基化数据。首先,对来自 )全基因组且外显子的个数大于等于 3的 21740 个基因,分为转录起始区、第一外显子、中间外显子、最后外显子、内含子和转录终止区六个功能区域,统计了每个区域内的甲基化水平分布,发现每个区域的甲基化水平具有明显的差异。基于每个 基因在六个区域的甲基化值,利用离散增量和欧式距离两类参数分别计算了基因在不同细胞系和组织间的甲基化差异,得到了在细胞系和组织间具有较高甲基化差异的基因,并对前 20 个基因的表达进行了分析。结果表明,管家基因甲基化差异值都比较小,始终保持着较低水平的甲基化,是维持细胞基本代谢所必须并且一直处于活性转录状态的基因。 人类基因组序列和 因注释信息来自 )的 本,包括基因 49611 个转录本,经过筛选之后剩余 21740 个( +链为 11054 个, 0686 个)作为研究对象。筛选条件为:一、转录起始位点相同的转录本,选取第一个,删除其余的转录本;二、转录本的外显子的个数满足大于等于 3。对其中的每个基因,看成由六个区域构成:转录起始区,即转录起始位点前 2转录起始位点间的区域 (第一外显子区 (中间外显子区 (内含子区 (最后外显子区 (以及转录终止区域,即转录终止位点到转录终止位点后 2的区域 ( 基化数据来自 ), 共下载了 9 类细胞系和 15 种组织 (分别为 H1 H1 1 H1 式的 基化数据( 件)。据来自 划( ),由于数据库提供的数据有限,只下载了 6 类细胞系 (分别为 H1 H1 H1 表达数据。 考虑到样本的测序深度差异,以及不同区域中 联体的含量的不同,定义区域的甲基化水平为其中, C 为测序深度,i 个 点的甲基化数值, n 是区域中的 点总数,N 代表对应功能序列中 联体的个数。对正负链上的每一转录本的 6 个功能区域,分别计算了其甲基化值。特别是,对含有多个中间外显子的转录本,将转录本中的所有中间外显子(或内含子)连接,看作是中间外显子(或内含子)区域来进行计算。正链的结果如图 1 所示,横轴为各个功能区域的甲基化值,最小值为 0,每隔 一个区间,纵 轴为处于该甲基化 总体上,每个功能区域 基化分布在正负链的结果基本一致。从图 1 看,对中间外显子 (最后外显子 (具有 基化水平的样本最多而具有较 低甲基化和高于 基化水平的样本较少,对内含子 (转录终止区 (分别在 基化水平的样本最多而具有较低甲基化和高于 基化的样本较少。其中, 峰值比其余的细胞系要低; 峰值比其余的组织要高。对转录起始区域 (样本的甲基化基本分布在 ,样本在这个区间的分布较为均匀, 9 类细胞系和 15 种组织的转录起始区域分别在 近、 间的样本数达到最大,呈现两个峰;其中, 第二峰分布的样本个数比其余的少, 第二峰分布的样本个数比其余的多。对第一外显子区域 (样本的甲基化范围较其他 5 个区域低,基本分布在 围内。其中, 间分布的样本多, 0 值分布的样本多,其余在 间分布的样本多。而且,比较 9 类细胞系和 15 种组织的结果, 9 种细胞系的峰值比 15 种组织的峰值要高,对应区域趋势基本上是一致的。 以上结果说明,六个功能区域的 基化 水平是不同的。总体上,在中间外显子 (最后外显子 (内含子 (转录终止 (个区域的 基化水平偏高,第一外显子区域 (甲基化水平偏低,转录起始区域 ( 基化水平分布在一定的区间范围。其中, 胞系 (甲基化分布与其他细胞系差别较大,可能因该细胞系为女性胎儿,与其余不同。我们推测,启动子区域的甲基化水平是基因的甲基化差异的主要原因。 基化差异基因 表观遗传学是研究序列一致的条件下,发生的可遗传变异。因此,对 21740 个基因,具有一致的序列,分析它们在不同种细胞系和组织中甲基化的差异,寻找差异表达,有助于研究基因的特异性表达,能够对基因的表达调控研究提供基础。 散增量法 对每一个基因,由 个功能区域构成。计算基因 为 ( 1 , . . . , 2 4 ; 1 , . . . , 6 )i j r,其中 i 代表第i 种细胞系或组织, j 代表第 j 个功能区域。设 ( ; 1 , . . . , 6 )i m jg 在第 m 类细胞系或组织中的甲基化值, ( ; 1 , . . . , 6 )i n jg 在第 n 类细胞系或组织中的甲基化值。则第 n 类细胞系或组织中甲基化值的离散量为: 六个功能区域甲基化水平的分布结果表明,不同区域的甲基化值具有较显著的差异。因此得到标准化后的甲基化值。其中,m 类细胞系或组织第 j 类功能区域甲基化值的标准差,对所有细胞系或组织中基因的六个功能区域分别计算,得到每一基因 6 个区域的标准甲基化值 ( 1, . . . , 2 4 ; 1, . . . , 6 )i j, g 的第 j 个功能区域在第 m 类细胞系或组织中的 标准甲基化值; )6,.,1;( g 的第 j 个功能区域在第 n 类细胞系或组织中的标准甲基化值,则欧式距离 得到 基因 g 在细胞系和组织 m 和 n 之间的甲基化差异水平,由 (5)和 (9)式的结果,定义基因 g 在所有细胞系或组织的总体差异性水平为得到基因 g 在不同种细胞系和组织的总体差异化数值。值越大,表明该基因在不同种细胞系和组织中差异化程度越高,两种算法中每个基因的差异化数值的分布如图 2 所示。图 2 是离散增量和欧式距离两种算法得到的基因的 基化差异的分布结果。横轴表示差异化数值区间;离散增量法中,最小值为 0,每隔 10 为一个区间;欧式距离法中,最小值为 0,每隔 25 为一个区间;纵轴表示在相应区间内基因的个数;黑白分别表示相应的正 负链。采用离散增量法,差异化数值 0间基因的个数居多;采用欧式距离法,差异化数值 100间基因的个数居多。将两种算法中的管家基因提取出来,管家基因的差异化数值分布情况如表 1 所示。通过观察表 1,可以看出无论是哪种方法、正负链,管家基因都分布在数值小的区域,说明在 9 种细胞系和 15 种组织中管家基因差别很小,在各个细胞系和组织中几乎不发生改变,对保持细胞的基本代谢是至关重要的。为了比较这两种算法的计算结果是否具有一致性,对两种计算方式的结果讨论其相关性(如图 3 所示)。横坐标为离散增量方法计算得到的基 因的差异化数值;纵坐标为欧式距离方法计算得到的基因的差异化数值。由图可知,两种算法得到的差异甲基化基因具有一致性,正负链的相关性系数分别为 基化差异基因的表达分析 通过以上两种算法,找出差异化数值最大的前 20 个基因,基因概况如表 2 所示,计算每个细胞系和组织中差异化基因的表达值,基因的表达水平用 来衡量 17 (11) 公式中,i 外显子的 , C 为测序深度, 6 种细胞系中具有甲基化差异的前 20 个基因的表达值进行比较,结果如图 4 所示。(a)图为运用离散增量法得到的甲基化差异基因的表达值, (b)图为运用欧式距离法得到的甲基化差异基因的表达值,横轴为 20 个差异化基因(按照差异化数值从大(左)到小(右)排列),纵轴为其表达值。离散增量法发现 因表达值差异最大且均表达,距离参数法发现 达值差异最大且均表达。通过分析, 转录因子与抑制细胞凋亡 ,促进细胞增殖分裂。 族基因编码的转录因子参与调节胚胎的发生和胚外发展 18。 胎癌衍生的生长因子 要表达于胚胎发育早期阶段,调节细胞分化和胚胎发育,在成年人体一般不表达,当细胞发生恶变时又重新表达;其编码的蛋白质是一个细胞外,膜结合信号蛋白在胚胎发育和肿瘤生长中起重要作用。 在于原始哺乳动物的性染色体, 因被保持用来弥补两性之间的基因差异,因为其是保持核糖 体活性所必需的。 因是编码肿瘤坏死因子受体超家族的成员之一,所编码的蛋白在淋巴和其他器官,脂质代 谢,免疫反应,和程序性细胞死亡的发展期间起发信号的作用,该受体的活性也与癌症发生有关。 因编码定位于高尔基体短卷曲螺旋结构域的蛋白,所编码的蛋白质与 糖基化因

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论