荧光交换标记法基因表达芯片的数据挖掘.doc_第1页
荧光交换标记法基因表达芯片的数据挖掘.doc_第2页
荧光交换标记法基因表达芯片的数据挖掘.doc_第3页
荧光交换标记法基因表达芯片的数据挖掘.doc_第4页
荧光交换标记法基因表达芯片的数据挖掘.doc_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

荧光交换标记法基因表达芯片的数据挖掘 作者:廖之君, 马文丽, 梁爽, 刘华, 张海燕, 陈数珍, 郑文岭 【摘要】 目的 探讨荧光染料交换标记设计的基因芯片数据挖掘方法,并对低剂量电离辐射影响人成纤维细胞基因表达谱数据进行分析。 方法 应用GeneSifter在线软件和Panther生物学信息数据库,对下载于NCBI的GEO数据库的8个样品GSM(包含4个时间点),选择正确的参数设置上载数据,运用ANOVA方法进行数据挖掘,并对差异表达基因进行功能归类分析。 结果 获得203条差异表达基因,合并相同基因名后为176条基因。双向聚类和主成分分析发现,样品的24 h时间点基因表达谱与前3个时间点有显著差异,功能归类分析提示,多个生物通路如细胞周期、核酸代谢、DNA代谢等被显著激活。 结论 应用这种方法可以挖掘荧光交换标记的微阵列数据,低剂量电离辐射对人成纤维细胞基因表达有时间累积效应,可能引起DNA损伤、细胞周期阻滞等变化,诱导细胞凋亡。 【关键词】 荧光; 成纤维细胞; 辐射,电离; 芯片分析技术; 自动数据处理ABSTRACT: Objective To explore the methodology in analysis of data from dyeswap labeled microarray, and to profile the gene expression spectrum in human diploid fibroblasts exposed to low dose ionizing radiation. Methods GeneSifter suite and Panther database were used to analyze 8 GSM data (4 time points) downloaded from GEO data repository at NCBI. After parameter optimization, ANOVA was applied to perform data mining. Differentially expressed genes were also classified functionally. Results A total of 203 differentially expressed genes were obtained. The number was reduced to 176 after pruning away the redundant gene names. Twoway clustering and principal component analysis showed that gene expression profile at 24hour time point differed significantly from 3 other time points. Functional classification of these genes showed that several biological processes such as cell cycle, nucleic acid metabolism and DNA metabolism, were significantly activated by irradiation. Conclusion This method can be applied to mine dyeswaplabeled microarray data. Low dose ionizing radiation might exert timecumulative effects on gene expression profiles in human fibroblasts, implicating a mechanism by DNA damage, cell cycle arrest, and eventually apoptosis. KEY WORDS: fluorescence; fibroblasts; radiation, ionizing; gene expression profiling; microchip analytical procedures; automatic data processing上世纪90年代诞生基因芯片这一高新技术发展至今,在生命科学领域中应用越来越广泛,探针密度越来越大,凸显高通量、平行性的优势。芯片数据在数据库(如GEO)中的积累呈指数性倍增,如何从这海量的数据库中挖掘出蕴涵的生物学知识,即数据挖掘,已成为生物信息学的重要研究领域,其实,基因芯片的强大功能依赖于数据挖掘和统计工具的发展与应用1,二者相互促进。微阵列数据库中,有一部分双通道的基因表达谱数据是来自于荧光交换标记RNA的实验,这一设计与基因芯片的高成本、红绿荧光染料存在标记效率、激发效率不同等因素有关。众多研究表明,生物样品重复来源的变异要远远大于基因芯片技术的波动,因此,需要至少3次独立的生物学重复实验,才能下一个重要的生物学结论。而双通道的微阵列芯片实验,为了消除由于荧光偏向性带来的假阳性,减少染色误差的影响,研究者通常采用荧光交换标记RNA。一般认为,有2种荧光交换标记方法,一是荧光染料Cy5和Cy3分别标记处理和非处理对照样品RNA,重复实验时Cy5和Cy3交换标记;二是所有对照来自于通用的公共RNA样品,每一种处理组RNA与相应的公共RNA配对,分别用Cy5和Cy3标记,重复实验时染料交换。很明显,第二种方法更为灵活,便于不同微阵列之间比较,适用于多组样品,并且省钱省时,结果也具有重复性、可靠性。1 资料来源 荧光染料交换标记的cDNA微阵列芯片数据来自于NCBI的GEO数据库,共有8个样品文档,即从GSM159951到GSM159958。这是用1.5 Gy低剂量的离子辐射处理正常人二倍体成纤维细胞NHF1hTERT,照射时间分为4组:sham(即未照射),2,6和24 h,每组用上述第二种荧光交换标记方法重复2次,与Agilent Human 1A(22K)芯片杂交后,用Agilent Feature Extraction v 7.1软件获取芯片扫描的文本文档。2 数据挖掘 应用GeneSifter软件(/web/)在线进行数据挖掘,再利用Panther生物学信息数据库()挖掘差异表达基因的功能。2.1 数据上载 微阵列芯片扫描数据的文本文档上载到GeneSifter时,由于阳性和阴性控制阵列会干扰后续分析,必需先滤过,并整理数据文件。基因识别符(Gene ID)设置选择“Same Order”,数据分析时用比值(Ratios)而不用荧光强度(Intensities),Cy3和Cy5的质量值设置采用绿(红)色平均信号强度与绿(红)色背景平均信号强度的比值来计算,选择“LOWESS”归一化。由于重复实验的荧光染料已发生交换,计算荧光强度比值(Ratio)时不能统一用Cy5/Cy3,当Cy5标记公共RNA时,比值宜采用Cy3/Cy5,因而,计算比值时选取“Per file basis”(基于每个数据文档),最后根据实验设计不同选取比值(Cy5/Cy3或Cy3/Cy5),上载芯片数据。2.2 芯片数据挖掘 这个数据集包含了一个处理因素离子辐射(1.5 Gy),4个水平即时间点sham(即未照射),2,6和24 h,符合单因素完全随机设计的方差分析(OneWay ANOVA),应用GeneSifter页面控制板(Control Panel)数据分析项目下的“Projects”功能进行数据挖掘。 参数设置如下:数据经对数(log2)转化,滤过比值阈设为1.5(由于经过log2转换,实际差异为21.5倍),质量阈值1.5,P值取0.001,统计方法为ANOVA。结果获得203条差异表达基因,图1为差异表达基因的双向聚类图,上方为样品聚类,从左到右分别表示:0,2,6,24 h 4个时间点,右侧为基因聚类。总的来说,前3个时间点基因表达谱变化幅度不太大,但24 h时间点就有明显变化,由此,大致可分为2大类基因表达模式:一是167条(82.3%)基因明显下调,其中有pcna、cdk2基因,二是36条(17.7%)基因表达上调,其中有cdkn1a基因。但有些基因的名称和调节方向相同,合并这些基因后,得到176条差异表达基因,再对这些基因特征矩阵进行主成分分析(principal component analysis,PCA),可见24 h的特征向量明显远离另3个向量(图2)。2.3 差异表达基因的功能分析 利用Panther生物学信息数据库的实用工具,挖掘这176条差异表达基因的功能类别,其中150条基因可以找到明确的功能类别,26条基因不能归类。表1按P值(表征两组数据无显著差异的几率)取0.05水平列出受改变的生物通路,其中“差异基因中预计该通路基因数”栏是依据参照基因(取人类基因组共25 431条基因)中PANTHER分类相对应于查询基因而计算出来的期望基因数(只列出P值达显著性的相应预计基因数目);而P值为基于二项分布统计方法计算出各类别的随机发生基因数的概率2。结果显示细胞周期、核苷酸代谢、有丝分裂等生物通路受显著影响,提示电离辐射与这些代谢通路紧密关联。图1 差异表达基因的双向聚类图(略)Fig 1 Twoway clustering heat maps of the 203 differentially expressed genesNHF1细胞24 h的特征向量水平向右指向,而另3个向量(0,2,6 h)指向左侧,向量之间的距离较近,区分不明显.24 h向量远离这3个向量.图2 176条差异表达基因的主成分分析图(略)Fig 2 Principal component analysis plot of the 176 differentially expression genes表1 功能富集分析中被显著改变的生物通路(略)Tab 1 Significantly affected biological processes identified by functional enrichment3 讨论 荧光交换标记法是双通道微阵列芯片实验设计所特有的一种样品RNA标记方法,由于2种荧光染料(Cy3和Cy5)的标记效率、激发效率不同,一般Cy3的掺合标记率要大于Cy5,Cy3通道的背景强度也要大于Cy5通道3,因而存在较明显的荧光染料特异的偏性问题。染料偏性会产生系统误差,如果同一基因在不同样品中由于染料偏性而造成的强度倾向性相一致,则可以通过合理的实验设计和数据分析而得到校正,反之,要消除染料偏性则相当棘手4。芯片实验有多种变异来源,如样品间生物学上的差异、RNA扩增效率差异、荧光染料结合率差异,以及光检测器的增益不同引起的差异等因素,都会对检测结果造成影响。研究者关注的只是样品生物学上的差异,其他变异源会造成结果偏性,尤其是双色荧光染料与RNA掺合标记率差异的偏性不容忽视。荧光交换标记时采用生物学重复设计,可以提高实验效率,消除染料偏性,简化数据分析5,尤其适用于芯片价格高于样品的情况。目前,Dabney等提出一种新算法CADS法来同时消除染料偏性和阵列特异效应问题6。实际上,基因芯片制造商在对芯片探针质量进行评估时,大多也采用荧光交换标记法,把检测用样品RNA分为等量的2份,一份用Cy3标记,另一份用Cy5标记,混合后与芯片杂交,然后Cy3和Cy5交换标记,再次杂交,这是荧光交换标记在评估探针水平上的应用。 然而,荧光交换标记法更广泛用于样品层次,由于双通道微阵列芯片需要双色荧光标记RNA,所以,选择一种荧光染料(如Cy5)标记处理样品RNA时,就可用另一种荧光染料(如Cy3)标记对照样品RNA,两者混合后与芯片杂交,红绿荧光强度的比值(这里Cy5/Cy3)就反映了两样品基因的表达水平。这里的对照样品可以有2种来源:一是与处理因素相对的非处理对照,另一种是采用通用的公共RNA样品。如果存在多个样品比较时,比如时间序列的研究,选择前一种对照方法,则需要每一个时间点设一个对照,相当繁锁,而后一种对照方法,就灵活、简便得多。但公共RNA样品来源不能局限于一种细胞株或零时间点,必需避免对照荧光强度值的缺失问题,用于方差分析的公共参照样品常用多种细胞的mRNA混合而成。Kerr等对常见的3种公共RNA参照样品进行了评估,并未发现它们之间有显著性差异7。本资料采用公共RNA样品为对照。 重复实验时由于荧光染料发生了交换,荧光强度的比值就不能固定用Cy5/Cy3计算,当Cy5标记对照样品时,比值为Cy3/Cy5。进行数据分析时,必需先对这些数据归一化,其目的是校正微阵列试验中各种变异引起的偏差,而不是RNA样本或印刷探针的生物学差异。这里用的是LOWESS(locally weighted scatterplot smoothing,局部加权散点图平滑)回归算法归一化,这是一种对探针信号强度进行局部调整的算法,其中每个点的信号强度值都根据直接相邻的点的信号强度进行调整,用于对扫描仪对不同荧光的灵敏度差异进行校正,LOWESS归一化法能有效消除强度依赖的比值偏差3。图3总结了上述的数据挖掘过程。图3 荧光交换标记设计的微阵列芯片数据挖掘过程简图(略)Fig 3 Work flow of dyeswaplabelled microarray data mining本研究对荧光交换标记法设计的cDNA微阵列数据,即电离辐射对人成纤维细胞损伤的基因表达谱数据进行了分析,双向聚类分析发现,低剂量电离辐射细胞的24 h时间点基因表达谱发生了明显变化,主成分分析图上24 h特征向量远离其他向量也支持了这一观点。176条差异表达基因的功能归类提示,细胞周期、核酸代谢、DNA代谢等生物通路被显著激活,24 h时pcna、cdk2等基因表达下调,cdkn1a等基因上调。pcna参与调控细胞周期和DNA的复制与修复,与细胞增殖有关,cdk2参与有丝分裂细胞周期的G2/M期转变,调控DNA复制、蛋白磷酸化过程,正调控细胞增殖,这两条基因表达受到抑制,从而抑制细胞增殖、促进凋亡。cdkn1a等基因表达上调,cdkn1a又称p21或Cip1,参与调控CDK(周期蛋白依赖蛋白激酶)而引起细胞周期停滞,负调控细胞增殖,利于DNA损伤的修复。同时,p53信号通路的激活,也说明DNA损伤产生修复或细胞发生凋亡,结合文献推测,低剂量电离辐射引起DNA损伤,DNA可能发生单链断裂、双链断裂、碱基改变等,DNA数量或结构发生改变,细胞周期阻滞于G2/M期和/或G1/S期,DNA损伤开始修复810。当严重的DNA 损伤不足以被修复时,细胞便进入凋亡过程。本实验的基因表达差异在早期变化不明显,可能反映了这一时期的细胞尚处于轻微损伤可修复阶段,而24 h后出现时间累积效应,从细胞生理学角度分析,检查点功能已经完成,由于损伤严重,细胞走向凋亡。【参考文献】 1 Verducci J S,Melfi V F,Lin S,et al. Microarray analysis of gene expression: considerations in data mining and statistical treatmentJ. Physiol Genomics, 2006,25(3):355363.2 Mi H,Guo N,Kejariwal A,et al.PANTHER version 6: protein sequence and function evolution data with expanded representation of biological pathwaysJ. Nucleic Acids Res, 2007,35:247252.3 Shi L,Tong W,Su Z,et al.Microarray scanner calibration curves: characteristics and implicationsJ. BMC Bioinformatics , 2005,6(Suppl 2):11.4 Dobbin K K,Kawasaki E S,Petersen D W,et al. Characterizing dye bias in microarray experimentsJ. Bioinformatics, 2005,21(10):24302437.5 Altman N. Replication,variation and normalisation in microarray experimentsJ. Appl Bioinformatics, 2005,4(1):3344.6 Dabney A R,Storey J D. A new approach to intensitydependent normalization of twochannel microarraysJ. Biostatistics, 2007,8(1):128139.7 Kerr K F,Ser

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论