




已阅读5页,还剩85页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基因组表达,芯片数据分析,转录本主要包括mRNA,smallRNA,non-codingRNA,生物芯片的概念是Fodor等人于1991年提出(Fodoretal.,1991,Science)。,在90年代初期,利用光原位合成的原理,在基质上固定高密度的寡核苷酸的DNA测序芯片。1995年Schena(Science,1995)等人,把拟南芥的45个基因固定在一张玻片上,并行检测拟南芥45个基因的表达情况,这是第一次结合了高精度机械手点样系统、荧光标记技术、双通道荧光扫描技术和数据分析软件,是第一次真正意义上的用DNA芯片技术进行基因表达分析的应用。部分基因组被测序的微生物全基因的DNA芯片问世,如:酿酒酵母,大肠杆菌。人类、大鼠和小鼠的全基因组芯片。,基因芯片发展过程,Southerncolorcompositeofred,blueandgreenimage,Thisbiochipcontainsallgenomicregionsthathavebeenreportedtobeamplifiedincancers.,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,X,Y,OncogeneTargetsOntheAmpliOncIBiochip,PDGFB,EGFR1,PDGFRA,MET,FGFR2,WNT1,MYB,HER2,YES1,HRAS1,CND1,RAF1,GLI,MYC,MDM2,20q13,REL,MYCL1,FGR,FES,ABL,INT2,PIK3CA,NMYC,AKT2,FGFR1,JUNB,AKT1,KRAS2,CDK4,AR,cDNAmicroarrayexpressionpatternsofsmall(S)andlarge(L)neurons,mRNAenrichedinlargeDRGneurons,mRNAenrichedinsmallDRGneurons,放射性原位杂交验证结果,基因芯片的数据解读和分析,芯片图像的处理。芯片杂交后获得的数据与芯片的基因信息的连接。芯片数据的预处理及数据的可视化。数据处理和分析的算法。,下表是整理后数据的一部分,一、基因芯片数据提取与过滤,(一)cDNA微阵列芯片,(二)Affymetrix公司的原位合成芯片,定性信息提取:P/A/M(Present/Absent/Marginal)定量信息提取:基于探针集汇总后的基因水平的荧光信号强度值,预处理对数转换目的:使数据服从正态分布,预处理数据过滤去除表达水平是负值或很小的数据或者明显的噪声数据波动筛选:去掉一成不变的基因,要求在一定的变化范围内波动标准化片内标准化:去除系统误差片间标准化:在不同列之间的标准化,使每列在同一量纲上比较,网格定位结果,数据过滤,数据过滤的目的是去除表达水平是负值或很小的数据、或者明显的噪声数据。过闪耀现象物理因素导致的信号污染杂交效能低点样问题其它,二、数据补缺,(一)数据缺失类型非随机缺失基因表达丰度过高或过低随机缺失与基因表达丰度无关,数据补缺主要针对随机缺失情况,(二)数据补缺方法,1、简单补缺法,missingvalues=0expressionmissingvalues=1expression(arbitrarysignal)missingvalues=row(gene)averagemissingvalues=column(array)average,2、K近邻法,选择与具有缺失值基因的k个邻居基因用邻居基因的加权平均估计缺失值参数:邻居个数距离函数,3、回归法,三、数据标准化,(一)为什么要进行数据标准化存在不同来源的系统误差染料物理特性差异(热和光敏感性,半衰期等)染料连接效能点样针差异数据收集过程中扫描设施不同芯片差异实验条件差异,(二)运用哪些基因进行标准化处理芯片上大部分基因(假设芯片上大部分基因在不同条件下表达量相同)不同条件间稳定表达的基因(如持家基因)控制序列(spikedcontrol)合成DNA序列或外源的DNA序列,在不同条件下表达水平相同。,以M(logratio表达量)为纵坐标,A(logintensity表达量)为横坐标做出数据的散点分布图。,A=(LogGreen+LogRed)/2,M=LogRed-LogGreen,低,高,表达水平,调控方向,上调,下调,1、片内标化(Within-slidenormalization)全局标化(Globalnormalization),(三)cDNA芯片数据标准化处理,假设:R=k*G方法:C=log2k:中值或均值,芯片内数据标准化的常用方法是局部加权回归分析:Lowess(LocallyWeightedLinearRegression)normalization。,Lowess回归分析是一种非参数回归方法,也称为平滑方法,在计算两个变量的关系时采用开放式算法,不套用现成的函数公式,所拟合的曲线可以很好的描述变量之间关系的细微的变化。,从图中可以看出由于染色的红光强度比绿光强度大,因此数值的整体分布趋势是偏离那条斜线的。这是由于红光和绿光的感应强度不同产生的偏差。因此希望基因的红光强度与绿光强度是一致的。所以所有数值点的总体分布趋势应该和图中斜线是相吻合的。这样通过标准化后所有数值点的拟合曲线应该下移至斜线位置。,lowessinR,out=lowess(x,y,f=0.4)plot(x,y)lines(out$x,out$y,col=2,lwd=2,out$xwillbeavectorcontainingthexvalues.out$ywillcontainthelowessfittedvaluesforthevaluesinout$x.fcontrolsthefractionofthedatausedtoobtaineachfittedvalue.f=0.4hasbeenrecommendedformicroarraydatanormalization.,2、片间标化(Multiple-slidenormalization)平均数、中位数标准化(meanormediannormalization)尺度调整的标准化(ScaleNormalization)分位数标准化(QuantileNormalization)两张芯片的表达数据的分位数标化至相同,即分布于对角线上。线性标化法(Linearscalingmethods)与芯片内标化的尺度调整(Scaleadjustment)方法类似非线性标化法(non-linearmethods)分位数标化法(Quantilenormalization),3、染色互换实验(dye-swapexperiment)的标化实验组对照组芯片1cy5(R)cy3(G)芯片2cy3(G)cy5(R)前提假设:cc方法:,M=log2R-log2GA=(log2R+log2G)/2,Slide2Cy3Cy5,Slide1Cy3Cy5,median,Q3=75thpercentile,Q1=25thpercentile,minimum,maximum,前面提及的标准化方法仅效正了数据分布的中心,在不同的栅格间log-Ratios的方差也不同。,(脚标a为每组实验数据),channel.medians=apply(log(x),2,median)normalized.log.x=sweep(log(x),2,channel.medians),R脚本,ScaleNormalization,在进行片内标准化时,不同grid中的基因强度的分布不一致,亦即基因强度值的离散程度不同,这是由系统误差带来的。所以理想状态下希望它们的离散程度是一致的。同理对于双色channel的情况在理想状态下基因在两个染色channel中的离散程度也应该是一致的。因此对于双色芯片数据的尺度标准化结果就是基因在两个channel中的中值一致,同时基因染色强度在两种channel中的离散程度一致。,LogMeanSignal(centeredandscaled),DataafterMedianCenteringandScaleNormalizing,medians=apply(X,2,median)Y=sweep(X,2,medians)mad=apply(abs(Y),2,median)const=prod(mad)(1/length(mad)scale.normalized.X=t(t(X)*(const/mad),差异表达分析(AnalysisofDifferentiallyExpressionGene),一、倍数法,实验条件下的表达值,对照条件下的表达值,通常以2倍差异为阈值,判断基因是否差异表达,mRNACy5/Cy3=r,time/h,1,5,0,_,_,Startofexperiment,up-regulationinduction,down-regulationrepression,combinetheminthelog(base2)ratioLog2(Redintensity/Greenintensity)Ratio=log2(R/G),推测统计学方法,H0:所研究的基因在表达量上与正常表达时的表达量没有显著的差异性。H1:在两种或两种以上样本的芯片实验中,基因的表达有显著的差异性,芯片实验的统计检验,二、统计学方法,1、t检验法,运用t检验法可以判断基因在两不同条件下的表达差异是否具有显著性,2、方差分析,方差分析可用于基因在两种或多种条件间的表达量的比较,它将基因在样本之间的总变异分解为组间变异和组内变异两部分。通过方差分析的假设检验判断组间变异是否存在,如果存在则表明基因在不同条件下的表达有差异。,三、SAM(SignificanceAnalysisofMicroarrays),(一)多重假设检验问题型错误(假阳性)即在假设检验作推断结论时,拒绝了实际上正确的检验假设,即将无差异表达的基因判断为差异表达。型错误(假阴性)即不拒绝实际上不正确的,即将有差异表达的基因判断为无差异表达。在进行差异基因挑选时,整个差异基因筛选过程需要做成千上万次假设检验,导致假阳性率的累积增大。对于这种多重假设检验带来的放大的假阳性率,需要进行纠正。常用的纠正策略有Bonferroni效正,控制FDR(FalseDiscoveryRate)值等。,差异表达基因筛选,越宽越严格,越窄越宽松SAM(SignificanceAnalysisofMicroarrays),数据的初步分析差异基因的选择,一般来说,ratio2或ratio2表示比率在平均比率加两倍方差之外,差异基因有了统计意义。T-检验(t-test),从重复芯片中识别差异的表达基因。SAM(SignificanceAnalysisofMicroarrays)。ANOVA()。现在识别差异基因方法不是很完善,它仍是数据处理中的一个热点。,数据的深入分析聚类分析,层次聚类算法将研究对象按照它们的相似性关系用树形图进行呈现,进行层次聚类时不需要预先设定类别个数,树状的聚类结构可以展示嵌套式的类别关系。的基因可能具有共同的特征。,探索完全未知的数据特征的方法层次聚类(hierarchicalcluster)K-means基于向量的SOM主成分分析(PCA),层次聚类,k均值聚类,随机的两个点,MiRNA表达谱:非癌样品(正常样品,腺瘤,息肉)vs癌,57,癌样品,癌和非癌样品之间存在明显的谱带差异,常用的表达谱分析软件(GeneralMicroarrayAnalysisSoftware),ArrayToolsDChip(DNA-ChipAnalyzer)SAMR语言和BioConductor:affy、marray、limmaMatlab:BioinformaticsToolbox,安装sam-3.02.ex以后,打开Excel,在加载项的工具栏中会出现StanfordTools,点击LoadSAM,即可导入SAM及SAMController的快捷按钮。,Afterfinishinginstallation,基因芯片数据获取,GeneExpressionOmnibus(GEO)/geo/,基因芯片数据获取,GeneExpressionOmnibus(GEO)GPLXXXXGSMXXXXGSEXXXXGDSXXXX,实验组,GEO自己组织的相近实验,基因芯片数据获取,ArrayExpresshttp:/www.ebi.ac.uk/arrayexpress/,InstallBioconductorPackages,InstallRInstallaselectionofcoreBioconductorpackagessource(/biocLite.R)biocLite()Installaparticularpackage,e.g.,limmabiocLite(limma)biocLite(c(GenomicFeatures,AnnotationDbi),UserGuidesandPackageVignettes,http:/svitsrv25.epfl.ch/R-doc/doc/html/packages.html,ExpressionProfilingAnalysis,Preprocessing:OligonucleotideArrayslibrary(affy)ReadAffy();#inputdataexpresso();#Backgroundadjustment,Normalization,SummarizationjustRMA();#moreefficientexprs();library(simpleaffy)ampli.eset-call.exprs(cel,mas5,sc=target)qcs-qc(cel,ampli.eset),67,ExpressionProfilingAnalysis,Preprocessing:Two-ColorSpottedArrayslibrary(limma)read.maimages();#inputdatabackgroundCorrect();#BackgroundadjustmentnormalizeWithinArrays();#NormalizewithinarraysnormalizeBetweenArrays();#Normalizebetweenarraysexprs.MA();#Extractexpressionvaluesavereps();#SummaryplotMA();#MAplot,68,ExpressionProfilingAnalysis,Non-specificfilteringIntensity-basedvariabilityacrosssamplesfractionofPresentcallsRpackages:genefilter,69,Differentiallyexpressedgeneslibrary(samr)samr();#Significanceanalysisofmicroarrayslibrary(multtest)mt.rawp2adjp();#Adjustedp-valuesforsimplemultiple#testingprocedureslibrary(limma)lmFit();#LinearModelforSeriesofArrayseBayes();#EmpiricalBayesStatisticsfor#DifferentialExpression,70,ExpressionProfilingAnalysis,Clusteringandvisualizationlibrary(amap)hcluster();#HierarchicalClustering#moreefficientthanhclust()dist();#DistanceMatrixComputationlibrary(ctc)r2gtr();#Writetogtr,atr,cdtfileformatforTreeviewr2atr()r2cdt()library(gplots)heatmap.2();#extensionstothestandardRheatmap(),71,ExpressionProfilingAnalysis,#setwd(/var/www/html/SRP/);inputFile=Arguments1;#outputFile=Arguments2;library(affy)mydatahead(pm.data)GSM94592.CELGSM94593.CELGSM94594.CELGSM94595.CELGSM94596.CEL647044418.02931.03576.83065.53270.864705124.3114.5126.0170.3139.364706152.0131.8160.3197.5172.064707109.3102.3118.0140.0125.06470889.3100.095.0130.8106.06470980.079.378.099.076.0,GSM199463.CEL.gz0GSM199464.CEL.gz0GSM199465.CEL.gz1GSM199466.CEL.gz1GSM199467.CEL.gz2GSM199468.CEL.gz2GSM199469.CEL.gz3GSM199470.CEL.gz3GSM199471.CEL.gz4GSM199472.CEL.gz4,mm.data-mm(mydata)head(mm.data)#Mis-matchprobesGSM94592.CELGSM94593.CELGSM94594.CELGSM94595.CELGSM94596.CEL652383263.51918.83107.82418.02319.865239164.8118.0152.0151.5145.06524090.578.089.3109.892.36524179.379.388.0106.384.06524294.086.094.8119.095.56524372.379.077.088.089.0head(geneNames(mydata)#ProbeSetnames110000_at10001_at100
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 玛依拉169课件教学课件
- 废弃水窖改造工程方案(3篇)
- 房建工程结算方案(3篇)
- 安全教育线上培训课堂课件
- 安全教育生产培训会课件
- 东莞茶山装修工程方案(3篇)
- 犬伤门诊培训课件
- 牵引站安全培训记录课件
- 安全教育平台课件压缩
- 农业废弃物资源化利用在2025年农业废弃物处理与资源化利用的产业政策研究报告
- 旅行社劳动合同范文3篇
- 第2课《中国人首次进入自己的空间站》教学设计统编版八年级语文上册
- 15J403-1-楼梯栏杆栏板(一)
- 大金龙纯电动车hvcm及bms外网协议
- GB/T 19960.1-2005风力发电机组第1部分:通用技术条件
- 生产作业管理讲义
- 二年级上册《树之歌》优秀课件
- 锅炉安全技术规程
- 初中音乐《快乐的女战士》《水草舞》课件
- 易制毒化学品岗位责任制度
- 新人教版小学美术五年级上册教学设计(全册)
评论
0/150
提交评论