生物芯片表达谱分析技术_第1页
生物芯片表达谱分析技术_第2页
生物芯片表达谱分析技术_第3页
生物芯片表达谱分析技术_第4页
生物芯片表达谱分析技术_第5页
已阅读5页,还剩65页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物芯片表达谱分析技术主要内容常用公共微阵列数据库

GEO,ArrayExpress常用微阵列数据预处理软件

R(Bioconductor),Arraytool识别差异表达基因方法

Foldchange,Ttest,SAM常用公共数据库及检索实例目前主要芯片数据库

GEO主页面简介GEO数据库创建于2000年,是当今最大、最全面的公共基因表达数据资源。GEO数据库覆盖广泛的生物学内容,包括疾病、代谢、药理学、药学、免疫学和生态学等。数据来自世界各地实验室研究者的提交。数据类型包括核苷酸阵列(cDNA、寡核苷酸),比较基因组杂交,质谱分析蛋白质组等等。包含1600多个物种:/geo/summary/?type=taxfullGEO组成及结构

GEO将研究者递交的数据分成三个等级的实体类型,分别是平台(platform)、系列(series)和样本(sample),它们每个均可保存到独立相关的数据库,因为它们分别被赋予了一个唯一的、永恒不变的标志符。数据库中的记录种类1:平台(Platform):描述芯片的特性,如寡核苷酸探针组,cDNA,SAGE标签,抗体等。一个平台可以被不同样本、不同系列引用。平台登录号的首字母为“GPL”。样本(Sample):描述了样本是如何从未处理状态到形成最后的提交数据,包括经过何种处理,处理方式,如何从中提取待测生物分子,生物分子如何被标记,如何杂交,如何扫描,原始数据经过何种处理转化为提交数据,以及最后提交结果中每种分子的测量值。一个样本只能引用一种平台,却可以被多个系列引用。样本登录号的首字母为“GSM”。系列(Series):包括一组相关的样本,以及对整个研究的介绍。一个系列可以引用多个样本,可以引用多个平台。系列登录号的首字母为“GSE”。数据库中的记录种类2:数据集(Dataset):是由系列整理后形成的,一个系列可以形成一个或者多个数据集。一个数据集只引用一个平台,且经过处理后,同一个数据集内的不同芯片间同一个基因的值是可以直接比较的。数据集登录号首字母是“GDS”。表达谱(Profile):从数据集中抽取的,一个基因在不同个样本中的表达值组成的数组。数据的检索、浏览与下载根据需求在该对话框中输入关键字例如:lungbloodmiRNAhomo数据下载ArrayExpress主页面http://www.ebi.ac.uk/arrayexpress/ArrayExpress是一个公开的,免费访问的数据库

用户可进行提交,查询和下载相应的表达数据。ExperimentsArchive------检索窗口

截止到目前为止收录1223250个芯片(array)数据,涉及到43124个实验(experiment)工作,涵盖200多个物种。包含基因表达数据,copynumber数据,microRNA表达数据等不同类型的高通量数据。ArrayExpress简介在上述箭头所指区域内,可以直接输入实验数据编号,查询数据样本量,癌型等关键词信息进行相应查询。例如:实验数据编号-----E-GEOD-17710,E-MEXP-1029,E-AFMX-5,E-SMDB-2287,E-TABM-343等等关键词-----humanlungcancermicroRNA或者不输入任何信息直接点击进入下述页面,返回所有的实验数据。

数据查询和下载可以在上述箭头所示区域进行进一步的过滤筛选:A:如果查询lung相关数据,只要输入lung,会自动提示如下相关信息进行筛选ABCDE注意:若输入多个关键词,默认的是AND连接,输入lungcancer其实匹配的是‘lungANDcancer’。B:可以进行物种过滤查询,有如下200多个物种可供选择C:可以通过数据涉及平台进行过滤查询,包括affymatrix,agilent,illumina等多种芯片平台。D和E:可对数据类型(蛋白,RNA,DNA等),芯片技术类型(质谱,测序等)进行过滤筛选。例如进行如下筛选返回64个结果:点击箭头所示‘加号’,展示如下结果:ABCDEFG下载数据预处理的数据:

E-GEOD18842.processed.1.zip原始数据:

E-GEOD-18842.raw.1.zipE-GEOD-18842.raw.2.zipE-GEOD-18842.raw.3.zip

样本信息:

E-GEOD-18842.sdrf.txt

平台信息:

A-AFFY-44.adf.txt微阵列数据预处理及其相应的软件图像分析和数据提取数据预处理差异表达筛选后续芯片数据分析芯片数据分析流程芯片数据预处理 1.

背景校正(BackgroundCorrection);

2.标准化(Normalization); 3.合并(Summary).中位数标准化方法(quantile)中位数标化步骤如下:第一步:对每张芯片的数据点排序。第二步:求出同一位置的几次重复实验数据的均值,并用该均值代替该位置的基因的表达量。第三步:将每个基因还原到本身的位置上。局部加权回归标化(Loess)方法局部加权回归标化步骤如下:第一步:首先确定以x为中心的一个区间(Window)内参加局部回归的观察值的个数q。q值设的越高则得到的拟和曲线越平滑,但对变量关系的细 微变化越不敏感。小的q值会对细微的变化很敏感,但是得到的拟和曲线变得很粗糙。第二步:定义区间内所有点的权数,权数由权数函数来决定,任一点的权数是权数函数的曲线的高度。第三步:对每个区间内的q个散点拟和一条直线,拟合曲线描述这个区间内的变量关系。第四步:拟合值y值就是在x点的y的拟合值。

对基因表达数据的分析,其重要任务之一是筛选差异表达基因,即通过比较正常和疾病状态下基因表达的差异。常用筛选差异表达基因的方法:

1.倍数法(foldchange)

2.T检验(T-test)

3.SAM(significanceanalysisofmicroarrays)

筛选差异表达基因FC方法-foldchangeFC(Foldchange)常称为倍数法或倍数差异法,是早期基因芯片实验常采用的筛选差异基因表达的方法,其算法如下:其中和分别为对不同分组每例观测的基因表达水平取对数后的均值。FC法仅比较不同组件变量平均差别的大小,其缺点显而易见,即没有考虑到数据的离散程度,受极端值的影响较大,而极端值是微阵列实验中的常见现象。同时没有给出差异的显著性。

T检验(T-test)T检验是传统两组均数比较方法,理论上要求两组数据均来自正态分布总体且两组数据的总体方差相等。如果要评断两组样本平均数之间的差异程度,其统计量T值的计算公式为:

T

=a=(1/n1+1/n2)/(n1+n2-2)S(i):第i个基因两组均数差的标准误不足:由于标准误的估计建立在小样本的基础上,标准误的稳定性受到影响,而在大量基因中不可避免存在部分具有极小标准误的基因,t检验在样本标准误较小的情况下,即使表达均数间的差值并不大,也可能得到很大的t值而被判断为差异表达,造成了假阳性。

t检验在一定程度上也会受到极端值的影响。SAM

(significanceanalysisofmicroarrays)SAM基本原理是在传统t检验公式的分母加上一个较小的正数S0,使构建的统计量在分子(均数差值)较小的情况下不容易得到较大的t值。通过上述调整可以在很大程度上限制表达水平较低的基因被识别为差异表达基因,并且使得统计量的分布较少依赖于基因表达水平。

公式中S0的取值需要保证统计量d(i)的变异系数最小,d(i)的变异系数可以通过permutation方法作为s(i)的函数求得。SAM的初衷是避免将表达水平和变异程度均较低的无生物学意义的基因识别为差异表达基因,在t检验公式的分母中加入一个较小的正数,使得SAM法对基因表达的变异程度敏感性降低,而对基因表达平均水平的组间差异敏感性增强。即使差异表达具有较小变化的基因不会因为具有很小的标准误而被误判为差异表达基因,减小了t检验的不稳定性。决定其调整程度大小的“修正因子”S0由样本数据计算得到,这一特点使其可因数据的不同而改变调整的程度。SAM在某种程度了减弱了极端值的影响。Bioconductor是针对基因组分析的一组R语言扩展包source("/getBioC.R")getBioC()

Affy芯片数据分析举例1.Backgroundmethods:

"bg.correct“"mas""none""rma“2.NormalizationMethods:

"constant""contrasts""invariantset""loess""methods" "qspline""quantiles""quantiles.robust“3.Summarizationmethods:

"avgdiff""liwong""mas""medianpolish""playerout”4.DifferentialExpressionGenemethods“samr““t.test"

#LoadtheBioconductorpackageaffy.>library(affy)#Readthe.CELfiledata.>Data=ReadAffy()#ComputetheRMAmeasuresofexpression.>expr=justRMA(Data,background="RMA”,normalize="quantile")#Writethedatatoatab-delimitedtextfile.>write.exprs(expr,file="mydata.txt")BRB-ArrayTools是一款为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论