医学数据挖掘课件:差异和聚类分析_第1页
医学数据挖掘课件:差异和聚类分析_第2页
医学数据挖掘课件:差异和聚类分析_第3页
医学数据挖掘课件:差异和聚类分析_第4页
医学数据挖掘课件:差异和聚类分析_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基因表达数据的获得与分析基因芯片数据的基础分析思路预处理差异表达基因筛选聚类与分类功能注释和富集分析差异表达基因筛选表达谱分析的主要目的之一就是挑出差异表达的基因。何谓显著表达差异?它通常是指一个基因在两个条件中表达水平的检测值在排除实验、检测等因素外,达到一定的差异,具有统计学意义,同时也具有生物学意义。

在两个或多个条件下比较识别有显著表达差异的基因,从中识别出与条件相关的特异性基因例如,识别可用于肿瘤分型的特异基因等。筛选差异表达基因的方法倍数法假设检验法

--t检验

--方差分析法(ANOVA)

--SAM(SignificanceAnalysisofMicroarrays)--信息熵倍数法(foldchange)最早应用于基因芯片数据分析的方法,也是常用方法一般0.5-2.0范围内的基因不存在明显的表达差异,该范围之外则认为基因的表达出现明显改变.优点是计算简单直观,缺点是倍数阈值的选取是任意的,而且没有考虑到差异表达的统计显著性,忽视了变化小的基因实验样本中的表达值对照样本中的表达值t检验

(t-test)判断基因在两种不同条件下的表达差异是否具有显著性方差分析(ANOVA)其目的是推断两组或多组资料的总体均数是否相同,检验两类或多类样本均数的差异是否有统计学意义它将基因在样本之间的总变异分解为组间变异和组内变异两部分。通过方差分析的假设检验判断组间变异是否存在,如果存在则表明基因在不同条件下的表达有差异。SAM是通过FDR值矫正多重假设检验中的假阳性率SAM分析步骤计算统计量,是t统计量的修正扰动实验条件,计算扰动后的基因表达的相对差异统计量计算扰动后的平均相对差异统计量估计FDR(falsediscoveryrate)SAM(significanceanalysisofmicroarrays)确定差异表达基因阈值:以最小的正值和最大的负值作为统计阈值,运用该阈值,统计在值中超过该阈值的假阳性基因个数,估计假阳性发现率FDR值。通过调整FDR值的大小得到差异表达基因。SAM(significanceanalysisofmicroarrays)实现程序data<-read.table("C:\\R实现\\miRNA_expression_all.txt",header=T);rownames(data)<-data[,1];data<-data[,-1];d<-data[,1:60];n<-data[,61:75];fold_change<-apply(d,1,mean)/apply(n,1,mean);#fold_change值

ttest<-matrix(0,nrow=dim(data)[1],ncol=2);for(iin1:dim(data)[1]){t<-t.test(n[i,],d[i,],var.equal=T);ttest[i,1]<-t$statistic;ttest[i,2]<-t$p.value;}#t检验的P值和t统计量

fdr<-p.adjust(ttest[,2],"BH");#P值的BH校正上下调基因:foldchange>1.5且fdr_BH<0.1index1<-(fold_change<1/1.5)|(fold_change>1.5);index2<-fdr<0.1;index<-index1&index2;result<-cbind(rownames(data),fold_change,ttest,fdr);colnames(result)<-c("miRNA","Fold_change","TSores","PValues","fdr_BH");result<-result[index,];write.table(result,"C:\\R实现\\up_down_gene.txt",s=F,quote=F,sep="\t");差异表达基因结果15个表达下调miRNA20个表达上调miRNA结果基因芯片数据的基础分析思路预处理差异表达基因筛选聚类与分类功能注释和富集分析引言物以类聚,人以群分基于物体的相似性将物体分成不同的组基因表达谱数据的聚类对基因进行聚类识别功能相关的基因识别基因共表达模式对样本进行聚类质量控制检查样本是否按已知类别分组亚型识别距离尺度函数(相似性)几何距离欧氏距离,切氏距离马氏距离,明氏距离线性相关系数

皮尔森相关系数非线性相关系数斯皮尔曼秩相关其他明氏距离令表示样品与的距离

设原始数据为特别地,当k=1时,即为绝对值距离当k=2时,即为欧氏距离当k=∞时,即为切比雪夫距离几何距离123452018104471055325.236.328.911.517欧氏距离切比雪夫距离变量间相似系数变量和的相关系数:

皮尔森相关系数斯皮尔曼秩相关系数又称等级相关系数,或顺序相关系数,是将两要素的样本值按数据的大小顺序排列位次,以各要素样本值的位次代替实际数据而求得的一种统计量。层次聚类层次聚类算法将研究对象按照它们的相似性关系用树形图进行呈现,进行层次聚类时不需要预先设定类别个数,树状的聚类结构可以展示嵌套式的类别关系。层次聚类在对含非单独对象的类进行合并或分裂时,常用的类间度量方法类p与q之间的距离pq欧氏距离+最小距离AD欧氏距离+最小距离并类距离并类距离欧氏距离+最小距离并类距离并类距离欧氏距离+最小距离并类距离决定类的个数与类

观察此图,我们可以把4个样品分为2类、聚类法的基本步骤:1.

计算n个样品两两间的距离,记作D=。2.

构造n个类,每个类只包含一个样品。3.

合并距离最近的两类为一新类。4.

计算新类与各当前类的距离。5.

重复步骤3、4,合并距离最近的两类为新类,直到所有的类并为一类为止。6.

画聚类谱系图。7.

决定类的个数和类。准则:同一个聚类中的对象尽可能的接近或相关,不同聚类中的对象尽可能的原理或不同层次聚类确定类别个数?相似性阈值指定类别数层次聚类疾病的遗传异质性Geneticheterogeneityreferstomultipleoriginscausingthesamedisorderindifferentindividuals.层次聚类层次聚类层次聚类Coupledtwo-wayclustering(CTWC)采用嵌套式基因和疾病

两个方向的循环搜索,

识别疾病亚类及导致

疾病亚类发生的对应

基因簇程序index<-rownames(data)%in%result[,1];#聚miRNadiff_expr<-data[index,];hc<-hclust(dist(diff_expr),"ave");plot(hc,hang=-1);#聚样本diff_expr2<-t(diff_expr);hc<-hclust(dist(diff_expr2),"ave");plot(hc,hang=-1,cex=0.5);K均值聚类基

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论