生物信息学基因表达数据分析ppt课件_第1页
生物信息学基因表达数据分析ppt课件_第2页
生物信息学基因表达数据分析ppt课件_第3页
生物信息学基因表达数据分析ppt课件_第4页
生物信息学基因表达数据分析ppt课件_第5页
已阅读5页,还剩107页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1 第五章 基因表达数据分析 生物信息学 2 第一节 引言 Introduction 3 基因表达组学与基因组学相比较 1. 表达组信息是动态的; 2. 表达组学的数据,更多的是数值分析; 3. 转录组学中除了模式识别外,系统建模也十分重要。 4 真核生物基因表达的基本方式 5 基因表达调控示意图 6 基因表达的时空性 7 基因表达测定方法 RT-qPCR 8 近 20年来三种不同高通量基因表达测定技术的应用趋势 9 高通量基因表达测定的应用实例 1.测定组织特异性基因表达 2.基因功能分类 3.癌症的分类和预测 4.临床治疗效果预测 5.基因与小分子药物、疾病之间的关联 6.干细胞的全能型、自我更新和细胞命运决定研究 10 7.动植物的发育研究 8.环境对细胞基因表达的作用 9.环境监测 10.物种的繁育 11 第二节 基因表达测定平台 与数据库 Microarray Platform and Databases 12 1.cDNA 芯片 2.Affymetrix芯片 3.下一代 测 序技 术 技 术 如: Roche-454, Illumina MiSeq, Ion Torrent PGM 一、基因表达测定平台介绍 13 二、 Microarray技术与 RNA-Seq技术的比较 1.RNA-Seq技术对没有已知参考基因组信息的非模式 生物,也可测定转录信息; 2.RNA-Seq技术可以测定转录边界的精度达到一个碱 基, RNA-Seq可以用来研究复杂的转录关系; 3.RNA-Seq可以同时测定序列的变异; 4.RNA-Seq背景信号很小,测定的动态范围很大。 14 RNA-Seq在基因表达的定量上准确性很高; RNA-Seq在测定技术上和生物上重复性很高; RNA-Seq的测定需要很少的 RNA样本。 在应用上 RNA-Seq技术对 ISOFORM的测定和等位 基因的区分比芯片技术有很好的优势。 15 三、基因表达数据库 常用基因表达数据库 名称 数据库内容 Gene Expression Omnibus ( GEO) 目前最常用的基因表达数据( NCBI) Expression Atlas 欧洲生物信息学中心的基因表达数据 库 SMD Stanford基因表达数据 库 RNA-Seq Atlas 正常 组织 的基因表达 谱 数据 GEPdb 基因型、表型和基因表达关系 GXD 老鼠 发 育基因表达信息 EMAGE 老鼠胚胎的 时 空表达信息 AGEMAP 老鼠老化的基因表达数据 16 疾病相关基因表达数据库 数据库名称 数据库内容 GENT 肿 瘤 组织 与正常 组织 的表达数据 ParkDB 帕金森病的基因表达数据 库 cMAP 小分子化合物 对 人 细 胞基因表达的影响 Anticancer drug gene expression database 抗癌化合物的基因表达数据 CGED 癌症基因表达数据 库 (包括 临 床信息) 17 第三节 数据预处理与差异表达分析 Preprocessing of Microarray Data and Analysis of Differentially Expression Gene 18 一、基因芯片数据预处理 (一)基因芯片数据的提取 cDNA微阵列芯片荧光信号 19 定性信息提取: P/A/M( Present/Absent/Marginal ) 定量信息提取:基于探针集汇总后的基因水平的荧 光信号强度值 原位合成芯片 20 (二)数据 对数化转换 对芯片数据做对数化转换后,数据可近似正态分布 21 (三) 数据过滤 数据过滤的目的是去除表达水平是负值或很小的 数据或者明显的噪声数据。 n 过闪耀现象 n 物理因素导致的信号污染 n 杂交效能低 n 点样问题 n 其他 22 (四) 补缺失值 1.数据缺失类型 非随机缺失 基因表达丰度过高或过低。 随机缺失 与基因表达丰度无关,数据补缺主要针对随机缺 失情况。 23 高表达基因的数据缺失 24 2.数据补缺方法 ( 1)简单补缺法 missing values = 0 expression missing values = 1 expression ( arbitrary signal) missing values = row ( gene) average missing values = column ( array) average 25 ( 2) k近邻法 选择与具有缺失值基因的 k个邻居基因 用邻居基因的加权平均估计缺失值 参数 邻居个数 距离函数 26 27 ( 3)回归法 28 (五) 数据标准化 1.为什么要进行数据标准化 :存在不同来源的系统误差 染料物理特性差异(热光敏感性,半衰期等) 染料的结合效率 点样针差异 数据收集过程中的扫描设施 不同芯片间的差异 实验条件差异 29 2.运用哪些基因进行标准化处理 芯片上大部分基因(假设芯片上大部分基因在不同 条件下表达量相同) 不同条件间稳定表达的基因(如持家基因) 控制序列( spiked control) n在不同条件下表达水平相同的合成 DNA序列或外 源的 DNA序列。 30 3. cDNA芯片数据标准化处理 ( 1)片内标化( within-slide normalization)方法 全局标化、荧光强度依赖的标准化 、 点样针组内标 准化 。 31 假设: R=k*G 方法 : c=log2k:中值或均值 全局标化 ( global normalization) 32 荧光强度依赖的标化 ( intensity dependent normalization) 为什么 方法 : scatter-plot smoother lowess拟合 c( A)为 M 对 A 的拟合函数 标化后的数据 33 点样针依赖的标化 ( within-print-tip- group normalization) 为什么 一张芯片的不同区域运用不同的点样针点样,从而 引入点样针带来的系统误差。 method 34 ( 2)染色互换实验( dye-swap experiment)的标化 实验组 对照组 芯片 1 cy5( R) cy3( G) 芯片 2 cy3( G) cy5( R) 前提假设: c c 方法 : 35 线性标化法 ( linear scaling methods) 与芯片内标化的尺度调整( scale adjustment)方 法类似。 非线性标化法 ( non-linear methods) 分位数标化法 ( quantile normalization) 两张芯片的表达数据的分位数标化至相同,即分布 于对角线上。 ( 3)片间标化( multiple-slide normalization) 36 4. 芯片数据标准化 对每个探针对计算 R R = ( PM MM ) / ( PM + MM ) 比较 R与定义的阈值 Tau(小的正值,默认值为 0.015 ) 单侧的 Wilcoxons Signed Rank test产生 p值,根据 p值定义定量信号值 Present call Marginal call Absent call ( 1) 提取定性信号 37 38 分析步骤 获取探针水平数据 背景值效正 标准化处理 探针 特异背景值效正 探针集信号的汇总 ( 2)提取定量信号 39 1 分析方法 40 2 41 3 42 4 43 5 44 6 45 M = log2R - log2G A = ( log2R + log2G) /2 7 46 8 47 9 48 前面提及的标准化方法仅效正了数据分布的中心, 在不同的栅格间 log-Ratios 的方差也不同。 49 50 二、差异表达分析基本原理与方法 (一)倍数法 实验条件下的表达值 对照条件下的表达值 通常以 2倍差异为阈值,判断基因是否差异表达 51 (二) t 检验法 运用 t 检验法可以判断基因在两不同条件下的表 达差异是否具有显著性 52 (三)方差分析 53 两种或多种条件间下基因表达量的比较,用方差分析 。它将基因在样本之间的总变异分解为组间变异和组 内变异两部分。通过方差分析的假设检验判断组间变 异是否存在,如果存在则表明基因在不同条件下的表 达有差异。 54 (四) SAM 法 ( significance analysis of microarrays) 1. 多重假设检验问题 型错误( 假阳性) 在假设检验作推断结论时,拒绝了实际上正确的检验 假设,即将无差异表达的基因判断为差异表达。 型错误 (假阴性) 不拒绝实际上不正确的,即将有差异表达的基因判断 为无差异表达。 55 在进行差异基因挑选时,整个差异基因筛选过程需 要做成千上万次假设检验,导致假阳性率的累积增 大。对于这种多重假设检验带来的放大的假阳性率 ,需要进行纠正。常用的纠正策略有 Bonferroni效 正,控制 FDR( false discovery rate)值等。 56 2. 分析步骤 计算统计量 扰动实验条件,计算扰动后的基因表达的相对差 异统计量 计算扰动后的平均相对差异统计量 57 确定差异表达基因阈值 n 以最小的正值和最大的负值作为统计阈 值,运用该 阈值,统计在值中超 过该阈值的假阳性基因个数, 估计假阳性发现率 FDR值。 调整 FDR值的大小得到差异表达基因。 58 59 (五)信息熵 运用信息熵进行差异基因挑选时,不需要用到样本 的类别信息,所以运用信息熵找到的差异基因是指 在所有条件下表达波动比较大的基因。 60 三、差异表达分析应用 以一套阿尔海茨默病相关的基因表达谱数据( GSE5281)为例,详细介绍如何利用 BRB- ArrayTools软件进行数据预处理,并对处理过的 标准化的基因芯片数据利用 SAM软件进行差异表 达分析的过程。 61 GSE5281数据是利用 Affymetrix公司的寡核苷酸芯片 HG-U133 Plus 2.0 Array检测阿尔海茨默病病人和正 常老年人大脑中六个不同区域的基因表达情况,本 例仅选择其中一个区域 内侧颞回( middle temporal gyrus,MTG)的数据进行说明 。 62 第一步:导入芯片数据 使用 “import data”下的 “General Format Importer” 导入基因芯片数据,数据间用 Tab键分隔(或使用 Excell文件),也可使用 “Data Import Wizard” 进行 导入 。 63 导入芯片数据 64 第二步:选择文件类型 每张芯片用单独的文件存储 ,多个文件保存在一个文 件夹 “Array are saved in separate files stored in one folder” 若多张芯片数据组织成一个矩阵形式 ,存储在一个文 件中 “Array are saved in horizontally aligned file” 65 选择记忆芯片数据文件类型 66 第三步:选择芯片数据文件所存储的路径 注意路径中不能包含中文 67 第四步:选择基因芯片平台 68 第五步:选择文件格式 69 第六步:数据的过滤和标准化 70 第七步:基因注释 由于基因芯片检测的是探针的表达情况,而探针 和基因之间往往不是一一对应,所以,在数据导 入后软件会询问是否需要进行基因注释,及是否 需要将探针转换成相应的基因名 (gene symbol)或 Entrez ID 71 第八步:运行 SAM FDR=0.01, delta=0.68 选出 2209个在阿尔海茨默病病人和正常人脑组织 中表达发生显著性改变的基因。 72 SAM的参数设定 73 第九步: SAM Plot 74 SAM Plot 75 第四节 聚类分析与分类分析 Clustering Analysis and Classification 76 一、聚类目的 基于物体的相似性将物体分成不同的组 77 二、基因表达谱数据的聚类 对基因进行聚类 识别功能相关的基因 识别基因共表达模式 对样本进行聚类 质量控制 检查样本是否按已知类别分组 发现亚型 78 样本 基因 79 三、距离(相似性)尺度函数 几何距离 线性相关系数 非线性相关系数 互信息 80 四、聚类算法 层次聚类算法将研究对象按照它们的相似性关系用 树形图进行呈现,进行层次聚类时不需要预先设定 类别个数,树状的聚类结构可以展示嵌套式的类别 关系。 (一)层次聚类 81 82 在对含非单独对象的类进行合并或分裂时,常用的 类间度量方法。 类间相似性度量方法 83 2000年 Alizadeh 等运用基因芯片 数据,基于层次 聚类算法证实了 DLBCL肿瘤病人 在 mRNA层面确 实存在两种亚型 84 (二) k 均值聚类 基本思想 85 (三)自组织映射聚类 基本思想 在不断的学习过 程中,输出层的 神经元根据输入 样本的特点进行 权重调整,最后 拓朴结构发生了 改变。 86 (四)双向聚类 双向聚类就是识别基因表达谱矩阵中同质的子矩阵 ,运用特定的基因子类识别样本子类。 87 双向聚类识别同质的子结构 88 五、分类分析(一)线性判别分类器 89 (二) k 近邻分类法 90 (三) PAM方法 ( prediction analysis for microarray) 基本思想 每类样本的质心向所有样本的质心进行收缩,即收缩 每个基因的类均值,收缩的数量由值决定。当收缩过程 发生时,某些基因在不同类中将会有相同的类均值,这 些基因就不具有类间的区别效能。 91 基因 1 基因 2 92 分析步骤 计算统计量 对公式经过变换得到 93 收缩各类的均值 判断新样本类别 94 (四)决策树 基本思想 决策树又称多级分类器,它可以把一个复杂的多类别 分类问题转化为若干个简单的分类问题来解决。 决策树的结构:一个树状的结构,内部节点上选用一 个属性进行分割,每个分叉都是分割的一个部分,叶 子节点表示一个分布。 95 决策树应用于肿瘤基因表达谱的分类分析 96 分析步骤:提取分类规则,进行分类预测 在构造决策树的过程中最重要的一点是在每一个分 割节点确定用哪个属性来分类(或分裂) 这就涉及到关于使用什么准则来衡量使用 A属性比使 用 B属性更合理 决策树分类算法 output 训练集 决策树 input 97 衡量准则 信息增益 information gain 基尼指数 Gini index 98 决策树的修剪 消除决策树的过适应问题 消除训练集中的异常和噪声 99 (五)分类效能评价 1.构建训练集和检验集 n倍交叉验证( n-fold cross validation) Bagging( bootstrap aggregating) 无放回随机抽样 留一法交叉验证 ( leave-one-out cross validation, LOOCV) 100 2.分类效能 灵敏度( sensitivity, recall) 特异性( specificity) 阳性预测率( positive predictive value, precision) 阴性预测率( negative predictive value) 均衡正确率( balanced accuracy) 正确率( correct or accuracy) 101 第五节 基因表达谱数据分析软件 Software Tools for Gene Expression Profile Analysis 102 一、 R程序示例 R程序 说明 a = 49 ; sqrt( a) 赋值 可用 “=”,也可用 “- ”; R的 语 句 可以写在一行,用 “; ”分开 seq( 0, 5, length=6) seq 是 R的一个函数;具体可以 输 入命 令 “? seq”查 找 seq的具体使用方法 plot( sin( seq( 0, 2*pi, length=100) plot 是画 图 函数, a = “The dog ate my homework“ 是一个字符串 sub( “dog“,“cat“,a) sub的功能是将 a中的 “dog”用 “cat”替代 , 结 果 为 “The cat ate my homework“ a = ( 1+1=3); a a 是一个 逻辑变 量, 结 果 为 : FALSE 103 R程序 说明 x - 1:6 “: ”在 这 里是 from : to的意思 ,结 果 是 1, 2, 3,4,5,6。 dim( x) -c( 3,4) ; x dim函数是 维 数的意思, 这 里的功能是 将 x变为 3X4维 的基 阵 a = c( 7,5,1) ; a2 C函数的功能是 组 合, 这 里将 3个数 组 合 赋值给 a, a2是 5 doe = list( name=“john“,age=28, married=F) doe是 list, 与向量的差 别 是可以由不同的 变 量 组 合 doe$name; doe$age R语 言中,特殊符号的作用 104 二、 BioConductor命令示例 BioConductor 命令 说明 source( “/biocLite.R“) ; biocLite( c(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论