




已阅读5页,还剩67页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Analysisofmicroarraydata CuiQinghua2009 03 06 1 Outline IntroductionDatabasesDetectionofdifferentiallyexpressedgenesClusteringClassificationPrincipalcomponentanalysis PCA PathwayandOntologyanalysisSurvivalanalysis 2 Introduction 我只强调一点 基因芯片数值反应的是mRNA的丰度 abundancy 因此 可以在一定程度上反应基因的表达水平 3 BiologicalQuestion SamplePreparation DataAnalysis Modelling MicroarrayReaction MicroarrayDetection TakenfromSchena Davis Microarray总流程 4 应用 差异表达基因检测 不同组织 不同时间 不同条件等 基因联合调控疾病诊断基因功能鉴定药物筛选和新药开发 5 应用 以人类疾病为例 神经系统 肿瘤 aging CNS炎症 多发性硬化 老年痴呆 精神分裂症 癫痫 帕金森病等 呼吸系统 肺癌 支气管哮喘 原发性肺动脉高压 肺间质纤维化 结节病等 消化系统 肿瘤 肠炎等其他 造血系统疾病 传染性疾病 生殖系统疾病以及泌尿系统疾病等 6 s1s2s3 sj sM g1g2 gi gN geneprofile arrayprofile Gi Aj Microarraydatamatrix Mi j 7 Databases 三大基因表达数据库 美国国立生物信息中心NCBI的GeneExpressionOmnibus数据库 GEO http www ncbi nlm nih gov geo 8 Databases 三大基因表达数据库 欧洲生物信息学研究所EBI的ArrayExpress数据库 http www ebi ac uk microarray as ae 9 Databases 三大基因表达数据库 美国斯坦福大学的SMD数据库 http genome www5 stanford edu 10 数据预处理 数据缺失原因图像受到污染图像分辨率不足片上灰尘或刮痕缺失数据的处理方法舍弃该数据 同时丢掉了有用信息 再做一次实验 太昂贵了 用某个数取代 比如样本均值K nearestneighbors估计奇异值分解 SVD 估计标准化Log变换线性回归伸缩 平移 11 Detectionofdifferentiallyexpressedgenes 两类样本ttestWilcoxontest 多类样本anova 多重检验校正BonferoniFDR 12 软件 SAM SignificanceAnalysisofMicroarrays Tusheretal 2001 需要R软件包Excel嵌入式函数 13 Clustering 14 Clustering三要素 相似性度量Pearson scorrelationSpearman scorrelationEuclidiandistanceCityblockdistance聚类准则聚类算法 15 聚类算法 层次聚类 假设有N个样本 第一级 每个样本为1类 即有N类 依次合并 直到样本只有一类 非层次聚类K meansFuzzyc means自组织映射 16 Clustering软件 Cluster MichaelEisenetal 步骤 打开软件装入数据 格式解释 选择聚类办法设置参数运行 17 18 层次聚类法的基本步骤 层次聚类法的基本步骤对数据进行变换 定义样本间的距离 如欧氏距离 类别之间的距离 如最短距离 首先将t个样本各自视为一类 得到初始的分类G 1 含有t类 计算t个样本两两之间的距离 它们等价于初始的类间距离 得到初始的距离矩阵D 1 将距离最近的两类合并为一新类 得到新的分类G 2 含有t 1类 并计算新类与其它类的类间距离 得到新的类间距离矩阵D 2 再按照最小距离准则并类 得到G 3 含有t 2类 D 3 直到所有样本都并成一类 画出谱系聚类图 决定分类的个数及各类的成员 19 X1 X2 X3 X4 X5 X6 X1 X2 X4 X3 X5 X6 20 层次聚类法举例 已知 根据5种灵长类动物朊粒蛋白的氨基酸序列比较 得到它们之间的距离矩阵 经过数据变换处理 X 1 Gibbon 长臂猿 X 2 Symphalangus X 3 Human 人 X 4 Gorilla 大猩猩 X 5 Chimpanzee 黑猩猩 构造 样本间距离 欧氏距离 类间距离 最短距离 21 步骤15个物种各自构成1类 得到5类 有 初始分类G 1 X i i 1 2 3 4 5 初始类别数目m 5初始类间距离矩阵D 1 D 1 22 步骤2由D 1 知 合并X 1 和X 2 为一新类C 4 X 1 X 2 有 新的G 2 X 3 X 4 X 5 C 4 新的类别数目m 4新的类间距离矩阵D 2 D 2 23 步骤3由D 2 知 合并X 3 和X 4 为一新类C 3 X 3 X 4 有 新的G 3 X 5 C 4 C 3 新的类别数目m 3新的类间距离矩阵D 3 D 3 24 步骤4由D 3 知 合并X 5 和C 3 为一新类C 2 X 5 C 3 有 新的G 4 C 4 C 2 新的类别数目m 2新的类间距离矩阵D 4 D 4 25 步骤5由D 4 知 最后合并C 4 和C 2 为一新类C 1 C 4 C 2 有 新的G 5 C 4 C 2 新的类别数目m 1新的类间距离矩阵D 5 D 5 26 X 1 X 2 X 3 X 4 X 5 步骤6画谱系聚类图 1 2 3 0 Gibbon Symphalangus Human Gorilla Chimpanzee 27 影响聚类结果的主要因素样本间距离的定义dij类间距离的定义Dij 28 层次聚类linkage方法 Linkage方法直接影响了聚类结果 它取决于类间距离如何定义 关于类间距离有如下几种 Centroidlinkage 几何中心距离 仅适用于欧氏距离 ThedistancebetweentwoclustersistheEuclideandistancebetweentheircentroidsSinglelinkage 最短距离Completelinkage 最长距离Averagelinkage 平均距离 29 centroidlinkage几何中心距离 讨论 递推公式 设Gr是由Gp和Gq合并得到的新类 考虑Gr与Gs s p q 的类间距离 几何中心距离 Drs 有 定义 用Gp和Gq两类几何中心的距离为两个类之间的距离 用Gp和Gq表示两个类 它们所包含的样本数目分别为tp和tq 类Gp和Gq之间的距离用Dpq表示 30 singlelinkage最短距离 讨论 递推公式 设Gr是由Gp和Gq合并得到的新类 考虑Gr与Gs s p q 的类间距离 最短距离 Drs 有 定义 Gp和Gq中最邻近的两个样本的距离为这两个类之间的距离 31 completelinkage最长距离 讨论 递推公式 设Gr是由Gp和Gq合并得到的新类 考虑Gr与Gs s p q 的类间距离 最长距离 Drs 有 定义 Gp和Gq中相距最远的两个样本的距离为这两个类之间的距离 32 averagelinkage类平均距离 讨论 递推公式 设Gr是由Gp和Gq合并得到的新类 考虑Gr与Gs s p q 的类间距离 类平均距离 Drs 有 定义 用Gp和Gq中每两两样本间距离的平均值作为两个类之间的距离 33 类别数目的确定 X 1 X 2 X 3 X 4 X 5 1 2 0 Dcr1 Dcr2 Dcr3 Dcr4 Dcr5 34 层次聚类结果的可视化 TreeView 35 非层次聚类 选取聚类种子点 Clusterseeds 初始分类 修改分类 分类是否合理 最终分类 是 否 36 2020 1 7 37 例 38 Microarray数据模式分类 预处理 特征提取 机器学习 决策 训练样本 新样本 分类器 决策 X F X Y 39 40 模式分类算法 线性分类器神经网络最近邻贝叶斯分类器隐马尔科夫模型分类器决策树支持向量机 41 Principalcomponentanalysis PCA 主成分分析 基因芯片数据维数高 难以可视化基因芯片数据噪音比较强PCA主要的应用降维去噪 42 PCA数学基础 统计和线性代数 均值 mean 标准差 standarddeviation 方差 43 PCA数学基础 统计和线性代数 协方差 covariance 以上测量都是针对一维变量的 然而 实际数据很多都包含2维以上的数据 统计分析的一个重要目标是检查这些维之间是否有某种关系 44 PCA数学基础 统计和线性代数 协方差 covariance 例子 样本 一个班里抽取12个学生 2维 一是每个学生的期末成绩 另一是每个学生花费在学习上的时间 45 PCA数学基础 统计和线性代数 协方差距阵 covariancematrix 矩阵代数 线性代数 这方面知识不介绍了 感兴趣的同学可以课下自学 46 PCA 举例说明 47 PCA软件 Toomany ExcelSPSSMatlabRCluster 48 PathwayandOntologyanalysis Genesetenrichmentanalysis GSEA 49 50 51 52 53 54 55 56 57 58 59 BiNGO GeneOntologyanalysisofgenecluster 二项分布如果进行n次独立试验 用X记成功次数 则有 超几何分布对N件产品 其中有M件次品 进行不放回抽样检查 在n件样品中的次品数X显然是随机变量 它的分布是超几何分布 60 61 62 Survival analysis PIB5PA271241 9e 6Miz190630 08GROUCHO70880 004CBLB8680 08HBO1111430 008UBE3A73370 01RASGAP257800 04SKP165000 03SODD95300 03 Biomarker 63 Survivalanalysis SurvivalcurveestimateandtestSurvivalcurve thefractionofpatientswhosurviveforatleastonemonth atleastthreemonths etcSurvivalcurveestimateSurvivalcurvetest comparison standardtherapycomparedtoanewertherapy 64 Survivalcurveestimates Kaplan Meier 65 Survivalcurveesti
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 农发行固原市原州区2025秋招半结构化面试题库及参考答案
- 平安银行深圳市南山区2025秋招笔试性格测试题专练及答案
- 农发行郴州市桂东县2025秋招笔试价值观测评题专练及答案
- 民生银行青岛市李沧区2025秋招面试典型题目及参考答案
- 建行基金考试题目及答案
- 招商银行福州市福清市2025秋招笔试专业知识题专练及答案
- 价格考试题库及答案
- 家政早教师考试题及答案
- 2025年执法资格真题【模拟题】附答案详解
- 浦发银行江门市蓬江区2025秋招笔试英文行测高频题含答案
- 学校党组织家访活动方案
- DB11∕T 1130-2024 公共建筑节能运行管理与监测技术规程
- 2025至2030中国海上风电行业深度研究及发展前景投资评估分析
- 数字媒体技术专业教学标准(高等职业教育专科)2025修订
- 正念心理治疗
- T/CASTEM 1007-2022技术经理人能力评价规范
- 2025年国有企业管理人员考试试卷及答案
- 焊工外聘协议书
- JT-T 329-2025 公路桥梁预应力钢绞线用锚具、夹具和连接器
- 2024-2025学年广东省深圳市南山区四年级(上)期末数学试卷
- 物业保安培训课程内容与实施策略
评论
0/150
提交评论