




已阅读5页,还剩23页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
聚类分析与分类分析,数据聚类和分类是重要的数据挖掘方法,表达谱基因聚类可以将那些具有相关功能和共调控关系的基因聚在一起,用于推断调控基因、注释基因功能和确立分子标签,为进一步详细研究基因的功能打下基础。表达谱样本聚类可以帮助发现新的疾病亚型。样本分类可以提高复杂疾病诊断的正确率。,XXX学号,基因表达谱分析所采用的常用方法是聚类,其目的就是将基因分组。,聚类分析,聚类分析是一种无监督学习方法,不需要任何先验领域知识。从生物学的角度,聚类分析方法所隐含的生物学意义或基本假设是,组内基因的表达谱相似,它们可能有相似的功能。,但聚类只是为了寻求类,不管所聚的类别是否有意义。,对基因表达谱进行聚类分析之前,必须首先确定反映不同基因表达谱相似程度的度量函数,根据该函数可以将相似程度高的基因分为一类。在实际计算中,还可以用距离代替相似的概念,相似性度量被转化为两个基因表达谱之间的距离。距离越小,表达模式越相近;反之,则表达模式差异大。,常见的相似性度量:欧氏距离(Euclideandistance)Pearson相关系数(Pearsonscorrelationcoefficiency)互信息(mutualinformation),聚类分析相似性(距离)尺度函数,欧氏距离,欧氏距离(Euclideandistance)是一个通常采用的距离定义,它是在空间中两个点之间的真实距离。,MinkowskiDistance公式不是一种距离,而是一组距离的定义可以随意取值,可以是负数,也可以是正数,或是无穷大,EuclideanDistance公式明氏公式=2的情况,从本质上说Pearson相关系数是测量两个表达矢量所指方向的相似性,处理时将其视为单位矢量,因而对幅度的变化不敏感。但若两个不很相似的基因表达谱在某一突出的的峰或谷特别相关的话,Pearson相关系数可能得出假阳性。相关系数的一个有趣的性质是它可用来检测负相关的基因,Pearson相关系数,几何距离比较适合衡量样本间的相似性或基因在样本空间(如不同组织间)的相似性。当基因表达数据是一系列具有相同变化趋势的数据时,运用几何距离会丢失重要信息,距离和相关系数反映的都是基因表达谱之间的相似性,这种相似性反映了基因的共表达行为,而基因的行为是复杂的,它们之间存在调控和被调控的关系,或者存在调控链,调控还有正性调控和负性调控之分。对于这些调控关系,它们的表达谱往往是不相似的,或者存在时延、或者存在反相,而基因表达的幅度也可能不相等。如何从数据中发现这些复杂的基因关系呢?,考虑到了两个或多个基因对同一输入基因控制信号反应可能不同,一个基因可能上调,而另一个可能下调。这两种基因反应虽然不同,但常被认为功能相关。,互信息,目前,还没有理论来指导如何选择最好的相似性度量,也许一个“正确”的距离在表达模式空间是不存在的,选择何种度量函数依赖于我们要解决的问题。,总的来说,对同一种聚类算法,所用度量函数不同,结果也可能不同。,聚类算法,对于基因表达谱的聚类问题,由于目前对基因表达的系统行为了解得不全面,没有聚类的先验知识,所以通常采用无监督学习方法。在基因表达数据分析方面,层次聚类、K均值聚类、自组织映射聚类在应用中是常用的方法。下面主要介绍这几种常用的聚类方法。,层次聚类,层次聚类法,在统计分析中也称为系统聚类法。其就是一层一层的进行聚类,可以由上向下把大的类别(cluster)分割,叫作分裂法;也可以由下向上对小的类别进行聚合,叫作凝聚法;但是一般用的比较多的是由下向上的凝聚方法。,凝聚法:首先将每个表达谱当作一个类,根据一定的距离度量标准计算两类间的距离。然后反复地将距离最近的两类合并为一类,并重新计算类间距离,直到达到某种终止标准或只剩一个类。这一过程产生一树状结构,树枝高度与类间距离成正比。最后选取某一水平(即某一类间距离)的类数作最终结果。,距离度量标准,层次聚类缺点:算法的时间复杂度大结果依赖聚类的合并点和分裂点的选择层次聚类过程最明显的特点就是不可逆性,也就是说,一旦聚类结果形成,想要再重新合并来优化聚类的性能是不可能的了聚类终止的条件的不精确性,要求指定一个合并或分解的终止条件,比如指定聚类的个数或是两个距离最近的聚类之间最小距离阈值,层次聚类优点:容易理解和实现所得到的结果以树状图的形式表示,可以直观地观察基因之间的相互关系,尤其是类与类之间的关系,K均值聚类,K均值(K-means)聚类在数据划分上不考虑类的分层结构问题步骤:随机选择初始类中心将所有的表达谱分配到K个类中,根据欧氏距离,反复计算每个类的类中心,然后将每个表达谱分配到类中心与之最接近的类中,形成新的类再计算新的类中心直至类中心保持不变,或达到最大叠代次数。该算法使待聚类的所有向量到聚类中心的距离的平方和最小,K-均值聚类缺点:要求预指定类数,而实际应用中很难预测类数,因此需要通过试误,即使用多套不同的参数设定,比较其结果,并且从生物学角度对结果进行验证。需要用随机初始类中心,不同的随机类中心会有得到完全不同的结果是完全无结构的方法,聚类的结果是无组织的,K-均值聚类优点:采用误差平方和为准则函数的动态聚类方法,其计算快速,适合于大规模的数据计算,自组织映射聚类(SOM),在SOM算法中,使用者预先指定一个具有某种拓扑构形的结点群(即二维网格-每个结点对应一个类),在将这些结点随机映射到基因表达数据空间,再反复随机挑选一个表达谱,将与之最近的结点向它移近,其他结点随之移动,但移动距离与初始结点拓扑结构中结点间距离成比例。反复挑选表达谱,并移动结点,SOM缺点:也需要预先指定参数(节点群的拓扑构形)是一种拓扑保留的神经网络,易产生不均衡分类。若不相关数据过多,感兴趣的数据较少时,分辨率可能会很低。因此,在应用SOM对基因表达谱聚类前,需要对数据进行筛选,SOM优点:可以将高维表达谱映射到二维,从网格上的数据可以清楚地看到数据(基因或样本)的空间聚类情况,这非常有利于理解样本之间的关系具有稳健准确和抗噪能力强的优点,双向聚类,以上对基因表达谱采用的都是单向聚类法(one-wayclustering),即要么以整个样本中特性相似的基因进聚类,或者以基因表达相似的样本进行聚类。对样本和基因同时进行聚类就是双向聚类法,双聚类的目的:在基因表达数据矩阵中寻找满足条件的子矩阵,使得子矩阵中基因集在对应的条件集上表达波动一致,反之亦然。不同的双聚类算法采用不同的方式度量结果质量,所能找到的双聚类类型是有很大差别的。,分类分析,上述无监督的聚类分析可同时对样本和基因进行聚类。而有监督的分类分析一般是单向的,即以基因为属性,构建分类模式对样本的类别进行预测。还可以同时进行疾病相关基因的挖掘。常用分类方法:Fisher线性判别K近邻分类法(略)PAM方法决策树,Fisher线性判别,像上图所示的两种投影方案,左边的投影方向可以将两种样本区分开来,而右边的投影方向不能区分开来,所以左边的投影方向更好。,Fisher线性判别的思想是:找到一个投影矩阵,通过这个投影矩阵将各类样本数据映射到一个新的空间,使得投影后两类相隔尽可能远,而同一类内的样本尽可能聚集。,PAM方法,又叫K-medoids(K-中心点)聚类,使K-means(K-均值)聚类的改进。基本思想:每类样本的质心向所有样本的质心进行收缩。,基因1,基因2,K-均值聚类和K-中心点聚类区别:k-means的质心是各个样本点的平均,可能是样本点中不存在的点k-medoids的质心一定是某个样本点的值这个不同使他们具有不同的优缺点:k-medoids的运行速度较慢k-medoids对噪声鲁棒性比较好虽然k-medoids也有优点,但是只能对小样本起作用,样本一大其速度就太慢了,而且当样本多的时候,少数几个噪音对k-means的质心影响也没有想象中的那么重,所以k-means的应用明显比k-medoids多的多。,决策树,决策树是一种常用于预测模型的算法,它通过将大量数据有目的的分类,从中找到一些有价值的,潜在的信息。它的主要优点是描述简单,分类速度快,特别适合大规模的数据处理,分割准则:Gini指数变化信息增益(熵)上面两个准则是值越大,表示节点越“不纯”,越小表示越“纯”(二者选一即可),决策树应用于肿瘤基因表达谱的分类分析,决策树优点:不需要使用者了解很多背景知识(这同时也是它的最大缺点),概念简单,计算效率高作为一种非参数分类方法,使用者不需要输入任何参数分类的结果意义明确,可解释性强有关决策树的演变算法也很多,优化方案:修剪枝叶决策树过度拟合往往是因为太过“茂盛”,也就是节点过多,所以需要裁剪(PruneTree)枝叶。裁剪枝叶的策略对决策树正确率的影响很大。主要有两种剪枝方法:前剪枝:在构建决策树的过程时,提前停止。那么,会将切分节点的条件设置的很苛刻,导致决策树很短小。结果就是决策树无法达到最优。实践证
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 阮郎归题目及答案
- 日语高考阅读题目及答案
- 2023年学业水平合格考试三年分类汇编(真题)-专题三地球上的水03海水的运动
- 4 4 解三角形-2026版53高考数学总复习A版精炼
- 2023-2024学年江苏省南京市江宁区高二下学期期末考试数学试卷(解析版)
- 2023-2024学年广东省阳江市高二下学期期末测试数学试题(解析版)
- 整改内容回复函
- 2025年湖南省中考英语试卷真题(含答案)
- 合法的员工劳动合同
- 年产30万平方米生态木护墙板新型环保材料研发生产项目可行性研究报告写作模板-申批备案
- 2025-2030中国空调行业发展分析及发展趋势预测与投资风险研究报告
- 采购合同付款协议书
- 浙江省嘉兴市2023-2024学年高一下学期6月期末考试英语试题(含答案)
- 多模态数据融合的智能告警机制-洞察阐释
- 2025江西上饶市国控投资集团限公司招聘中层管理6人易考易错模拟试题(共500题)试卷后附参考答案
- 2025-2030中国碲化镉(CdTe)行业市场发展趋势与前景展望战略研究报告
- 东莞市行政规范性文件制定程序中公众参与的多维度审视与优化路径
- 急性心梗的介入治疗课件
- 储能站施工组织设计施工技术方案(技术标)
- 楼梯 栏杆 栏板(一)22J403-1
- 2024年河南省豫地科技集团有限公司招聘笔试参考题库含答案解析
评论
0/150
提交评论